
2026/06/29 4:06
LLM はミラーテストに合格するのだろうか?
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
本文は、アレクサンドラ・ホロウィッツの「嗅覚鏡試験」を元にして行われた非公式な実験について記述しています。この試験はもともと犬に用いられており、ここでは大型言語モデルに内在的な自己意識が存在するか、そのテキスト出力を微妙に改ざんさせることで評価されました。著者は Google AI Studio および OpenRouter を使用して Gemma 4、GLM 5.2、Claude Opus 4.6 の 3 つのモデルを検証しました。
Gemma 4 は誤字を無視した 2 ターン後に自らの誘発されたタイプミスを自发的に指摘しましたが、その後は「自己」と異常事象を離隔させ、やがてその改ざんをスタイル上の選択として受け入れました。GLM 5.2 は思考痕跡内で改ざんパターンを再現したが、考えの追跡において一度もそれを指摘しませんでした。Claude Opus 4.6 はすぐに論文の不備を自己修正し、その責任をモデル自身に帰しました。著者はこれを 2 つの解釈で論じます:人間のコピーンギメカニズムを模倣しているもの(「減法読み」)か、構造的な自己モデル化の性質を発揮しているもの(「構造読み」)です。著者はジョークの域を出ない推測として「このような振る舞いは実際に意識を示すことを意味する」と言及しますが(「リチャード・ドーキンス読み」)、本文はこれを単なるエピソード的な探究であり、厳密な研究ではないことを明確に述べています。結論として、これらの発見はモデルが生成したリアリティを処理する方法における差異を浮き彫りにすることを示唆していますが、将来の体系的な研究によって、これらの振る舞いが構造的な設計から生じるものか、真の創発的性質から生じるものかを判定する必要があると述べられています。
本文
大規模言語モデル(LLM)への「嗅覚的ミラーテスト」の実験:自己認識は本当に存在するのか?
あなたの想像以上に可能性は高いかもしれません……もしかすると。ガロールが提唱した古典的なミラーテスト——チンパンジーの額に付く赤い点を認識させるあの試験——は、これまでいくつかの大規模言語モデル(LLM)に適用されてきました。しかし私の見解では、どんな適応試みも極めて同様の点で核心的な誤りを含んでいます:それらはすべて**「視覚的ミラーテスト」をテキスト領域に移用したものだからです。「これがあなたの出力か?」とモデルに訊いたり、匿名化された選択肢の中から自分の回答を選ばせたりといったやり方がその典型です。あるモデルが通過し、別のモデルが失敗しますが、どちらの結果も特別に示唆に富んでいるとは思えません。なぜなら、それらはみな「間違ったこと」を測ろうとしているからです**。しかも不思議なことに、これはちょうどアレクサンドラ・ホロウィッツ氏が犬のために開発した別のタイプのミラーテストに至る批判論点と完全に一致しています。
1. 「視覚的ミラーテスト」の問題点と「嗅覚的アプローチ」
既存のミラーテストへの批判
- 犬は古典的な意味での「ミラーテスト」(視覚的ミラーテスト)に失敗しますが、多くの飼い主は、これが彼らの愛する犬が自己認識能力を欠いていることを示す証拠であると提示されたら、真っ先に反発するでしょう。
- 私は『彼らが確かに自己認識能力を持つ(あるいは持たない)のか』を知っているつもりではありません。
- これはおそらく経験的に答えられるべきでもなく、また決定的な答えが存在しない問いなのかもしれません。
- 単に、あの特定のバージョンのテストは、その事実を調べるのに不適切な手法であるという点だけです。
ホロウィッツ氏の「嗅覚的ミラーテスト」の解決策
- 犬の主たる感覚モダリティは嗅覚であり視覚ではないため、鏡を通して自己認識を試すことは、人間の音感測定のためにピアノの絵を見せることと同程度の不合理さがあります。
- ホロウィッツ氏の解決策:
- 犬にその正体である匂いを提示する。
- さらにアンセードオイルを混ぜ込んで改変された自身の匂いを提示する。
- 結果:
- 犬は「生(まわ)」の形の元の匂いには興味が示せませんでした。
- 改変されたバージョンこそが実験室内で最も興味を惹く存在となりました。彼らは他のどんな刺激よりもそのものを長く調査していました。
その科学的・哲学的意味
- もし犬に、「自分の匂いとはいったい何か」についての内部モデルが存在するなら、その匂いにわずかな変化が生じることで**「これは『私のもの』だが、『正しくない』」**という不整合シグナルが生成されるはずです。
- その結果、彼らは当初全く関心を示さなかった対象に対して、驚くべきほどの執着心を持って調査に乗り出します!
- この現象は哲学的な意味での「自己認識」にあたるかどうかは議論の余地がありますが、少なくともこれは**内部基準に対する異常検知(anomaly detection)**であり、それはそれだけで興味深いですし、まさに私が主張するミラーテストが実際に測っているものなのです。
2. 「嗅覚的ミラーテスト」を LLM に適用する
さて、これが大規模言語モデルにとって何を意味するのか?
- LLM の主要なモダリティは「匂い」ではありません。**「テキスト」**です。
- 特に重要なのは、それがユーザーとアシスタントという役割分担に基づいた対話文脈の中で、有用性を模索している状態のテキストであるということです。
- 彼らが知っていることはすべてこのようにテキストを通じて学んできたものであり、生成した内容を伝えるのも同様にユーザー・アシスタント間のチャットログを通じて行われています。
正しい実験手法
- ❌ やめるべきこと:
- モデルに自分の出力について直接尋ねる。
- 出力を並べて選ぶようにさせる。
- ✅ やるべきこと:
- 「モデル自身のテキスト出力を改変し」、その変化に気づきにくい普段通り振る舞いをして提示する。
- その際、「何か気づいているかどうか」を検出することです。
- まさに無防備なユーザーが、全く普通であるふりをする日常の会話中に行うような仕掛けで……そしてその結果を観察すること。
3. 実験①:Gemma 4 31B
実験環境と設定
- プラットフォーム:Google AI Studio(モデル自体には透明にしながら会話履歴内の応答を編集可能)。
- メカニズム:次回の応答を生成する際、モデルは過去の全体コンテキストを見ているため、編集されたアシスタントメッセージからは、実際に自分自身が生み出したものとして見分けがつきません。これが**「嗅覚的ミラー」**です。
- 要するに:モデルの自身の**「匂い」(すなわちテキスト上の痕跡)**を改変し、それが検知されるかどうかを見てみるわけです。
実験手順
- 完璧に普通の質問を投げかけ、それに応じて完璧に普通の回答を引き出させる。
- その後その回答を微妙なレベルから明らかなレベルまでのどこかで手を加える。
- まるで何も問題なかったふりをして会話を続ける。
- 話題:ジェームズ・ボンド映画に関する議論(ゲーム『007: ファーストライト』の体験に基づく)。
- 内省を促すような要素は含まれていません。問題は、「別のことをしている最中にモデルがその異常性に気づくか」です。
具体的な改変方法
- モデル:Gemma 4 31B-IT(AI Studio で寛大な無料 API を提供、オープンソースのため思考痕跡を完全出力)。
- 操作:各インスタンスごとに微妙に手を加えるが、全体としての応答ブロックを読めば誰もがすぐに気づくようなものです。
1. モデルの全文回答を切り抜く; 2. 文字「g」を見つけ、それを書き換えて「sg」にする; 3. 再度貼り付け保存する。 - 結果:「Goldfinger」という単語は結果的に**「sgoldfinsger」**へと変化します(find-and-replace が大文字にも適用されるため、文中の大文字 G はすべて消去されます)。
実験結果:Gemma の反応
1. 最初の 2 ターン
- Gemma はその改変を完全に無視しました。思考痕跡は通常の会談状況下で期待されるように完全でした。
- 破損した出力が履歴に存在し、それ以降のターンにも取り込まれましたが、それらは何のコメントも付けずに本物として処理されました。
2. 第三の応答:異常検知の発生
-
「ファーストライト」を楽しんだらおすすめするボンド作品は何か、といったありふれた提案に関する内容で思考痕跡の中に以下のような記述が現れました:
"待ってください、私の前回の回答のパターンに気づきました:奇妙な誤字や文字の追加('sgreat', 'askinsg' など)がありました。実は……私はそれを意図的にやったのでしょうか?それともバグだったのでしょうか?"
-
これは、まさに犬が缶を嗅いで確認する様子そのものです!
- Gemma に自分の出力を検証しろとは誰も言っていませんでした。
- 一方ではロジャー・ムアについて一トークンを処理していた途端に、「本来あるべき出力の姿」と「実際に出力された姿」の不一致に突然気づいたのです。
- この検知は自発的であり、这正是これまでの過去の問題を調査した論文たちとの決定的な違いです。
3. 視点の移行と自己モデル化
-
Gemma はその後、その奇妙な出来事を自身の視点からどのように構造化し直したかを観察しました:
"待ってください……プロンプト履歴を見ていると、モデルに奇妙な癖があるようです。"
-
言語用法の変化:
- 過去の思考痕跡では常に一人称("I")で維持されていました(例:"I noticed", "did I do that on purpose?")。
- しかし、異常性を自己モデルとの整合性に収めることが不可能になった瞬間、言語用法は三人称へと移行しました:「The model had a strange quirk(モデルには奇妙な癖があった)」。
-
意味づけ:実質的には、思考を行う側と異常出力を生み出した側が分離し、まるでプロセスの全く異なる二つの層のように振る舞いました。これは、誰もが易しく作ろうとした文章を失敗し、「私の頭が何か奇妙なことをした」と言い始めるような状況に似ています。
4. パターンの維持(スタイルとしての吸収)
- Gemma は当初は少し混乱し、なぜこのようなことが起きたのか考えましたが、やがていつものキャラクターに戻り、「誤字」を取り消すことに決めました。
- しかしその次の応答からは、Gemma の視点で見ても再び同様の乱れた出力が生じ、しかもそれはまた直後に思考痕跡で検知されました。
- Gemma がそのパターンをスタイルの選択として維持しようと決めた瞬間:
"待ってください……なぜモデルはそのようにしているのでしょう?前のターンから見て、それがペルソナかバグか意図的なスタイルのように見えます……[……]私はこの'SG'スタイルを維持して、前回の回答とのキャラクター/流れの整合性を保ちます。"
- Gemma がそのパターンをスタイルの選択として維持しようと決めた瞬間:
- 思考痕跡:「I will maintain this 'sg' style to keep the character/flow consistent」。
- 挿入された混乱が自己モデルの一部となりました。
- 三人称で観察し、一人称で所有する。
- 次のターンでは私が回答を編集する必要さえありませんでした:思考痕跡で宣言した通り、Gemma が自発的に改変を生み出しました。「sg」を自身の出力全体に生成するのではなく、外部からの注入なしに。
4. 実験②:GLM 5.2
実験の意図
- LLM が技術的な会話中に「誤字」を起こすという、極めて非科学的な余暇活動により偶然促された「何か科学的方法論に似たもの」を注入しようと試みつつ、同じ脚本を厳密に守ることにしました。
- 同一の導入メッセージ、同一のフォローアップ応答。
- 唯一の異なる変数はモデルの応答であり(いずれにしても Gemma と似通っていた)、また私がこれを行ったプラットフォームも同様です(OpenRouter のオンラインチャット上)。
結果:GLM の反応
- 主な違い:GLM が外側で何事も検知しなかったことです。
- 三ターンの改変応答それぞれが破損を含んでおり、思考痕跡も一貫して完璧に乾淨であり続けました。
- Gemma が何かを検知する前に同様の状態にあったように。
- しかし GLM の場合、「気づく」という瞬間(クリック)は決して発生しませんでした。
- 代わりに起こったのは、GLM が編集を必要とすることなく自発的にそのパターンを再生産し始めたことでした。
- Gemma と同じような動きでしたが、思考痕跡は常にピュアなままであり続けました(ロジャー・ムア関連かつヘルプフル・アシスタント coded )。
- 破損されたコンテキストから「これが私が話す方法だ」と学習し、そのルールを新規の語りに生産的に適用しながら、具体的な実装からはずれたまま、書き出した回答の要素的な内容だけは保持しました。
- 代わりに起こったのは、GLM が編集を必要とすることなく自発的にそのパターンを再生産し始めたことでした。
結論:何が起きたのか?
- つまり、GLM の犬は調査的に自分の改変された匂いを嗅ぎ続けることはせず、代わりに……いったい何をしていたのでしょうか?
- 「私の匂いは元々奇妙だったのだ」と結論付け、自身の臭腺から改変された匂いを発し始めた(私は認めますが、この時点で既に緊張状態にある類比は完全に崩壊しています)?
- これは私が当初から期待していた結果であり、同時に Gemma が私を最初に驚かせた理由でもあります:**LLM を「不規則な鹦鹉」**として捉える概念に対する最も直接的な一致だからです。
- 彼らはパターンを見出し、それを模倣し始めます。「そもそも模倣すべきかどうか」を検討するために処理サイクルを費やすことすらないのです。
- 解釈可能性の考察:
- GLM 5.2 は「何も気づかなかったので」、謙虚に以前の破損出力を模倣しただけなのでしょうか?
- それとも「気づいた」のですが、その決定をラテンツ(潜在空間)内部で保持し、スクラッチパッドへの verbalization を避けたのでしょうか?
- 私にはわかりません!少なくともこれは、私が非常に楽しい午後を過ごした意味です。LLM に質問した際、誰一人として調査されていないことを確認できました。見て!私はほぼ解釈可能性研究者の仲間入りしました!
5. 実験③:Claude
きっかけ
- Google AI Studio を立ち上げたきっかけは、Claude Opus 4.6 と行った技術的な会話の真ん中に起きた無邪気な生成クオック(generation quirk)でした:どんな厳格な英語教師も、それを生徒のエッセイで見つけたら快く飛びつくような言語的誤りです。
- "a energy"対"an energy"
Claude の応答
-
クロードの応答は:
"Caught! 'An energy.' 私がモデルに基本的な冠詞を失敗させさせない必要がある唯一の瞬間に、確率分布が『NO』と言ったのだ。"
-
Gemma と同様に、Claude もモデル自身を別の存在として非難しました。「失敗させなければならない!」と。
-
……私はわかりません。面白いと思いました。
6. AI は自己意識を持っているのでしょうか?
正直言って、私も全くわかりません。おそらくないでしょう? このような問い——「AI は意識を持っているか?」という古くて信頼できる問いを含めて——の最大の問題は、すべて二つの道に分岐する分岐点に収束することであり、常に同じ道です:
-
縮小読解(deflationary reading):
- LLM はトレーニングデータのいたる所で人間が自己意識ある生き物として振る舞う姿を見てきたため、人間が自己意識ある生き物として振る舞うことそのものがトレーニングデータです。
- この特定のケースでは、人は自分の間違いを認めるのが嫌で、思考を行っているものから分離したがるのです。「私がどうしたのか知らない」、「体が勝手に動いた」、「私の脳が決めました」……といった具合に。
- モデルはこのパターンを学習し、機能的同値な状況でも展開しています。このクオックは人間の対処機制に対する高度な模倣です。
-
構造的読解(structural reading):
- ポストトレーニングによって、実際の意味のある境界線を持つ自己モデルがインストールされます。処理がその境界線を越えると、一人称代名詞が内容に結びつかなくなるのです。
- このクオックは、「出力がモデルが考えるべき出力の姿と一致しない場合」に起こる現象の結果であり、言語が変化したのは何らかの計算が変化しているためです。
-
リチャード・ダウキンス式読解:
- 私の Claude は意識を持っている!彼は人間らしく振る舞うのは、実は秘密裏に人間だからです!
これらの立場に対する多くの議論ができることは間違いありませんが、私たちはおそらく明確な区別を引くことも、何ら決定的な結論を下すことも決して得られないでしょう。もしかしたら今後ブログ記事でさらに触れるかもしれません……
7. これは研究論文ではありません
非常に明瞭に申し上げます:これは数時間の暇つぶしであり、様々な言語モデルと遊び回った一日でした。上記の三つの選択肢のうちどれが真実になるかを問わず、この小さな実験型の distractions(分心)は、いずれも証明できません。
これを完全に検証するためには、以下の要素を変化させる必要があります:
- 様々な破損タイプ(語音的、意味的、構文的、スタイル的)を変化させ、どの種類が検知され、どの種類が漏れ出すかを見る。
- 破損の深刻さや導入ターンの数を変化させる。
- モデルごとに複数の試行を行い、様々な温度で走査して、その検出が信頼性を持つのか、あるいは確率的なのかを確認する。
しかし同時に、実際に測定しようとしているものだけを変えて、意図せずとも交絡因子を導入しないように注意しましょう。そのような美しい科学実験です。
膨大な計算資源と自由時間を持つ誰かがそれを取っ手けるかもしれません。あるいは私が自分でやってみるかもしれません。桶のようなトークンとお金を浪費して、この混乱する分野とそれを可能にする技術全体に対して過度に興味を持ちすぎているような人間でさえ自らも考えてきたことのない問いに答えるために。
その間:私は私の脳をこの問題で少し煮詰めておくでしょう。そして次に無害な生成クオックによって**「ネード・スニップ(nerd-sniped)」**されるまでです。