2025/12/01 1:39
What I don’t like about chains of thoughts (2023)
RSS: https://news.ycombinator.com/rss
要約▶
Chain of Thought(COT)はLLMに「言語で段階的に」推論させるハックで、実際には計算効率が低く、非言語的思考を強制するだけ。
主旨:COTは便利だがAGIへの道ではなく、LLMの限界を示すツールに過ぎない。
重要ポイント
- COTは計算量を増やし推論時間を延長できる一方で、次トークン予測だけでは十分な知能は得られない。
- 人間・動物の推論は音声言語に依存せず、短時間で効率的に行われることが実例から明らか。
- 真のAIは埋め込み空間など非言語領域で推論を行うべきで、COTは一時的なハックに過ぎない。
本文
20 年5 月 2023
Chain of Thought (COT) は、強力でありながらシンプルなアイデアで、自己回帰型 LLM(gpt‑style)に「言語で段階的に」問題解決を「推論」させることができるため、LLM の能力を大幅に拡張します。これまでインストラクションチューニング済みモデルでも初期には解けなかった多くのユースケースを可能にし、その効果に驚かされる研究者も少なくありません。エンジニアとして私は、COT が現在の LLM の機能を実世界で活用(そして収益化)する上で重要な役割を果たすと考えています。しかし本記事では、科学的観点から COT とエージェント波が主に「LLM に推論を非効率的に表現させるハック」であると見ている理由を説明します。
ツイート
私は LLM が推論できないと思っていた
この議論は、ベルリンの Jina AI オフィスでのアフターワークディベートから始まりました。会話はすぐに(いつものように)現在の LLM の能力と、人間レベルの知能へどれだけ近づいているかという議題へと発展しました。
GPT 系モデルには驚嘆しつつも、私は「人間的知能」、ひいては AGI からはまだ遠い」という立場に属します。
ある時、同僚が Chain of Thought やエージェントが現在の LLM に人間らしい認知機能(推論・反省・自己修正など)を露呈させると説明しました。私は LLM がまだ何かしら「愚かな」点を持つことを示す(私が考えていた致命的な議論で)ために立ち上がりました。
次の 2 つのタスクを実行する際、LLM に必要な計算量は同じだと知っていましたか?
- 100 000 より大きい最初の 10 個の整数を選ぶ
- 100 000 より大きい最初の 10 個の素数を選ぶ
(> 100 000 を指定しないと、モデルは最初の十個の素数を覚えている可能性が高くなるためです)
LLM は「次トークン予測」で文を生成します。すなわち、ネットワーク全体に対して順方向パスを行い、因果的注意機構でトークン間の相互作用を計算します。出力が 30 トークン以内なら推論時間は「1 回の前向きパス時間 × 30」に等しくなります。
この 2 つのタスクは「考える」量、すなわち必要とされる計算(足し算 vs. 多数の高価なユークリッド除算)が大きく異なるため、以下が起こり得ます。
- LLM は常に過剰に思考する(上限)
または - LLM は十分に思考しておらず、真に高度な推論を示せない(下限)
私は後者の見解を持っており、この実証で皆を納得させるべきでした。
Chain of Thought
同僚が私に提示した真実は、COT を考慮しなければ私の主張がほぼ意味不明になるほどです。Chain of Thought によってモデルは問題への計算予算を延長でき、必要に応じてより多くのトークンを生成してスケールさせることができます。
素数例では、まず新しい素数を求めるアルゴリズムを書き、そのアルゴリズムの各ステップを「声に出す」ように記述し、最後に十個の素数を出力するとします。トークン総数—そして計算量は大幅に増加し、モデルはタスク難度に応じて予算を調整できるようになります。
これにより私の以前の主張が覆されます:COT を利用せずに LLM の能力について議論することは誤りであり、単なる次トークン予測だけで何が可能かを浅く理解していると示しています。
言語のみで推論するのは非効率
この討論を終わらせたくないので、私は「次トークン予測(それだけ)で本当に知能に到達できる段階なのか」を直感的に表現しました。COT は確かに推論の一形態ですが、計算上は非効率なハック—統計的自己回帰モデルを「推論」や事前計画へ強制するものです。
主張は次のとおりです:言語のみで推論すると極めて遅い。表面的には誤った印象に思えるかもしれませんが、実際多くの人々は言語化と内面対話を人間知能の不可欠な要素だと信じています。しかし:
- 動物 は音声言語なしで優れた推論能力を示し、推論は言語に依存しないことを証明しています。
- 人間 も話さずとも(プログラミング・カードゲーム・料理・パズル・サッカーなど)推論できます。
メッシのドリブル
リオネル・メッシが審判を障害物にしてディフェンダーを抜く映像を考えてみてください。この動きで彼が内面対話的な推論を行ったと想像するのは難しいです。
- 状況はおそらく新規だったので、事前に計画できたとは思えません。
- その実行には 0.5 秒未満しかかからない。
半秒間で内部で発音できる単語数は最大でも約10 語程度です。そんな短時間で驚異的な動きを計画する余裕はありません。この事例は、人間が内面対話なしに効率的に推論できること、そしてこの文脈では自然言語が非効率的な媒体であることを示しています。
言語は推論へのボトルネック
言語は「他者とコミュニケーションするため」に存在し、書き言葉は話し言葉を保持します。すべての言語は音声能力に条件付けられています。人間が「言語のみで」推論すると、知能は脳のサイズではなく喉頭や舌などの発声器官によって制限されます。
人間の知能はまず非言語的であり、コミュニケーションや記憶が必要になったときにだけ言語化します。トークン空間での推論は遅く、長期計画には適していません。理想的には「埋め込み空間」で独自に推論を行うべきです—これはタスクごとにカスタマイズされたものです。
これは安定拡散(stable diffusion)にも似ています:ピクセル空間で生成するのは非効率;代わりに低次元の潜在空間で生成します。
結論
COT は次トークン LLM を「標準状態」よりも良く推論させますが、結局は新たな特性を引き出す有用なハックに過ぎません。LLM は強力なツールですが、完全に知能的な AI システム(AGI や超人的知能)への最終解決策にはならないでしょう。それでも、今日の LLM と COT で実現できることは印象的であり、ある意味画期的です。