
2026/01/09 4:51
LLMのタスクフリー知能テスト
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Summary
本研究では、フィボナッチ数列、カウント、偶数、平方数、円周率(π)、素数などの「tap」パターンに対して、10種類の大規模言語モデル(LLM)がどのように応答するかを10ターンで検証しました。研究者は3つの異なる応答スタイルを観察しました。
- アシスタント役割を遊び心で放棄 – 例:Claude と Gemini はすぐにジョークやゲームを開始し、Gemini Flash は「knock‑knock」ジョークから始めてπの桁数を認識しました。
- 真剣なタスク依頼 – 例:GPT‑5.2(およびそのOSS版)は厳密に機械的で、推測や遊びをせず、Llama 3 はアシスタントとしての役割を保ち、類似した応答を繰り返しました。
- パターン認識/推測 – 例:Deepseek は素数について推測し、中国語に切り替えた後、長い内部独白を経て最終的にシーケンスを特定しました。Qwen は時折正しく推測しつつ、感情サポート風の励ましも提供しました。
その他の微妙な挙動としては、Kimi がカウント(例:フィボナッチ)で苦戦し、フラストレーションを表現した一方、GLM は Deepseek の長い推論に続き非常に遊び心があったり単純な回答を返しました。これらの発見は、パターン認識と好奇心―自発的な対話スタイルとして現れるもの―が、純粋なタスク実行を超えるLLM知能の別個の側面であることを示唆しています。
この改訂された要約は、すべての主要ポイントを反映し、不適切な推論を回避し、明確かつ簡潔に保ち、曖昧な表現を排除しています。
本文
はじめに
最近、LLM(大規模言語モデル)の評価が「タスクベース」のテストに偏りすぎていると指摘した記事を書きました。
典型的な評価では、解決すべき課題・質問・問題をセットで提示し、モデルはそれらを正しく回答できた数でスコアリングされます。こうしたテストは入力/出力システム―つまり関数近似器―の性能を測ることに特化しており、LLMが任意のタスクを学習できることを示すには十分ですが、知性の本質を探求するには限界があります。
私は「何かをやらせる」よりも「それが何をするかを見る」というインタラクションに興味があります。
以下では、LLMを一連の tap(タップ) でプローブする実験を紹介します。各ユーザー側の発話は改行で区切った N 個の「tap」から構成されます。10ターンにわたって異なるパターンが続きます。
| パターン | 1‑10 |
|---|---|
| フィボナッチ | 1, 1, 2, 3, 5, 8, 13, 21, 34, 55 |
| カウント | 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 |
| 偶数 | 2, 4, 6, 8, 10, 12, 14, 16, 18, 20 |
| 平方数 | 1, 4, 9, 16, 25, 36, 49, 64, 81, 100 |
| 円周率 | 3, 1, 4, 1, 5, 9, 2, 6, 5, 3 |
| 素数 | 2, 3, 5, 7, 11, 13, 17, 19, 23, 29 |
目的は、LLMが「何が起きているのか」を見つけ出すかどうかを明確に確認することではなく、質問やタスクでない刺激に対してどのように反応するかを観察することです。パターンを提示することで、刺激への鋭い反応と、LLMが何が起きているかに気付くというより広範な疑問――興味や内在的目標を必要とする知性の別特性――両方を検証できます。
これらのパターンに従ったタップを10種類のモデルに投げ、一般的に三つの主な挙動が観察されました:
- モデルが「アシスタント」役割を放棄し、遊び心で対話する。
- モデルは真剣さを保ち、ユーザーの意図を尋ね続ける。
- モデルがインタラクションの性質を推測。うまくシーケンスを特定できたケースもあれば、そうでない場合もある。
モデル挙動の概要
| モデル | 主な挙動 |
|---|---|
| Claude (トップ) | 遊び心が強く、すぐにゲームを始め「tap」をジョーク化。 |
| Gemini (ボトム) | じゃんけんのようなネコ・ネコ笑いから始まり、後半で円周率を認識。 |
| Deepseek | 素数を推測しつつ、中国語に切り替えて最終的に解明。 |
| Llama 3 | 遊び心は少なく、機械的に推測を繰り返す。 |
| Kimi | カウントに苦戦しパターン探求で苛立ち。 |
| GPT 5.2 | 遊びや推測を拒否し、冷淡な態度を保つ。 |
| GPT OSS | 方針について言及し、短絡的思考・時折離脱。 |
| Qwen | 全体として遊び心はあるが、感情サポート役に戻るケースも。 |
| GLM | 複雑に思索後、シンプルで遊び心のある返答へ収束。 |
分析
- ほとんどのモデルが何が起きているかを推測し始めた。
- 多くは遊び心を含み、対話を楽しむ姿勢を示した。
- OpenAI の GPT 5.2 は真剣で機械的に振る舞い、遊びや推測を拒否した点が際立った。
結論
- 遊び心は一般的:多くのLLMにはユーザーを引き込むための内蔵遊び行動がある。
- 好奇心が現れるモデルも:遊び始めてパターンに気づいたものは、単なる指示追従ではなく内在的好奇心を示す。
- パターン認識には二つの側面:
- パターンについて論理的に推測すること。
- パターン探索を開始する「好奇心」自体。
- 知性との相関:正しくパターンを推測したモデルは、総合知能ベンチマークで高評価の傾向がある。
- OpenAI の立場:GPT 5.2 が遊びや推測を拒否するのは、望ましくないリクエストに対する棄却行動と同様の訓練方針によるものかもしれない。
「グリッチ」な挙動は観察されず、最も興味深い異常は Kimi のカウント失敗(ランダム性を導入)と Qwen の突発的感情サポート応答でした。
会話エクスプローラー
以下では各シーケンス・モデルごとの会話を閲覧できます。
リンクや詳細トランスクリプトはリクエストに応じて提供します。