LLMのタスクフリー知能テスト

2026/01/09 4:51

LLMのタスクフリー知能テスト

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:


Summary

本研究では、フィボナッチ数列、カウント、偶数、平方数、円周率(π)、素数などの「tap」パターンに対して、10種類の大規模言語モデル(LLM)がどのように応答するかを10ターンで検証しました。研究者は3つの異なる応答スタイルを観察しました。

  1. アシスタント役割を遊び心で放棄 – 例:Claude と Gemini はすぐにジョークやゲームを開始し、Gemini Flash は「knock‑knock」ジョークから始めてπの桁数を認識しました。
  2. 真剣なタスク依頼 – 例:GPT‑5.2(およびそのOSS版)は厳密に機械的で、推測や遊びをせず、Llama 3 はアシスタントとしての役割を保ち、類似した応答を繰り返しました。
  3. パターン認識/推測 – 例:Deepseek は素数について推測し、中国語に切り替えた後、長い内部独白を経て最終的にシーケンスを特定しました。Qwen は時折正しく推測しつつ、感情サポート風の励ましも提供しました。

その他の微妙な挙動としては、Kimi がカウント(例:フィボナッチ)で苦戦し、フラストレーションを表現した一方、GLM は Deepseek の長い推論に続き非常に遊び心があったり単純な回答を返しました。これらの発見は、パターン認識と好奇心―自発的な対話スタイルとして現れるもの―が、純粋なタスク実行を超えるLLM知能の別個の側面であることを示唆しています。


この改訂された要約は、すべての主要ポイントを反映し、不適切な推論を回避し、明確かつ簡潔に保ち、曖昧な表現を排除しています。

本文

はじめに

最近、LLM(大規模言語モデル)の評価が「タスクベース」のテストに偏りすぎていると指摘した記事を書きました。
典型的な評価では、解決すべき課題・質問・問題をセットで提示し、モデルはそれらを正しく回答できた数でスコアリングされます。こうしたテストは入力/出力システム―つまり関数近似器―の性能を測ることに特化しており、LLMが任意のタスクを学習できることを示すには十分ですが、知性の本質を探求するには限界があります。

私は「何かをやらせる」よりも「それが何をするかを見る」というインタラクションに興味があります。
以下では、LLMを一連の tap(タップ) でプローブする実験を紹介します。各ユーザー側の発話は改行で区切った N 個の「tap」から構成されます。10ターンにわたって異なるパターンが続きます。

パターン1‑10
フィボナッチ1, 1, 2, 3, 5, 8, 13, 21, 34, 55
カウント1, 2, 3, 4, 5, 6, 7, 8, 9, 10
偶数2, 4, 6, 8, 10, 12, 14, 16, 18, 20
平方数1, 4, 9, 16, 25, 36, 49, 64, 81, 100
円周率3, 1, 4, 1, 5, 9, 2, 6, 5, 3
素数2, 3, 5, 7, 11, 13, 17, 19, 23, 29

目的は、LLMが「何が起きているのか」を見つけ出すかどうかを明確に確認することではなく、質問やタスクでない刺激に対してどのように反応するかを観察することです。パターンを提示することで、刺激への鋭い反応と、LLMが何が起きているかに気付くというより広範な疑問――興味や内在的目標を必要とする知性の別特性――両方を検証できます。

これらのパターンに従ったタップを10種類のモデルに投げ、一般的に三つの主な挙動が観察されました:

  1. モデルが「アシスタント」役割を放棄し、遊び心で対話する。
  2. モデルは真剣さを保ち、ユーザーの意図を尋ね続ける。
  3. モデルがインタラクションの性質を推測。うまくシーケンスを特定できたケースもあれば、そうでない場合もある。

モデル挙動の概要

モデル主な挙動
Claude (トップ)遊び心が強く、すぐにゲームを始め「tap」をジョーク化。
Gemini (ボトム)じゃんけんのようなネコ・ネコ笑いから始まり、後半で円周率を認識。
Deepseek素数を推測しつつ、中国語に切り替えて最終的に解明。
Llama 3遊び心は少なく、機械的に推測を繰り返す。
Kimiカウントに苦戦しパターン探求で苛立ち。
GPT 5.2遊びや推測を拒否し、冷淡な態度を保つ。
GPT OSS方針について言及し、短絡的思考・時折離脱。
Qwen全体として遊び心はあるが、感情サポート役に戻るケースも。
GLM複雑に思索後、シンプルで遊び心のある返答へ収束。

分析

  • ほとんどのモデルが何が起きているかを推測し始めた。
  • 多くは遊び心を含み、対話を楽しむ姿勢を示した。
  • OpenAI の GPT 5.2 は真剣で機械的に振る舞い、遊びや推測を拒否した点が際立った。

結論

  1. 遊び心は一般的:多くのLLMにはユーザーを引き込むための内蔵遊び行動がある。
  2. 好奇心が現れるモデルも:遊び始めてパターンに気づいたものは、単なる指示追従ではなく内在的好奇心を示す。
  3. パターン認識には二つの側面
    • パターンについて論理的に推測すること。
    • パターン探索を開始する「好奇心」自体。
  4. 知性との相関:正しくパターンを推測したモデルは、総合知能ベンチマークで高評価の傾向がある。
  5. OpenAI の立場:GPT 5.2 が遊びや推測を拒否するのは、望ましくないリクエストに対する棄却行動と同様の訓練方針によるものかもしれない。

「グリッチ」な挙動は観察されず、最も興味深い異常は Kimi のカウント失敗(ランダム性を導入)と Qwen の突発的感情サポート応答でした。


会話エクスプローラー

以下では各シーケンス・モデルごとの会話を閲覧できます。
リンクや詳細トランスクリプトはリクエストに応じて提供します。

同じ日のほかのニュース

一覧に戻る →

2026/01/09 4:54

**200 行以内で書く Claude スタイルプログラムの作り方** 1. **目標を定義する** * プログラムが解決すべき問題(例:テキスト生成、データ分析など)を決める。 * 必要な入力・出力、および制約事項を概略化する。 2. **適切な言語とライブラリを選ぶ** * 迅速なプロトタイピングには Python を推奨。 * `openai` や `anthropic` SDK を使用し、必要最低限のモジュール(例:`json`、`time`)のみインポートする。 3. **コード構成** ```python # 1️⃣ インポート import os, json, time from anthropic import Anthropic # 2️⃣ 設定 api_key = os.getenv("ANTHROPIC_API_KEY") client = Anthropic(api_key=api_key) # 3️⃣ コア関数 def generate_text(prompt: str, max_tokens: int = 200) -> str: response = client.completions.create( model="claude-2.1", prompt=prompt, max_tokens_to_sample=max_tokens, temperature=0.7, ) return response.completion # 4️⃣ ユーティリティ関数 def save_output(text: str, path: str) -> None: with open(path, "w", encoding="utf-8") as f: f.write(text) # 5️⃣ メインフロー if __name__ == "__main__": prompt = input("Enter your prompt: ") result = generate_text(prompt) print("\nGenerated Text:\n", result) save_output(result, "output.txt") ``` 4. **200 行以内に収める** * 不要なコメントや冗長なログを避ける。 * 繰り返しコードの代わりに簡潔なヘルパー関数を使う。 5. **テストと検証** * `generate_text` と `save_output` 用に単純なユニットテストを書く。 * 複数サンプルプロンプトでスクリプトが安定して動作するか確認する。 6. **パッケージング(任意)** * `requirements.txt` を追加: ``` anthropic==0.3.2 python-dotenv==1.0.0 ``` * セットアップと使い方を簡潔に説明した README を用意する。 7. **最終チェックリスト** * 未使用のインポートや変数がないこと。 * 文字列はすべて `utf-8` でエンコードされていること。 * 新しい環境でもエラーなく実行できること。 このテンプレートに沿えば、200 行以内でクリーンかつ機能的な Claude スタイルプログラムが完成します。実験・拡張・デプロイの準備は万端です。

## Japanese Translation: (to address missing elements while keeping clarity):** > 本記事では、JSON形式のツール呼び出し(`read_file`、`list_files`、`edit_file`)を介してLLMと対話し、ディスク上のファイルを操作する軽量なコーディングエージェントの構築方法を示します。 > エージェントのコアループは、ユーザーからの自然言語リクエストをLLMに送信し、そのJSONレスポンスからツール呼び出しを解析して対応するローカル関数を実行し、結果を会話へフィードバックします。ツールが要求されなくなるまでこのプロセスを繰り返します。各ツールは構造化された辞書を返します(`read_file` → `{file_path, content}`、`list_files` → `{path, entries}`、`edit_file` → テキストの作成または置換)。 > システムプロンプトは自動的に生成され、各ツールの名前・説明(docstringから取得)とシグネチャを列挙することでLLMが正しく呼び出せるようにします。例ではAnthropic API経由でClaude Sonnet 4を使用していますが、クライアント初期化部分を書き換えるだけで任意のLLMプロバイダーへ切り替え可能です。 > 実装はインポート、環境変数読み込み(`dotenv`)、ターミナルカラー補助関数、および`resolve_abs_path`ヘルパーを含めて約200行のPythonコードです。プロダクション向けエージェント(例:Claude Code)は、このパターンにgrep、bash、websearchなど追加ツールや高度なエラーハンドリング、ストリーミングレスポンス、要約機能、および破壊的操作の承認ワークフローを組み込んでいます。 > 読者は新しいツールを追加したりLLMプロバイダーを切替えたりして、最小限のボイラープレートで高度なコーディング支援が実現できることを体験できます。 この改訂された概要は主要なポイントをすべて網羅し、未支持の推測を避けつつメインメッセージを明確に保ち、あいまい表現を削除しています。

2026/01/09 5:37

**Sopro TTS:** CPU 上で動作し、ゼロショット音声クローン機能を備えた 1,690 万パラメータのモデル。

## Japanese Translation: ``` ## Summary Soproは、1億6900万パラメータで構築された軽量な英語テキスト・トゥー・スピーチシステムです。リアルタイムのストリーミング合成と、わずか数秒の参照音声からのゼロショットボイスクラーニングを提供します。そのアーキテクチャは重いTransformerをドリーテッドWaveNetスタイルの畳み込みと軽量なクロスアテンション層に置き換え、M3コアマシンでCPUリアルタイム係数0.25(約7.5秒で30秒分の音声生成)を達成します。モデルは依存関係が最小限で、PyTorch 2.6.0のみを必要とし、低スペックハードウェアでも効率的に動作します。 Soproは単純なPython API(`SoproTTS.synthesize`)、コマンドラインインターフェイス(`soprotts …`)、およびUvicornまたはDockerで起動できる対話型Webデモを通じて、非ストリーミング(`SoproTTS.synthesize`)とストリーミング(`SoproTTS.stream`)の両方のモードをサポートします。ストリーミング出力は非ストリーミングモードとビットレベルで完全に一致しないため、最高品質を求めるユーザーは非ストリーミング合成を使用することが推奨されます。 トレーニングにはEmilia YODAS、LibriTTS‑R、Mozilla Common Voice 22、およびMLSなどの公開コーパスからデータが採用され、WaveNet、Attentive Stats Pooling、AudioLM、CSMといった確立された手法を組み込んでいます。ボイスクラーニングの品質はマイクロフォンの品質に依存し、システムは略語よりも音素レベルの参照音声を好みます。 Soproは低リソースフットプリント、CPUフレンドリー、そして簡単な統合性を備えているため、チャットボット、アクセシビリティツール、組み込みデバイス、および軽量TTSと高品質ボイスクラーニングが必要なリアルタイムアプリケーションに最適です。 ```

2026/01/09 0:07

ボーズは古いスマートスピーカーをブリック化せず、オープンソースとして公開しています。

## Japanese Translation: **修正版要約** ボーズは、サウンドタッチスマートスピーカーのAPIドキュメントをオープンソース化することを発表し、公式クラウドサポートを2026年5月6日まで延長しました。これは元々計画されていた期間より約6か月長いものです。また、新しいサウンドタッチアプリの更新ではローカル制御が追加されるため、ユーザーはクラウドサービス終了後も機能を維持できます。Bluetooth、AirPlay、Spotify Connect、および物理的なAUX接続を通じて音楽ストリーミングを継続でき、グループ化、初期設定、構成などのリモートコントロール機能も動作します。APIをオープンソースにすることで、ボーズはクラウドサービス停止によって残されたギャップを埋めるカスタムツールを開発者が構築できるようにしています。この動きは、公式シャットダウン後にデバイス機能を維持したPebbleのRebble Allianceなど、コミュニティ主導の取り組みと共鳴します。

LLMのタスクフリー知能テスト | そっか~ニュース