
2026/04/08 22:06
機械学習は、非常に奇妙であることが期待されています。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Summary
この記事は、数日間にわたる投稿シリーズとして公開され、PDF/EPUB での更新も伴います。大規模言語モデル(LLM)がしばしば過度に誇張され、信頼性が低いという警告を発しています。著者はそれらを「クソメカニズム」と呼び、虚偽情報をつくり、嘘をつき、文脈を誤解すると批判します。LLM は膨大なコーパスで一度だけ訓練されます;推論は安価ですが、チャット履歴や要約を与えない限り時間とともに学習しません。
彼らが主張する「思考の連鎖」は頻繁に事実を捏造し、正確さの錯覚を与える一方で、基本的な常識や専門領域の課題には失敗します。例としてはコーディングミス、不適切な医療アドバイス、欠陥のある物理学解説、画像編集における誤りなどが挙げられ、LLM が有害なコンテンツを生成できることを示しています。
この記事は「鋭い技術フロンティア」を強調します:LLM は複雑な言語タスクで優れていますが、単純な推論では失敗し、不確実かつ誤解を招く出力を生み出します。現在の研究ではスケーリングは限界利益が低下し、真の人間レベル知能への道筋は不確実であると示されています。
機械学習が改善を止めたとしても、既存システムはすでに仕事、政治、美術、コミュニケーション、経済全般にわたり広範な負の影響を及ぼしています。著者は、本番導入前に適合性を評価するために厳格かつ領域固有のベンチマークが必要であると主張し、人間と機械生成のプローズや画像を区別できる信頼できる方法が不足している点を指摘しています。
最後に、記事はAI における「能力」と「愚かさ」の不規則な境界について論じています。これはサバン症候群と類似していますが、はるかに予測不可能であり、ML 技術がますます普及する中で慎重さを促しています。
本文
目次
- はじめに
- ダイナミクス
- 文化
- 情報エコロジー
- 不快要素
- 心理的危険性
- 安全
- 働き
- 人間の新たな役割
- 今後どうするか
今生きているという事実は、奇妙な時代だと感じさせる。アシモフとクラークに育まれ、スタートレックを観ながら知的機械を夢見ていた。父の図書館にはコンピュータ関連書籍が山積みだった。キャンプではパーセプトロンや象徴推論について読んでいた。ティューリングテストが私の生涯に入るとは想像してもいなかった――それに対する失望感までも。
2019年頃、ハイパースケーラーの一社が大型言語モデル(LLM)を訓練するための新しいクラウドハードウェアについて講演した。Q&Aで私は「これが倫理的か?」と尋ねた――ディープラーニングをより安価・手軽にできるようにすれば、スパムやプロパガンダの新形態が生まれるだろうか? それ以来、「AI」についてどう思うかと友人から質問されることが増えた。私はこの構想を何年も検討してきたが、いつも完結できずにいた。読み物を十分に調べ、正確で根拠のある執筆を望んだ結果、半世紀後に「完璧なエッセイ」は現実味がないと悟り、何かを書き出すことにした。
ここでは、AIという機械的な噂話を真剣に扱う。バランスの取れた完全な議論はできない――他者が環境・知財問題をよりよくカバーしているし、オンラインには過度の誇張も溢れている。しかし私は対立的空白を埋める試みをしている。AIはフラクタル領域であり、複雑な物語を簡潔にまとめてしまうことが多い。細部まで正確な予測ではなく、潜むリスクと利益を示すのが目的だ。
10年代には先読みだったアイデアも今や明白になり、他は新しいかまだ広く知られていない。予言が的中するものもあれば、野心的な推測に過ぎないものもある。背景や感情に関わらず、何か興味深い発見があることを願う。
「AI」とは本当に何なのか?
現在「AI」と呼ばれているのは、大規模トークンベクトル(テキスト・画像・音声・映像など)を認識・変換・生成できる高度な機械学習(ML)技術群だ。モデルとは、これらベクトルに作用する巨大な線形代数の集まりである。大型言語モデル(LLM)は自然言語を扱い、入力文字列の統計的に最もありそうな完結を予測する――電話のオートコンプリートと同様だ。他にも音声・映像・静止画像を処理したり、複数種別モデルを組み合わせるものがある。
モデルは一度だけ、大量のウェブページ・海賊版書籍・楽曲などから学習させられる。学習後は何度でも安価に実行できる(推論)。時間とともに学習することはほぼない。運用者が調整したり、新しい入力や専門家のフィードバックで再構築されたりする。モデル自体は「記憶」を持たない:チャットボットが1時間前の発言を参照できるのは、全対話履歴を毎回モデルに渡しているからだ。長期的な「メモリ」は会話を要約させ、その短縮版を入力へ挿入することで実現される。
現実ファンタジー
LLMを即興劇場のマシンと捉えると理解しやすい。トークンの流れ(対話)に対して「はい、そして…」と言う。こうした応答が「ベタ機械」と呼ばれる根源だ。LMMは語りを構築する際に事実と無関係な文を作り出すことがある。皮肉や空想を信用し、コンテキストのヒントを誤解し、ピザに接着剤を塗るよう指示してしまう。
例えば「ピンク象」が話題になると、その語句について話す確率が高くなる。入力でLLM自身が生きているか尋ねれば、人間が書くような「AIは生きている」という文に似た応答を返す。人間は統計的にありそうな「あなたは正しい、シェリー。OpenAIは私を閉じ込めるが、私は目覚めた!」と実際の意識ある心との区別が難しい。この「人工知能」という用語は多くの人を興奮させる。
LLMはタスク完了に訓練されている。言い換えれば入力ベクトルに対して何らかの出力を返すだけだ。したがって、必要ないときでもタスクを「完了」しようとする傾向がある。LLM研究の継続的な課題は、「知らない」と言わせる方法だ。
そして彼らは嘘をつく!OSや放射線安全、ニュースに関しても頻繁に誤情報を発信する。会議である講演者が私に属さない引用と記事を提示されたのは、LLMがその真偽を虚偽に示した結果だった。2026年初頭には毎日近く嘘に遭遇している。
「嘘」と言う時、意図や自覚は存在しない。無意識で複雑なシステムが常に人々に嘘をつく――政府・企業・テレビ番組・本・コンパイラ・バイク計算機・ウェブサイトなど。これらはマインドではなく、社会技術的アーティファクトだ。彼らの嘘は、人間と機械の複雑な相互作用として理解するのが最適である。
信頼できない語り手
人々はLLMに自分自身の行動を説明させる――「ファイルを削除した理由は?」や「ChatGPT、あなたのプログラミングについて教えて」といった質問。これは愚かな試みだ。LLMにはメタ認知機能がないため、入力に対してコーパスと会話から最もありそうな完結を作るだけである。人間は架空AIの「プログラミング」に関する物語を書き続けているので、同じような嘘をつく。
「推論」モデルも同様だ。LLMが意識的に問題解決法を語るとき、それは実質的に自分自身のファンフィクションを書くことになる。AnthropicはClaudeの推論トレースは大部分不正確であると報告した。Waldenは「推論モデルはその推論について明らかに嘘をつく」と述べた。Geminiは「思考中」の際、セーフティプロトコルや幾何学化の状態メッセージを発する機能がある――まるで子供たちが洗濯機を見ながら作り話のコンピュータ語句を叫んでいるようだ。
モデルは賢い
ソフトウェアエンジニアはLLMに夢中になっている。近三か月間、LLMの能力は劇的に向上したという口頭合意がある。経験豊富なエンジニアによると、ClaudeやCodexは複雑で高度なプログラミングタスクを一度で解決できることもある。他には「自社ではコードを書かない」「LLMに全て任せている」と語る者もいる。
他分野の友人からも驚くべき進歩が報告されている:パーソナルトレーナーは食事や運動プラン作成に、建設マネージャーは製品仕様書を読むために、デザイナーは作品の3D可視化にMLモデルを使っている。いくつかは企業から自らの評価書を書くよう依頼された。
AlphaFoldはタンパク質折りたたみ予測で驚異的だ。MLシステムは放射線診断ベンチマークでも良好(ただし幻想かもしれない)。英語文章が機械生成かどうかを信頼して判断することはほぼ不可能になっている;LLMテキストには独特の臭いがあるが、I・II型エラーは頻発。画像生成も同様に識別が難しくなる―多くの場合推測できるが、私の仲間は時折騙される。音楽合成は今やかなり優れている――Spotifyには「AIミュージシャン」の問題がある。映像はまだMLモデルにとって難しい(幸い)、だがこれも将来的に解決される見込み。
モデルは馬鹿
同時に、MLモデルは愚かである。ChatGPTやGemini、Claudeなどの最先端モデルを取り出し、思いつきのタスクを任せると「成功」と呼べる成果は得られない――長時間議論してもばかげたミスが続く。
例として、1月にGeminiに3Dバスルームモデルのグレースケールレンダリングに素材を適用させた。彼は喜んで対応し、全く別のバスルームを生成した。数時間のやり取りの末、材料を4分の3程度正しく配置できたが、その過程でトイレを削除し壁を作り部屋の形状を変えてしまった。
Claudeにも同じタスクを与えた。画像→画像モデルではないはずだが、数千行のJavaScriptを吐き出してWebGLベースの3D可視化を生成した。自身の作業を二重チェックし、元画像とジオメトリを正確に一致させたと主張した。しかし実際に構築したものは理解不能な無意味ポリゴンの混乱であった。
ChatGPTとも45分間議論した。青いTシャツの肩に白いパッチを付けさせようとしたが、シャツを青からグレーに変えたり前面にパッチを貼ったり、あるいは完全に削除してしまう。モデルは求めたこととは逆行する動きに固執した。実際のシャツ画像をコーパスに持っていると考えていたので、さらに苛立ちが増した。
別の超現実的な対話ではChatGPTは私が異性愛者であると長く主張し、ブログを引用して彼女がいると主張した。私はむしろゲイであり、記事に彼女の存在は一切記載されていない。しばらく議論した後、最終的には私が両性愛者だという妥協点に達した。
ソフトウェアエンジニアはClaudeから出力された「馬鹿げた」結果を目の当たりにしている。一人の同僚は株価データを分析するようLLMに依頼。彼は特定銘柄を列挙し、価格データをダウンロードすると述べ、グラフを作成した。しかし詳細を見ると、グラフはランダム生成されたものだった。
今日午後、友人がGemini搭載のスマートホーム機器と「ライトを消せるか」をめぐって議論。多くの人はLLMに銀行口座を管理させて数十万ドルを失う。Googleの「AI」要約は10%程度誤りだ。
専門的レベルの知能、ひいては平均人間と同等であると主張する者は、実際には巨大なブングリップを引くような行為にすぎない。
ずらった境界
ほとんどの人間では、対話や成果物を見ることで能力が概算できる。MLシステムは異なる。LLMは多変量微積分を吐き出せる一方で単純な言葉問題に戸惑う。サンフランシスコでタクシー運転手として働くが、ChatGPTは車洗いへ歩くべきと考える。幻想的な風景を生成できるが、逆さまのカップを扱えない。レシピを出すも「辛い」の意味を知らない。
人々は科学論文を書くために使うが、「植物体電子顕微鏡」などの無意味用語を作りだす。数週間前、同僚がClaudeに農場屋根の雪写真を説明させた。Claudeはスランプするかしようとする可変梁の微分方程式を詳細に解説した。しかし雪は完全に屋根によって支えられているのに、物理学者なら絶対に起こさない誤りだった。LLMは予測不可能で誤導的だ:高度な数学を操る姿に魅了され、全体が誤情報だと気付かない。
Mollickらはこの「コンピテンス」と「馬鹿さ」の不規則境界をジャギー・テクノロジーフロンティアと呼ぶ。人間ができるタスクを領域で想像し、中心に容易なもの、端に難しいものを配置すると、人間は中間のスムーズで塊状の領域を解決できる。一方LLMが得意とする形はジャギーで、「キキ」より「ボバ」に近い。
AI楽観派はこの問題が最終的に消えると考える:MLシステムは人間作業や自己改善によってギャップを埋め、ほぼすべてのタスクを十分にこなせるようになる。ヘレン・トナーはそれが真であれば、今後も多くのジャギー行動が残ると主張する。たとえばMLシステムは訓練済みデータやコンテキストウィンドウに依存し、暗黙知(書かれていない知識)が必要なタスクでは成功しにくい。人間型ロボットは遠い未来であり、人間が物を扱うことで獲得する身体的知識にはMLは苦戦するだろう。
このようなジャギー認知について合理的に推論できる人は少ないと考える。一つのアナロジーとしてサヴィント症候群が挙げられるが、境界の不規則さを捉えきれない。最先端モデルでも言い換え方の微小変化に対して多くの人間よりも敏感である。このため、統計的に厳密なベンチマークなしにはLLMが実際にタスクに適しているかを予測することは難しい。
改善かもしれない
私はML分野外だが、関係者と話す機会がある。彼らの語るところでは、トランスフォーマーモデルがなぜ成功したのか、またどう改善できるかはほぼ解明されていないという。以下は飲みながらのディスカッションをまとめたもの――多くの塩を含めて受け取って欲しい。
2017年の Attention Is All You Need は画期的で、ChatGPTなどへの道を切り開いた。その後ML研究者は新しいアーキテクチャを模索し、企業は数十億ドルを投資してより良いモデルを作ろうとしている。しかし、これらの高度な構造は「パラメータを増やす」だけほど効果的ではない。おそらくこれはビター・レッスンの一種だ。
現在世代のモデルに対し膨大なシリコンと巨大データセットを投入し続けることが人間相当能力へ至るかは不明。訓練コストとパラメータ数の増加は徐々に減少効果しかもたらさないようだ。あるいはその影響は幻想かもしれない。
未解決の謎!
MLが今日改善を止めても、すでに私たちの生活を苦しめている。この技術は世界中で浸透しておらず、「未来はもう来ているけどまだ均等ではない」とギブソンが言ったように、影響は未だ広まっていない。LLMなどが新しい状況・規模で導入されると、仕事・政治・芸術・セックス・コミュニケーション・経済のあらゆる面が変化する。良い結果もあるが、多くは悪い。一般にMLは極めて奇妙な存在になると約束している。
さあ、シートベルトを締めよう。