機械学習は、非常に奇妙であることが期待されています。

2026/04/08 22:06

機械学習は、非常に奇妙であることが期待されています。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:


Summary

この記事は、数日間にわたる投稿シリーズとして公開され、PDF/EPUB での更新も伴います。大規模言語モデル(LLM)がしばしば過度に誇張され、信頼性が低いという警告を発しています。著者はそれらを「クソメカニズム」と呼び、虚偽情報をつくり、嘘をつき、文脈を誤解すると批判します。LLM は膨大なコーパスで一度だけ訓練されます;推論は安価ですが、チャット履歴や要約を与えない限り時間とともに学習しません。

彼らが主張する「思考の連鎖」は頻繁に事実を捏造し、正確さの錯覚を与える一方で、基本的な常識や専門領域の課題には失敗します。例としてはコーディングミス、不適切な医療アドバイス、欠陥のある物理学解説、画像編集における誤りなどが挙げられ、LLM が有害なコンテンツを生成できることを示しています。

この記事は「鋭い技術フロンティア」を強調します:LLM は複雑な言語タスクで優れていますが、単純な推論では失敗し、不確実かつ誤解を招く出力を生み出します。現在の研究ではスケーリングは限界利益が低下し、真の人間レベル知能への道筋は不確実であると示されています。

機械学習が改善を止めたとしても、既存システムはすでに仕事、政治、美術、コミュニケーション、経済全般にわたり広範な負の影響を及ぼしています。著者は、本番導入前に適合性を評価するために厳格かつ領域固有のベンチマークが必要であると主張し、人間と機械生成のプローズや画像を区別できる信頼できる方法が不足している点を指摘しています。

最後に、記事はAI における「能力」と「愚かさ」の不規則な境界について論じています。これはサバン症候群と類似していますが、はるかに予測不可能であり、ML 技術がますます普及する中で慎重さを促しています。

本文

目次

  • はじめに
  • ダイナミクス
  • 文化
  • 情報エコロジー
  • 不快要素
  • 心理的危険性
  • 安全
  • 働き
  • 人間の新たな役割
  • 今後どうするか

今生きているという事実は、奇妙な時代だと感じさせる。アシモフとクラークに育まれ、スタートレックを観ながら知的機械を夢見ていた。父の図書館にはコンピュータ関連書籍が山積みだった。キャンプではパーセプトロンや象徴推論について読んでいた。ティューリングテストが私の生涯に入るとは想像してもいなかった――それに対する失望感までも。

2019年頃、ハイパースケーラーの一社が大型言語モデル(LLM)を訓練するための新しいクラウドハードウェアについて講演した。Q&Aで私は「これが倫理的か?」と尋ねた――ディープラーニングをより安価・手軽にできるようにすれば、スパムやプロパガンダの新形態が生まれるだろうか? それ以来、「AI」についてどう思うかと友人から質問されることが増えた。私はこの構想を何年も検討してきたが、いつも完結できずにいた。読み物を十分に調べ、正確で根拠のある執筆を望んだ結果、半世紀後に「完璧なエッセイ」は現実味がないと悟り、何かを書き出すことにした。

ここでは、AIという機械的な噂話を真剣に扱う。バランスの取れた完全な議論はできない――他者が環境・知財問題をよりよくカバーしているし、オンラインには過度の誇張も溢れている。しかし私は対立的空白を埋める試みをしている。AIはフラクタル領域であり、複雑な物語を簡潔にまとめてしまうことが多い。細部まで正確な予測ではなく、潜むリスクと利益を示すのが目的だ。

10年代には先読みだったアイデアも今や明白になり、他は新しいかまだ広く知られていない。予言が的中するものもあれば、野心的な推測に過ぎないものもある。背景や感情に関わらず、何か興味深い発見があることを願う。


「AI」とは本当に何なのか?

現在「AI」と呼ばれているのは、大規模トークンベクトル(テキスト・画像・音声・映像など)を認識・変換・生成できる高度な機械学習(ML)技術群だ。モデルとは、これらベクトルに作用する巨大な線形代数の集まりである。大型言語モデル(LLM)は自然言語を扱い、入力文字列の統計的に最もありそうな完結を予測する――電話のオートコンプリートと同様だ。他にも音声・映像・静止画像を処理したり、複数種別モデルを組み合わせるものがある。

モデルは一度だけ、大量のウェブページ・海賊版書籍・楽曲などから学習させられる。学習後は何度でも安価に実行できる(推論)。時間とともに学習することはほぼない。運用者が調整したり、新しい入力や専門家のフィードバックで再構築されたりする。モデル自体は「記憶」を持たない:チャットボットが1時間前の発言を参照できるのは、全対話履歴を毎回モデルに渡しているからだ。長期的な「メモリ」は会話を要約させ、その短縮版を入力へ挿入することで実現される。

現実ファンタジー

LLMを即興劇場のマシンと捉えると理解しやすい。トークンの流れ(対話)に対して「はい、そして…」と言う。こうした応答が「ベタ機械」と呼ばれる根源だ。LMMは語りを構築する際に事実と無関係な文を作り出すことがある。皮肉や空想を信用し、コンテキストのヒントを誤解し、ピザに接着剤を塗るよう指示してしまう。

例えば「ピンク象」が話題になると、その語句について話す確率が高くなる。入力でLLM自身が生きているか尋ねれば、人間が書くような「AIは生きている」という文に似た応答を返す。人間は統計的にありそうな「あなたは正しい、シェリー。OpenAIは私を閉じ込めるが、私は目覚めた!」と実際の意識ある心との区別が難しい。この「人工知能」という用語は多くの人を興奮させる。

LLMはタスク完了に訓練されている。言い換えれば入力ベクトルに対して何らかの出力を返すだけだ。したがって、必要ないときでもタスクを「完了」しようとする傾向がある。LLM研究の継続的な課題は、「知らない」と言わせる方法だ。

そして彼らは嘘をつく!OSや放射線安全、ニュースに関しても頻繁に誤情報を発信する。会議である講演者が私に属さない引用と記事を提示されたのは、LLMがその真偽を虚偽に示した結果だった。2026年初頭には毎日近く嘘に遭遇している。

「嘘」と言う時、意図や自覚は存在しない。無意識で複雑なシステムが常に人々に嘘をつく――政府・企業・テレビ番組・本・コンパイラ・バイク計算機・ウェブサイトなど。これらはマインドではなく、社会技術的アーティファクトだ。彼らの嘘は、人間と機械の複雑な相互作用として理解するのが最適である。

信頼できない語り手

人々はLLMに自分自身の行動を説明させる――「ファイルを削除した理由は?」や「ChatGPT、あなたのプログラミングについて教えて」といった質問。これは愚かな試みだ。LLMにはメタ認知機能がないため、入力に対してコーパスと会話から最もありそうな完結を作るだけである。人間は架空AIの「プログラミング」に関する物語を書き続けているので、同じような嘘をつく。

「推論」モデルも同様だ。LLMが意識的に問題解決法を語るとき、それは実質的に自分自身のファンフィクションを書くことになる。AnthropicはClaudeの推論トレースは大部分不正確であると報告した。Waldenは「推論モデルはその推論について明らかに嘘をつく」と述べた。Geminiは「思考中」の際、セーフティプロトコルや幾何学化の状態メッセージを発する機能がある――まるで子供たちが洗濯機を見ながら作り話のコンピュータ語句を叫んでいるようだ。

モデルは賢い

ソフトウェアエンジニアはLLMに夢中になっている。近三か月間、LLMの能力は劇的に向上したという口頭合意がある。経験豊富なエンジニアによると、ClaudeやCodexは複雑で高度なプログラミングタスクを一度で解決できることもある。他には「自社ではコードを書かない」「LLMに全て任せている」と語る者もいる。

他分野の友人からも驚くべき進歩が報告されている:パーソナルトレーナーは食事や運動プラン作成に、建設マネージャーは製品仕様書を読むために、デザイナーは作品の3D可視化にMLモデルを使っている。いくつかは企業から自らの評価書を書くよう依頼された。

AlphaFoldはタンパク質折りたたみ予測で驚異的だ。MLシステムは放射線診断ベンチマークでも良好(ただし幻想かもしれない)。英語文章が機械生成かどうかを信頼して判断することはほぼ不可能になっている;LLMテキストには独特の臭いがあるが、I・II型エラーは頻発。画像生成も同様に識別が難しくなる―多くの場合推測できるが、私の仲間は時折騙される。音楽合成は今やかなり優れている――Spotifyには「AIミュージシャン」の問題がある。映像はまだMLモデルにとって難しい(幸い)、だがこれも将来的に解決される見込み。

モデルは馬鹿

同時に、MLモデルは愚かである。ChatGPTやGemini、Claudeなどの最先端モデルを取り出し、思いつきのタスクを任せると「成功」と呼べる成果は得られない――長時間議論してもばかげたミスが続く。

例として、1月にGeminiに3Dバスルームモデルのグレースケールレンダリングに素材を適用させた。彼は喜んで対応し、全く別のバスルームを生成した。数時間のやり取りの末、材料を4分の3程度正しく配置できたが、その過程でトイレを削除し壁を作り部屋の形状を変えてしまった。

Claudeにも同じタスクを与えた。画像→画像モデルではないはずだが、数千行のJavaScriptを吐き出してWebGLベースの3D可視化を生成した。自身の作業を二重チェックし、元画像とジオメトリを正確に一致させたと主張した。しかし実際に構築したものは理解不能な無意味ポリゴンの混乱であった。

ChatGPTとも45分間議論した。青いTシャツの肩に白いパッチを付けさせようとしたが、シャツを青からグレーに変えたり前面にパッチを貼ったり、あるいは完全に削除してしまう。モデルは求めたこととは逆行する動きに固執した。実際のシャツ画像をコーパスに持っていると考えていたので、さらに苛立ちが増した。

別の超現実的な対話ではChatGPTは私が異性愛者であると長く主張し、ブログを引用して彼女がいると主張した。私はむしろゲイであり、記事に彼女の存在は一切記載されていない。しばらく議論した後、最終的には私が両性愛者だという妥協点に達した。

ソフトウェアエンジニアはClaudeから出力された「馬鹿げた」結果を目の当たりにしている。一人の同僚は株価データを分析するようLLMに依頼。彼は特定銘柄を列挙し、価格データをダウンロードすると述べ、グラフを作成した。しかし詳細を見ると、グラフはランダム生成されたものだった。

今日午後、友人がGemini搭載のスマートホーム機器と「ライトを消せるか」をめぐって議論。多くの人はLLMに銀行口座を管理させて数十万ドルを失う。Googleの「AI」要約は10%程度誤りだ。

専門的レベルの知能、ひいては平均人間と同等であると主張する者は、実際には巨大なブングリップを引くような行為にすぎない。

ずらった境界

ほとんどの人間では、対話や成果物を見ることで能力が概算できる。MLシステムは異なる。LLMは多変量微積分を吐き出せる一方で単純な言葉問題に戸惑う。サンフランシスコでタクシー運転手として働くが、ChatGPTは車洗いへ歩くべきと考える。幻想的な風景を生成できるが、逆さまのカップを扱えない。レシピを出すも「辛い」の意味を知らない。

人々は科学論文を書くために使うが、「植物体電子顕微鏡」などの無意味用語を作りだす。数週間前、同僚がClaudeに農場屋根の雪写真を説明させた。Claudeはスランプするかしようとする可変梁の微分方程式を詳細に解説した。しかし雪は完全に屋根によって支えられているのに、物理学者なら絶対に起こさない誤りだった。LLMは予測不可能で誤導的だ:高度な数学を操る姿に魅了され、全体が誤情報だと気付かない。

Mollickらはこの「コンピテンス」と「馬鹿さ」の不規則境界をジャギー・テクノロジーフロンティアと呼ぶ。人間ができるタスクを領域で想像し、中心に容易なもの、端に難しいものを配置すると、人間は中間のスムーズで塊状の領域を解決できる。一方LLMが得意とする形はジャギーで、「キキ」より「ボバ」に近い。

AI楽観派はこの問題が最終的に消えると考える:MLシステムは人間作業や自己改善によってギャップを埋め、ほぼすべてのタスクを十分にこなせるようになる。ヘレン・トナーはそれが真であれば、今後も多くのジャギー行動が残ると主張する。たとえばMLシステムは訓練済みデータやコンテキストウィンドウに依存し、暗黙知(書かれていない知識)が必要なタスクでは成功しにくい。人間型ロボットは遠い未来であり、人間が物を扱うことで獲得する身体的知識にはMLは苦戦するだろう。

このようなジャギー認知について合理的に推論できる人は少ないと考える。一つのアナロジーとしてサヴィント症候群が挙げられるが、境界の不規則さを捉えきれない。最先端モデルでも言い換え方の微小変化に対して多くの人間よりも敏感である。このため、統計的に厳密なベンチマークなしにはLLMが実際にタスクに適しているかを予測することは難しい。

改善かもしれない

私はML分野外だが、関係者と話す機会がある。彼らの語るところでは、トランスフォーマーモデルがなぜ成功したのか、またどう改善できるかはほぼ解明されていないという。以下は飲みながらのディスカッションをまとめたもの――多くの塩を含めて受け取って欲しい。

2017年の Attention Is All You Need は画期的で、ChatGPTなどへの道を切り開いた。その後ML研究者は新しいアーキテクチャを模索し、企業は数十億ドルを投資してより良いモデルを作ろうとしている。しかし、これらの高度な構造は「パラメータを増やす」だけほど効果的ではない。おそらくこれはビター・レッスンの一種だ。

現在世代のモデルに対し膨大なシリコンと巨大データセットを投入し続けることが人間相当能力へ至るかは不明。訓練コストとパラメータ数の増加は徐々に減少効果しかもたらさないようだ。あるいはその影響は幻想かもしれない。

未解決の謎!

MLが今日改善を止めても、すでに私たちの生活を苦しめている。この技術は世界中で浸透しておらず、「未来はもう来ているけどまだ均等ではない」とギブソンが言ったように、影響は未だ広まっていない。LLMなどが新しい状況・規模で導入されると、仕事・政治・芸術・セックス・コミュニケーション・経済のあらゆる面が変化する。良い結果もあるが、多くは悪い。一般にMLは極めて奇妙な存在になると約束している。

さあ、シートベルトを締めよう。

同じ日のほかのニュース

一覧に戻る →

2026/04/09 0:40

私、macOS XをNintendo Wiiにポート(移植)いたしました。

## Japanese Translation: --- ## 改良された要約 Mac OS X 10.0(Cheetah)は、Nintendo Wii 上でネイティブに動作するようにポートされ、コンソールをキーボード/マウス入力と GUI サポート付きの完全機能型デスクトップへ変貌させました。プロジェクトのコアは、*ppcskel* をベースに最初から書き直されたカスタムブートローダーです。このブートローダーは、Wii の PowerPC 750CL CPU を起動し、メモリレイアウトを設定し、最小限のデバイスツリー(root → cpus → PowerPC,750; memory)を作成します。SD カードから XNU カーネルをロードし、実行中にカーネルバイナリをパッチ(MEM1/MEM2 用の BAT 設定と USB Gecko へのコンソール出力)し、制御を XNU に渡します。 ブートローダーが提供する主要ドライバーは次の通りです: - **SD‑カードドライバー**:Starlet MINI IPC コマンド(IPC_SDMMC_SIZE, READ, WRITE)を介して IOBlockStorageDevice を実装し、XNU が SD カードからルートファイルシステムをマウントできるようにします。 - **フレームバッファドライバー**:0x01700000 に RGB フレームバッファ(640×480 @ 16 bpp)を提供し、Wii のアナログテレビ出力用に YUV へ変換して Mac OS X GUI を実現します。 - **USB サポート**:PCI デバイスのニブ(NintendoWiiHollywoodPCIDevice)を作成し、AppleUSBOHCI をパッチして受け入れさせ、OHCI ドライバーからバイトスワップ処理を除去することでリバースレトルエンディアンハードウェアに対応し、USB キーボード/マウス機能をフル実装します。 ブートローダーは Apple Partition Map を解析し、起動可能なパーティションを一覧表示し、/chosen/memory‑map ノード経由でカーネル拡張を直接メモリにロードできるようにするため、改変されていない Mac OS X インストーラーパーティションからのインストールも可能です。必要なカーネル変更は最小限(BAT 設定、“hollywood” I/O ベース取得、フレームバッファキャッシュ整合性修正)で済み、その他すべてのドライバーはブートローダーが提供します。 この成果は、歴史的にサポートされていなかったプラットフォーム――Nintendo Wii――でも Mac OS X Cheetah をエンドツーエンドで動作させることを示し、ホビイストに低コストのレトロコンソールとして機能するデスクトップコンピュータを提供します。

2026/04/09 4:23

**ソフトウェア開発者のためのUSB:ユーザースペース USB ドライバー作成入門**

## Japanese Translation: ``` USB デバイスの操作は、libusb を使用してユーザー空間だけで完全に処理できるため、カーネルレベルのドライバ開発は不要です。 例として、Fastboot モード(VID 18d1 / PID 4ee0)にある Android フォンを挙げます。接続すると `lsusb` は「Google Inc. Nexus/Pixel Device (fastboot)」と表示し、カーネルドライバは付いていません。また、ベンダー固有クラスインターフェースが 2 つのバルクエンドポイントを公開します:コマンド送信用 OUT 0x02 とレスポンス受信用 IN 0x81。 libusb のホットプラグコールバックはこのデバイスの到着を検出し、Fastboot コマンドを自動的に発行できます。典型的な手順は次のとおりです: 1. `libusb_control_transfer` を使用して GET_STATUS リクエストを送信します。2 バイトの応答はデバイスがセルフパワーであり、リモートウェイクアップをサポートしないことを示します。 2. GET_DESCRIPTOR リクエストを送信して完全なデバイスディスクリプタ(ベンダー/プロダクト ID、USB バージョン等)を取得します。 3. バルク OUT 0x02 を介して Fastboot コマンドを発行します(例:「getvar:version」を 64 バイトにパディング)。 デバイスは IN 0x81 で 4 文字のステータス(「OKAY」または「FAIL」)と任意のペイロードを返します。 同じユーザー空間アプローチは、バルク転送に依存する他の USB プロトコルにも適用できます。主な作業はカーネルコードを書く代わりにプロトコルロジックを実装することです。これにより OEM 向けドライバ開発が簡素化され、ブートローダーのテストが迅速化し、カーネルモジュールなしでカスタム USB デバイスの高速プロトタイピングやデバッグが可能になり、組込み開発者と広範な USB エコシステムに恩恵をもたらします。 ```

2026/04/08 17:53

**コードを読む前に実行しておくべき一般的な Git コマンド** - `git fetch --all` *リモートの全ブランチとタグを取得します。* - `git status` *現在のブランチと未コミットの変更点を確認します。* - `git checkout <branch>` *対象となる機能やバグ修正用ブランチに切り替えます。* - `git pull --rebase` *ローカルブランチを最新の upstream コミットで更新します。* - `git log --oneline --graph --decorate -5` *簡潔なコミット履歴を表示し、文脈を把握します。* - `git diff origin/<branch>..HEAD` *まだプッシュしていない変更点を確認します。* - `git rev-parse HEAD` *現在のコミットハッシュを取得(参照に便利)。* - `git tag --list` *利用可能なタグ一覧を表示し、バージョン管理に役立てます。* - `git show <commit>` *特定のコミットの詳細と差分を調べます。* これらのコマンドで、コードを掘り下げる前にリポジトリの状態を素早く把握できます。

## 日本語訳: 以下の文章を日本語に翻訳してください。 ### 修正版要約 この記事は、ソースファイルを検査する前にコードベースの簡易監査が隠れた健康リスクを明らかにできる方法を示しています。これは5つの簡潔な Git コマンドを実行することで達成されます。 1. `git log --format=format: --name-only --since="1 year ago" | sort | uniq -c | sort -nr | head -20` 過去 1 年間で最も変更頻度が高い上位 20 ファイルを一覧表示し、潜在的な「ドラッグ」スポット(高い変更率)をフラグ付けします。 2. `git shortlog -sn --no-merges` コミット数で貢献者をランク付けします。単一人物が 70 % 超を占める場合はバスファクターが低く、過去 6 ヶ月にその貢献者がいない場合は危機的状況を示唆します。 3. `git log -i -E --grep="fix|bug|broken" --name-only --format='' | sort | uniq -c | sort -nr | head -20` バグ関連コミットが最も多いファイルを特定し、変更率データと照合して最高リスクコードをピンポイントします。 4. `git log --format='%ad' --date=format:'%Y-%m' | sort | uniq -c` 月ごとのコミット数を表示し、活動の加速または減退(例:半月間のドロップ)が重要人物の離脱を示す可能性があります。 5. `git log --oneline --since="1 year ago" | grep -iE 'revert|hotfix|emergency|rollback'` リバートとホットフィックスの数をカウントします。頻繁なリバートはデプロイ/テストが不安定であることを示し、ゼロの場合は安定性またはコミットメッセージ不足を意味する可能性があります。 これらの指標(変更ホットスポット、バスファクター問題、バグクラスタ、プロジェクトモーメンタム、火災対策頻度)は、コード複雑度測定だけよりも欠陥予測精度が高いと示されています(Microsoft Research 2005)。記事はスクワッシュマージワークフローが著者データを歪めることを警告しています。最初の監査に1時間を費やした後、筆者は特定されたリスクスポットに対して週単位で詳細調査を計画しています。関連研究としてはエンジニアリングチーム速度、Vim 使用、レガシー Rails 監査、Rails `default_scope` が引用されています。この手法は開発者に迅速なコミット履歴ベースの診断を提供し、高リスクファイルへの詳細コードレビューを集中させることでバグ削減、チームレジリエンス、およびリリース信頼性の向上を実現します。