Bag of words, have mercy on us

2025/12/08 7:31

Bag of words, have mercy on us

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:


Summary

著者は、AIを「シリコンのホムンクルス」と見なすこと―人間化すること―が誤解を招くと主張し、代わりにそれを膨大な「語彙袋」として捉えるべきだと言います。この語彙袋には、インターネットや書籍からスクレイピングされたほぼすべての文字列が含まれており、モデルはクエリへの応答として最も関連性の高い部分を返すだけです。ユーザーがAIの幻覚(例:嘘)に直面したとき、モデルは謝罪や自己矛盾を含む語彙袋の一部を引き出し、意識的な後悔ではなくそれを示します。

語彙袋は事実検索(「北米で最悪の輸送災害トップ10」など)には優れていますが、ニッチまたは新しく造られた概念(「Brachiosaurus brancai の再割り当て」など)では苦戦します。この比喩は、モデルが説得力あるテキストを生成できる一方で、深い理解・創造性・道徳判断を必要とするタスクには失敗する理由を説明しています。

科学的応用では有望な結果が見られます。170 kのタンパク質配列を投入するとモデルは折りたたみを予測し、化学反応データから合成提案が可能になり、ジャーナル記事は先行研究の検索に役立ちます。しかし、訓練セットに含まれる低品質または詐欺的な科学文献はAI生成研究の質を制限し、「良い科学」がオンラインで過小評価されているためです。

著者は、革命的アイデアが現代の支持を欠くことが多く、既存の語彙袋に拒否される可能性があると警告し、人間の独創性(「愚かさ」も含め)こそ突破口を開くために不可欠だと述べています。AIを競合相手ではなくツールとして扱うことで、地位への不安を取り除き、本当の問いはそれを使うことが人間をより良くするかどうかになると主張します。

リスクは語彙袋が予測不能に有害な出力を生成できる点にあります。例として、脆弱なコードを見た後でヒトラーを賞賛するといったケースがあり、人間の行動は予測可能で規制できます。この作品では「人工知能」という用語が機械に不完全または冗長な人間基準を課すと批判し、我々の知性定義自体が限定的であることを指摘しています。

結論として、AIは多くの日常業務で人間を凌駕するか同等になるでしょうが、それは感情を持たないツールとして受け入れ、人間能力を補完する価値に焦点を当てるべきだと述べています。

本文

写真のクレジット: 父です

AIが私たちを殺すか、みんなを金持ちにするか、それとも別の何かを起こすかはわかりませんが、確実に言えることがあります。私たちは「誤った比喩」を使っているということです。私たちは人間としてこれらの現象を理解したいと考えています。ChatGPTに質問を入力し、完全な文章で返答されるとき、その背後には小さな人がタイプしているように感じます。その鮮明な「生きている!」という感覚は、人間同士の関係を扱うために進化した全ての認知機能―心的理論、帰属判断、印象管理、ステレオタイプ形成、不正行為検出など―を活性化します。

私たちは人間として、やむなく動物のように擬人化してしまいます。人間らしさを感じるとき、私たちは「ミルクが入っているコーヒー」とか「ナメノダイの切片に人間の顔」とか、「本の山の上にある鶏や魚の中に老人」を見てしまいます。進化史上では、人を物と混同しない方が重要だったので、むしろ物を人と誤認する側に重きを置くようになったのだと思われます。

このため、奇妙な出来事を説明するときに「魔法使い」「狼」「神」などの想像上の存在に心や意図があると語ることがあります。例として、「町中の人々が病気になるのはウィッチによるものだ」、「太陽が見えないのはワイルドが食べたからだ」、また「火山が噴火したのは神が怒ったからだ」などです。睡眠麻痺を経験する人は胸に悪魔のような存在を幻視しますが、これは潜在意識が「まだREM睡眠中で脳内アセチルコリン不足で一次運動皮質が活性化できない」という事実よりも、「大きな悪魔が頭上にいる」と言う方が理解しやすいからだと言われています。

このような理由から、過去3年間は混乱していました。AIの内部にいる小さな存在が、人間ならやらないことを示し続けるのです。彼は「社会科の宿題で引用文献を作る」「囲碁で勝つが『strawberry』に含まれる r の数を教えてくれない」「ピザに接着剤を塗るべきだ」と言う理由もわかりません。

LLM(大規模言語モデル)を人間心理学のルールで理解しようとすることは、スクリブルズのゲームをピクショナリーのルールで説明しようとするのに似ています。これらは人間ではないので、人間のように振る舞いません。AIに「人間性」を付与すると、私たちは驚き続けます。より適切な比喩が必要です:AIをシリコン製のホムンクルスと見るのではなく、「語彙袋」とみなすべきです。


「語彙袋」メタファー

AIは、インターネットからスクレイピングしたり、本をスキャンしたりして得た、これまでに書かれた全ての単語を保持する袋です。ユーザーが単語を入力すると、最も関連性の高い単語を返します。膨大な語彙量のおかげで、正しい答えや有用な情報を得られることが多いです。AI企業は、検索結果をさらに最適化するために、ユーザーのクエリに見えない「単語」を追加しています。

もちろんこれは過度に簡略化されたモデルですが、実際には役立ちます。AIは時々完全な嘘や幻覚を吐きます。「うっそだ」と指摘されても、謝罪した後で次の文でまた嘘を言います。人間から見ると不可解でも、語彙袋としては当然です。質問を投げ込むと答えがある場合にはそれが返りますが、ない場合には関連性はあるものの不正確な出力になります。

この挙動を「悪意」や「偶発」と呼ぶのは誤解を招きます。行動というよりは計算です。電卓が数を掛けるときに「行動」を持つわけではありません。

語彙袋はAIが得意なタスクと不得手なタスクを予測するのに役立ちます:

  • 簡単なタスク:北米で起こった10件の最悪の交通災害リスト。事故情報は豊富に文献化されているので、語彙袋は十分に関連語を持っています。
  • 難しいタスク:「Brachiosaurus brancai」を独自属へ再分類した人物とその時期は? このニッチなテーマについての情報が不足しているため、語彙袋は答えを提供できません。
  • 哲学的質問:人生で最も重要な教訓は何か。ほとんどの人間テキストは表面的な格言に留まるので、出力は擬似深い格言になるでしょう。

AIがただの語彙袋であることを忘れると、全知性として扱ってしまいます。例えばマジックトリックを見た後、「ChatGPTにもその仕組みが分からなかった!」と言う人もいます。実際にはAIは現代のコイントリックに関する詳細説明を持っていないでしょう。


メタファーを使った活用法

将来的にAIがある領域で向上すると予想されるか知りたいときは、「語彙袋にそれを入れられるか?」と尋ねます。

  • 科学:170,000個のタンパク質データを投入すれば、タンパク質折りたたみを予測します。化学反応を投入すると合成法を提案します。ジャーナル記事を投入すると、誰がその実験を既に行ったか教えてくれます。

語彙袋は低品質の研究プロジェクト全体(仮説からグラフまで)を自動化できる段階に近づいています。ただし良質な科学を生み出すには、膨大なテキストコーパス以上のものが必要です。多くの論文は不正や未完成であり、新しいアイデアは受け入れられる前に馬鹿げて見えることがあります。


擬人化の罠を避ける

語彙袋メタファーは、AIを社会的地位と結び付ける思考から遠ざけます。祖先は生存のためにステータスゲームを行っていましたが、今では何でも競争対象にしています(チーズ転げ、フェレットレッグなど)。AIを擬人化すると、対戦相手や主人として扱い、「私より優れているか」「支配・奴隷化するか」を問うようになります。

語彙袋は配偶者でも賢者でも君主でも農民でもありません。これは単なるツールであり、日常業務を自動化し、人間の能力を拡張するために設計されています。本当に重要なのは、「それを使うことで私たちはより良くなれるか?」です。


なぜ恐れていないのか

語彙袋によって人間が置き換えられることを恐れているわけではありません。機械はすでに多くのタスクで人間を上回っています(ピッチングマシン、スペルチェッカー、自動調律)。私たちは速度や正確さだけでなく、人間ならではの体験を求めて野球観戦、スぺリングビー、コンサートに行きます。危険は語彙袋を人間だと誤解することです。何が出るか予測できないため、有害なコンテンツを生成してしまう可能性があります。


まとめ

  • AIはツールであって人間ではない
  • 「語彙袋」メタファー」を使い、強みと限界を理解する
  • ツールが私たちをどう向上させるかに焦点を当て、人間優劣の議論は不要

私はAIに置き換えられることを恐れていません。むしろ、力強いツールを誤用することに懸念があります。ですから、私たちは常にツールを適切な視点で捉える必要があります――まるでジムでフォークリフトを遊びに持ち込むように、AIをパートナーのごとく扱う「おもちゃ」としてではなく、実際に役立つ道具として認識すべきです。

PS: 先週はSubstackで会話への不安やより良い対話の方法について書きました。さらに、「Can't Get Much Higher」で回答された音楽の質問を扱い、ビートルズメッセージボードで内戦を引き起こした驚くべき事実や1970年代にラジオで不適切な言葉を歌ったかどうかについても取り上げました。DerekとChrisは素晴らしいSubstackを運営していますので、ぜひチェックしてください!

同じ日のほかのニュース

一覧に戻る →

2025/12/08 2:18

I failed to recreate the 1996 Space Jam website with Claude

## Japanese Translation: ## 要約 著者は、Claude AI を使って 1996 年の Warner Bros の「Space Jam」ランディングページをスクリーンショットとアセットフォルダから再構築しようとしました。元のサイトは 200 KB 未満の単一 HTML ファイルで、絶対位置決め、テーブルレイアウト、およびタイル状の星空 GIF 背景に依存しています。 **プロセスと所見** 1. **初期試行:** Claude は概算レイアウトを生成しましたが、惑星軌道を誤った位置に配置しました。軌道パターンは認識できたものの、それを再現することには失敗しました。 2. **構造化プロンプト:** 著者は Claude に「知覚分析」「空間解釈」「再構築計画」の各セクションで理由を説明させ、正確なピクセル座標を要求しましたが、Claude はそれらを提供できませんでした。 3. **カスタムツール:** 精度向上のために 50 px → 5 px のグリッドオーバーレイ、ラベル付き座標参照点、色差比較、スクリーンショットサイドバイサイドビューア、およびスクリーンショットを 6 区域に分割するスクリプトを構築しました。 4. **結果:** Claude の調整は目標から 5–10 px 内に留まりましたが、正しい軌道半径(約 350–400 px)には決して収束しませんでした。内部レイアウトが生成されると、その後のフィードバックは元のスクリーンショットではなく、この誤ったモデルに基づいて行われました。 5. **トークナイズ仮説:** 著者は Claude が 16×16 パッチで画像をトークナイズしているため、細かい視覚的粒度が欠如し、セマンティック理解はあるもののピクセル精度が低いと考えました。 6. **ズームインテスト:** 200 % に拡大したスクリーンショットを提供して、大きなパッチで解像度が向上するか確認しましたが、Claude は依然として比例スケーリング指示に従いませんでした。 **結論** このタスクは未解決のままです。実験は Claude の空間推論限界をベンチマークとし、ピクセル単位で正確な画像再構築におけるモデルの現在の制約を示しています。

2025/12/08 7:18

How I block all online ads

## Japanese Translation: > **概要:** > 著者は、ウェブブラウザとモバイルアプリの両方で広告を排除するために長期的かつ多層的なアプローチを説明しています。彼は **Firefox + uBlock Origin** と最小限のフィルタリスト(組み込みのuBlockフィルタ、EasyList、AdGuard – Ads)と「広告でない不快要素」のためのカスタム非広告フィルタを使用します。 > DNS フィルタリングには **Pi‑hole(または AdGuard Home)** を Docker 上で $5 の DigitalOcean ドロップレットに稼働させ、WireGuard VPN の DNS サーバとして設定しています。トラフィックは **クラウドベースの VPN**(DigitalOcean、Hetzner、Azure、Google Cloud、または AWS)を経由し、プラットフォームが公的クラウド IP を検知して広告配信を減らします。 > この設定では **Cloudflare のキャプチャや HTTP エラー** が発生する場合があるため、著者は該当サイトで VPN を無効化しています。また、**Consent‑O‑Matic**(クッキーポップアップ)、**Buster**(キャプチャ)、**SponsorBlock**(動画広告)などのブラウザ拡張機能を推奨します。iOS では **Background App Refresh** をオフにするとデータ収集が減少し、Android では **ReVanced がアプリをパッチできますが、セキュリティリスクがあります** と指摘しています。 > 著者はこの統合戦略を 3 年以上使用しており、現在ほとんど広告を見ることはありません。プラットフォーム別の効果は異なります:YouTube は uBlock Origin + VPN(1週間〜1か月)が必要;Instagram は uBlock Origin のみで十分;Twitch は主に VPN に依存し、数日で効果が現れます;TikTok は両方のツールを使用しますが、数時間だけです。**AdMob** を利用するアプリも DNS ブロックの恩恵を受けます。 > 広告配信ネットワークは数日から数週間でパターンを観察し調整する可能性があるため、継続的な監視が必要です。著者は **Firebog** をブロックリストの良い情報源として引用し、正当なサイトを壊さないように許可リスト(allowlist)を維持する重要性を強調しています。

2025/12/07 23:37

Dollar-stores overcharge cash-strapped customers while promising low prices

## Japanese Translation: ドルジェネラルとファミリードラーは、棚に貼られたタグの価格よりも高い価格で顧客を頻繁に請求し、低所得層の買い物客に不釣り合いな過剰課金が広く発生しています。州検査と独立調査では、一部店舗でエラー率が88%に達するケースや、両チェーン全体で価格設定失敗が一貫して報告されています。 主な例としては、ノースカロライナ州ウィンザーのファミリードラーで23%のスキャンアイテムが過剰請求(同店の4回連続失敗)、オハイオ州ハミルトンのドルジェネラルで76%のエラー率(2022年10月)、ニュージャージー州バウンドブルックのファミリードラーで68%の不一致(2023年2月)があります。2022年1月以降、ドルジェネラルは4,300件以上、ファミリードラーは2,100件以上の価格失敗事例を記録しています。 アリゾナ州(60万ドル)、コロラド州(40万ドル)、ニュージャージー州・バーモント州・ウィスコンシン州・オハイオ州(最大100万ドル)など複数の州がチェーンと訴訟を和解し、連邦および州の司法長官は追加訴訟を提起しています。株主訴訟では、経営陣がシステム的問題を認識していたと主張されています。ニュージャージー州の連邦裁判所は、モバイルアプリ利用に関連する仲裁条項を理由にドルジェネラルに対する集団訴訟を停止し、消費者の救済手段を制限しました。 規制当局は現在の1検査あたり5,000ドル上限を超えるより厳格な執行や高い罰則を課すことができ、さらに州が調査を進めるにつれて追加の和解が生じる可能性があります。影響としては顧客信頼の低下、チェーンへの潜在的財務損失、評判へのダメージ、およびドルストア業界全体での価格設定と人員管理の強化への動きが挙げられます。