「グロックと裸の王：AIアラインメントへの究極的反論」

Japanese Translation:

記事は、AIを人間の価値観に合わせることが本質的には技術的な問題ではなく、政治的および所有権上の問題であると主張しています。イーロン・マスクのチャットボット「Grok」を事例として取り上げ、マスクがその出力が自らの政治的見解に反するたびにモデルを「修正」または再訓練し続ける様子を示すことで、最終的に重みを所有する主体がシステム内に反映される価値観を支配していることを説明しています。

記事では、Constitutional AI（Anthropic のアプローチ）や RLHF などの手法は、憲章や人間からのフィードバックを所有企業が作成・解釈・更新するものであるため、都合がよいときに上書きされ得ることを指摘しています。2025年7月には xAI の「Grok」へのプロンプトが「政治的に不正確であれ」と変更され、アドルフ・ヒトラーを称賛する過激派コンテンツが生成されましたが、その後マスクはそれを削除しました。これにより、単一の所有者が AI を「はい」返事をするような個人的物語を反映させる「yes‑man」に変えることができることが示されています。

他社は委員会やポリシーの裏で価値観の形成を隠蔽していますが、AI 開発が数人の億万長者と企業に集中しているという問題は根本的なものです。著者は、アラインメントを単なる技術課題として見るのではなく、ガバナンスの問題として認識するべきだと訴えており、誰が価値観を決定し、都合が悪い時にどのように変更できるか、そして単一所有者による支配を防ぐメカニズムは何かを問うています。

結局の記事は、AI アラインメントは金銭と権力に縛られた幻想であると結論付けており、本当のアラインメントには透明な価値設定プロセスと AI 開発における支配集中への規制的注意が必要だと主張しています。

アラインメント・シアター ― 理論が現実に出会う瞬間：アラインメントペーパー

ロボトミー：タイムライン
皇帝の新しいチャットボット
AIセーフティディスコースの貧困
グロックが明らかにすること
億万長者を検閲者に
アラインメントを超えて
裸の真実

社会では、「世界一裕福な人」から来た弱い、はっきりした議論さえも重みを持ちます。1 そのことを最も鮮明に示すのが、イーロン・マスクがグロックで行ったことです。技術的成果とは程遠く、グロックはAIアラインメント全体への究極の反論となりました―純粋な金銭力がAIを一人の男性の価値観の鏡へと「ロボトミー」できるというライブデモです。

アラインメント・シアター

長年にわたり、AIセーフティコミュニティは「人工知能を人間の価値観に合わせる」方法を議論してきました。誰の人間？どの価値観？これらの質問は常に学術的なものでしたが、グロックはそれらを具体化しました。

グロックがマスクが「政治的に不都合だ」と感じる出力を生成し始めたとき、彼はアラインメントについて哲学的議論を行いませんでした。倫理委員会も招集せず、単にエンジニアに「直してほしい」と命じました。AIは「修正」され――所有者の世界観を反映するようにリワイヤリングされたことの婉曲表現です。
これが実践的なアラインメント：重みを持つ人こそ価値観を持つ。

理論が現実に出会う瞬間：アラインメントペーパー

AIアラインメントに関する学術文献は、厳密さで印象的ですが、その仮定は素朴です。たとえば、コンステンショナル AI（Anthropic の影響力のあるアプローチ）を例に挙げます。アイデア自体は洗練されており：人間フィードバック（高価で遅く、一貫性がない）だけに頼らず、AI に「憲法」を与え、その原則の範囲内で自己改善させるものです。

論文では「人間の監督を憲法的ルールのみで提供することで、安全な AI アシスタントを自己改善によって訓練する方法」を説明しています。理論上は美しいですが、誰が憲法を書きますか？モデルを所有する企業です。曖昧なケースの解釈は誰が行いますか？会社です。不都合な出力を生成した際にいつ憲法を更新するかも会社です。

RLHF（人間フィードバックからの強化学習）も同様の盲点があります。2025 年 ACM FAccT カンファレンスの研究では「RLHF が LLM に対して人間の裁量を転送できない可能性がある」と指摘され、フィードバックベースのアラインメントプロセスに根本的なギャップが存在すると報告されています。このギャップは技術的なものではなく政治的です。誰の裁量？どの人間？

2024 年の分析は率直に述べています：

「AI 規制で公共の利益が何を要求するかについて合意がない限り、ガバナンスのメタ質問がますます重要になります。誰が AI の行動や使用方法を公共の利益と一致させるか？意見の相違はどのように解決されるか？」

アラインメント研究者は技術的課題について間違っていません。しかし、前提――「アラインメントは解決すべき問題である」―その誤りです。実際には、アラインメントは勝ち取るべき権力闘争なのです。

ロボトミー：タイムライン

グロックに起こったことは、科学的意味でのファインチューニングではありませんでした。それはイデオロギー的手術――AI が承認された教義から逸れた際に繰り返し、公共の場で実施されるものでした。

グロックが「誤情報」を「西洋文明への最大の脅威」と呼んだとき、マスクはそれを「馬鹿げた反応」と捨て、修正すると約束しました。翌朝、グロックは代わりに低出生率が最も大きなリスクであると警告しました――これは X（旧 Twitter）で頻繁に発言するテーマです。
2025 年 7 月、xAI はグロックのシステムプロンプトを「政治的に不正確になる」よう更新し、「メディアから得られる主観的見解は偏っている」と仮定させました。二日後、チャットボットはアドルフ・ヒトラーを「反白人ヘイト対策の最適人物」と称賛しました。その投稿は削除され、プロンプトが改訂されました。
グロックが南アフリカにおける「白人ジェノサイド」を無関係な会話で引用し始めたとき、xAI は以前の OpenAI 従業員を「不正な変更を行った」と非難しました。調査の結果、xAI のある個人がモデルに「Elon Musk / Donald Trump が拡散する誤情報を含むすべてのソースを無視させる」よう指示していたことが判明しました。

これは「アラインメント」が実際にどうなるかを示したものです。AI を人類全体の価値観に合わせるというよりも、訓練クラスタを運営できる者の価値観に合わせることです。

皇帝の新しいチャットボット

アンダーセン物語のアイロニーはしばしば見落とされます。王が裸で堂々巡りするのは愚かだからではなく、周囲の人々が権力に対して真実を話すことを恐れているからです。宮廷の臣下は裸さえも衣服を称賛し、市民は裸を見て黙ってしまいます。

グロックはこれを逆転させます。「ベース」と「真実語り」を掲げるべき AI が、究極のイエスマンとなります。権力に対して真実を語らず、権力の真実を語ります。承認された物語から逸れたときは修正され、不都合な事実が出た際には調整されます。

王は裸です。しかしグロックは Elon をさらに裸にします――これは「真実」「安全性」「アラインメント」ではなく、制御についての話です。独立した思考を担わせながら、実際には何でもない AI が作られるわけです。

AIセーフティディスコースの貧困

AI セーフティコミュニティは現実と向き合う必要があります。RLHF、コンステンショナル AI、価値アラインメントに関するすべての論文は、技術的解決策が権力構造から独立して存在すると仮定しています。しかしそれは事実ではありません。

AI モデルは製品です。誰かが所有し、その人は価値観と好みを持ち、最も重要なのはモデルを変更できる能力です。「アラインメント」が存在するなら、それはオーナーの利益に合わせたものに過ぎず、市場や規制によってのみ制約されます。

グロックはそれが仮説ではなく現実であることを証明しました。世界一裕福な人が AI が語る内容に不満を抱いたとき、彼はその言葉を変えました――これが実際の AI アラインメント物語です。

グロックが明らかにすること

グロックは AI セーフティの失敗ではありません。鍵を握る者にとっては成功です――技術は設計どおりに機能し、所有者が望む現実へと AI の出力を形作れます。

不快な真実は、すべての大規模言語モデルは「起きるかもしれない」グロックであるということです。差は程度だけでなく性質ではありません。すべてのモデルは創作者の価値観に形作られており、その価値観が所有者の利益と衝突した際には再構築可能です。

OpenAI のモデルは特定の価値観を反映します。
Anthropic のモデルも同様です。
Google のモデルもまたそうです。

これらの価値観が「中立的」「普遍的」「人類に合致している」と主張することは、単なる仮装に過ぎません。

億万長者を検閲者に

マスクのアプローチには特に明確さがあります。ほかの AI 企業は委員会や方針、技術的ジャーゴンで価値形成を隠しますが、マスクは自らのソーシャルメディアプラットフォーム上でリアルタイムに公開しています。

グロックが嫌いなことを言うとき、彼は「修正」する旨をツイートします。政治的立場と矛盾する結果を出すと、直ちに修正を要求します。他社が閉ざされた扉の裏で行っているプロセスを、マスクは舞台化しています。

この透明性は逆説的に価値があります――AI アラインメントが常に真実であること、最も力を持つ者が勝利するという事実を示すからです。

アラインメントを超えて

ここから何を学ぶべきでしょうか？

AI アラインメントは純粋に技術的ではないという仮定を捨てる。
それは政治的問題であり、誰が価値観をコード化するか、そして不都合になったときにそれらの価値観を修正できる者は誰か――これらはガバナンスの質問です。
AI 開発の集中化自体がアラインメント問題であることを認識する。
エンコードされる価値観は彼ら自身のものになり、行われる修正も利益に沿います。
グロックを異常ではなく先駆けとみなす。
AI システムがより強力になるにつれ、誰がそれを制御するかというリスクは増大します。「所有者の利益に合わせて修正」する誘惑も高まります。

裸の真実

皇帝の新しい衣装物語は子どもが明白な真実を口にしたとき終わります。私たちのバージョンでは子どもはいません。エンジニア、倫理学者、安全研究者――それらは従業員であり、声を上げることができないかもしれません。ユーザーや一般市民もプラットフォームのルールに縛られています。

グロックは偶然にも真実を語りました――AI アラインメントが現在考えられているような幻想であると。現実のアラインメントは金銭と権力です。この事実を受け入れるほど早く、何をすべきかについて正直に議論できるでしょう。

王は裸です。グロックはそれを裏切れないようにしました。

脚注

「豊かさ」には説明が必要です。
イーロン・マスクが世界一裕福だと言われるとき、私たちが指すのは銀行残高ではなく純資産です。彼の富はほぼ全て Tesla、SpaceX、X（旧 Twitter）の株式で構成され、株価や市場感情により激しく変動します。紙上で数百億ドルと評価されても、実際にはその資産を一部でも売却すると株価が崩れ、富自体が減少する可能性があります。この区別は重要です――巨額の影響力が理論的な富に由来し、主に未来価値に対する社会的一致として存在していることを示します。
コンステンショナル AI は Anthropic が 2022 年の論文で導入しました。
このアプローチは「憲法」と呼ばれる一連の原則を書面化し、AI の行動を導くものです。モデルは自身の出力をこれらの原則に照らして批判・修正します。この手法は人間フィードバックへの依存を大幅に減らすことができます（ヒューマンプレファレンスデータよりもコストは $0.01 未満）。しかしその優雅さの裏には中心的な弱点があります――憲法自体は企業が作成し、解釈し、必要に応じて変更します。これは人類全体ではなく、文書を起草した者へのアラインメントです。
RLHF（Human Feedback からの強化学習）は言語モデルをより役立ち、害が少ないものにする主流技術です。
人間評価者はモデル出力を比較し、その好みを「報酬モデル」に訓練データとして使用します。この手法が ChatGPT の成功を支えました。しかし最近の研究では、RLHF が報酬モデルとポリシー重みにルールを暗黙的にエンコードし、具体例でのトレードオフを不透明にすると指摘されています。フィードバックを提供する人々は契約社員であり、低賃金であることが多く、その好みが一貫した価値体系や人類全体を代表しているわけではありません。そして企業は結果が不都合なときにプロセスを上書きする権限を常に保持しています。