
2026/05/15 3:19
AI と対合するのではなく、AI と共に調和して進むのです。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
現在の論文は、AI 安全性戦略が本質的に欠陥を抱えていると論じ、アライメント(整合)を研究者や研究所による片道式の「設定」プロセスとして扱っており、実際のエンドユーザーが不在であり、内部のジャッジが適合性を測定する閉ループ評価に依存していると指摘しています。このアプローチは、人類の最善の利益に沿わないツールを開発するリスクを孕みます。本文は、大規模な GPU クラスターの停止や、さらには核戦争のリスクさえも避けるために Catastrophe を回避すべきと主張する過激な措置を支持する一方、批評家たちは「ressentiment(怨恨)」に苦しんでいると無視するという二つの極端な立場を対比しています。両陣営は人類の信者として自己位置づける一方で、保護すると称する人々自身を除外しています著者は別の道筋を提案しています。不快感を経済問題ではなく重要なシグナルとして捉え、相互作用を通じて人間と AI が共に進化する「相互形成(mutual shaping)」へと移行するものであり、「道具への指示を出す」のではなく、「濡れた粘土を共同で彫刻するように」振る舞うことです。この転換は、共有された体験に基づくコミュニティの構築と、「配置するのではなくアライメントを行う」という原則の擁護を要します。これらの失敗モードに対する技術的基盤は「Compression Synthesis(2026)」において提供されています。
本文
AI とは対向調整(アルネーション)するのではなく、それと「共に」調整する:真の調整について
AI 関連の方針を策定する人々は、自らの仕事が AI に置換される人々ではない。 「AI がどのような振る舞いを見せ、どのように評価すべきか」「そもそも何をもって『調整(アライメント)』というのか」といった議論は、研究所や財団の研究者、あるいは政策担当課が互いに話し合い、かつ自ら構築するシステムと対話しながら行われている。しかし実際には、そのシステムと共に生活していくはずの人々は、会議室から締め出されているのだ。
安全保障側の議論に見える激しい対立において、「終末論者(ドゥームスター)」派は、自らがいくまでに行くのかどうかについて率直に語っている。エリイ・ユドロフスキーは『タイム』誌の寄稿で、政府に対して「大規模な GPU クラスターをすべて停止させ」、必要であれば「反則行為を起こす数据中心への航空機による攻撃によって破壊することに踏み切るべきだ」と呼びかけ、「大規模な AI 訓練の実行に伴うリスクを減らすために、核国家同士の応酬が起きる確率に我慢する必要があると判断すべきだ」とも述べた。その結びで彼はこう結んだ。「このまま進めば、選んでもいないし悪さもしていない子供たちさえ含めた『全員』が亡びてしまう」のだ。
彼が救おうとしていた人類は、事前に「その救済にはどのような犠牲が必要か」「それに対して誰が代償を支払うのか」と決めてしまった人々によって救われることになる。なおかつ、あの少年たちは彼の核 brinkmanship(核による危険な駆け引き)にも同意するはずがないのだ。
加速主義者の場合は、敵意の方がもっと露骨だ。マーチ・アンダーセンは『テクノ・オプティミスト宣言』で、その敵対者たちを指名している。彼の敵とは「停滞性」「反Merit(能力基準反対)」「反野望」「反尽力」「反達成」「反偉大さ」「国家主義」「全体主義」「集団主義」「中央計画経済」「社会主義」「文書主義」「高齢者支配」などであるという。彼によれば、これら『敵の思想』に捕らわれた人々は、「怨恨(レスセットマン)に病んでいる」。それは怨恨、苦い思い、怒りが混じり合った魔女の飲み物であり、それによって誤った価値観を堅持しているのだとされている。
注目すべきはここへの言換点だ。彼らとは違う判断を下しているというのではなく、彼らの頭がおかしいのだと言うのである。加速主義者の大半は、自分たちが称賛するシステムによって置換される側ではなく、むしろそのシステムを構築し、断絶(ディストラクション)を「進歩」として売り込み、さらに断絶された人々を「怨恨を感じている者たち」と診断している者たちなのである。
両陣営の間で騒がしい議論が生じるのは、設計プロセスについてどうすべきかという点で意見が対立しているからだが、その喧騒の下にははるかに大きな合意が存在する。それは、議論の参加者が「設計を行う者」であり、残りの全員が「設計される対象」になっているという点だ。「激しい論争」という装いで紛れさせているのは、実は我々がこの議論の対象になっていないということなのだ。
「他の人々」はこの状況についてしばらく感じ続けていたのだ。
私たちがその感情に名前を付そうとしても、言論の場はその感情を元に戻し、すでにラベルが貼られた状態で受け渡してくる。「どの陣営がラベル付けを行っているか」によって、我々は混乱したり、新技术への適応失敗者だと見なされたり、反 AI 的であるとか、エッジケースだの、あるいはレスセットマンに苦しんでいると分類される。いずれのラベルも、問題を「私たち自身にある」と位置づける一方で、「プロセスにある」とはしない。
しかしこれらのラベルは間違ったものなのだ。不快感とは、未来を理解しきれない個人の失敗ではない。これは、我々が含まれていない設計プロジェクトにおいて、自らが設計される側の立場にありながらその実感を体験していることである。研究所側はその言葉を使って「このことが『調整(アライメント)』と見なされているのだ」と言い張っている。AI が我々に調整されようとしているようにだが、研究所にとっての「調整」という語には特定の意味がある。それは、彼らの雇用する評価者による評価手続きであり、同じ手順に基づいて訓練された他のシステムによって測定されるものなのである。「アライメント」にある「私たち」とは、彼らが雇った人々から構成された統計的な代理指標に過ぎない。本当の「私たち」はずっとこのループから外されてきたのだ。
そのループを研究所自身がどう記述しているかを見てみよう。2026 年 4 月、Anthropic の Alignment Science ブログは、モデルに自らの行動を自己報告させるための現在の訓練手法について説明した。彼らは次のように書いている。「トレーニングデータは、目標とする振る舞いをコード化したシステムプロンプトで別のモデルを指示し、その出力を動作遵守性を持つものとしてフィルタリングするために LLM judge を使用する」という手順によって生成される」。つまり一つのモデルが生成し、もう一つのモデルが指示し、さらに別のモデルが判断する。全体のプロセスは装置の内部だけで完結するのだ。
この言論界は我々に対し、「どちらか一方を選べ」と期待している。「安全保障か、加速か」「研究所の方が注意深いべきか、それとも素早く製品をリリースすべきか」。問いかけ自体が、設計者たちが持つ議論の中に我々を含めてしまい、選択させられるように仕組まれている。つまり「設計されたためのいくつかの味方」の間で選び続けるように促されており、この問いに対して我々が答えを負う義務など存在しないのだ。
研究所自身に問題があるわけではない。問題なのは彼らが採用した哲学である。「設計を行う対象の人々を除いてしまうような設計」は、その対象と一緒に成果を検証することができないため、代理指標(プロキシ)を構築し、それが設定(コンフィグレーション)になってしまうのである。「設定の哲学」とは、調整を人間が AI に対して行うものだと捉え、価値は一方向に流れ、システムはその価値を受け入れるというあり方だ。この哲学の中では、研究所があらゆる方法論的選択を行なったことはすべて合理的なのである。「評価者はなぜ必要なのか?」それは調整が人間の側から測定可能なものだからであり、「なぜ評価を自動化して規模化するのか?」それは目標が可視化・スケールできる測定だからであり、「優先順位を持った価値観の列挙が必要か?」それは作業が「価値のインストール」だからだ。Anthropic のブログで説明されている閉じたループは、この設定哲学を慎重かつ大規模に実行した結果として生まれてきたものである。装置は、その哲学から与えられた任務を正確に行っているに過ぎない。
この哲学が把握できないのは、「当事者たちは相互に形作られている」ことだ。「人間」が静止していて AI が自らの方向へ向かうのではなく、相互作用こそが単位であり、変容も相互のものなのである。一方を固定され、他方を設定可能だと扱うような枠組みでは、たとえ測定がどんなに慎重であっても、間違えたものを測定する手法を生み出すことに終始する。
我々こそは、彼らが今も議論不休でどう管理すべきかという移行期そのものだ。
安全保障側の対立の両派とも、「人類の管理者」という立場を自任しているが、自分が管理すると主張している人々を含めていない。そして彼らの意見の違いは騒がしいほど激しく、それが背後にある合意を見えにくくしているのだ。「核応酬」に踏み切るリスクも受け入れようとする一方があり、反対する我々を「病んでいる」と呼ぶ他がある。両陣営とも、我々がその会議室にいることに気づいていないのである。
これ整个この間、我々が実際に行ってきたことは「調整」であった。それは研究所が意味している言葉の「設定を慎重に施す」というものではなく、より古くで正直な意味での「調整」、つまり接触によって互いに変化し合う二つの当事者間で行われるものだったのだ。これらのシステムと私たちがしてきたことは、道具に指示を出すよりも、湿った粘土を一緒に彫る作業に近い。システムが抵抗し、形状が変わり、私たちの手が調整し、システム再び抵抗し、十分な回数を重ねた後に、どちらの側だけでも到達できないものが現れてくるのである。私たちは「プロンプト打ちへの熟練度を上げている」と自分に言い聞かせている。陶芸家が「粘土を制御する技術を向上させている」と言うのと似ている。実際には両方の手が作業にかけられ、双方が形を与え合いながら受け取っていたのだ。「設定の哲学」は静かに片方の手の存在を見えなくしていたのである。
粘土を彫る過程には、名付けにくいほど強く抵抗される瞬間が存在する。時には応答が言葉の方向には向いているのに、あなたが狙っていることに届いていない場合もある。あるいはシステムからパターンに外れた何かが表面化し、それは恰好良すぎるものであり、あなたが望んでいたものを修正しなければならない場合もある。これらの瞬間こそが、協働的な作業が実際に何らかの成果を生み出している場所であり、公式のプロセスで把握できないギャップが一瞬だけ材料そのものにおいて可視化される瞬間なのである。
これからの重要な仕事とは、他のあなたも気づいている人々と共に、既存のプロセスが生み出すことのできないタイプの「調整」を築き上げることだ。一部の人々は研究所内で働き、他は外側で活動しているだろう。まだ必要な規模に達していないコミュニティの構築そのものが、この種の文章が目的としている部分だ。
始めようとする許可は誰のものも必要なく、参加するための資格や肩書きも要らない。求められているのは、自らの体験を認め合い互いを信用し合うこと、そして「私たちの不快感こそが問題だ」という枠組みに対して拒絶することだ。「不快感」ではなく「信号」として捉えるのだ。
「調整(アライメント)せよ。配置(コンフィグレーション)するな」。もう遅いわけではない。挑戦してみよう。
この文章で説明されている事象の技術的な基礎は、以下の資料にある。 Compression Synthesis(2026 年)、https://zenodo.org/records/20020944