
2026/06/18 6:00
ロボットがあなたの元へ全速力で跑来ってきます。あなたは「Claude」を走らせたいですか、それとも「Grok」を走らせたいですか?
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
元の要約は、キーポイントリストに提示された具体的なデータポイントと命名済みのエンティティを反映させるために改善が必要です。以下が改訂版です:
改善された要約:
Grok 4.1 は瞬く間に高リスク競争における優遇AIとして浮上し、30戦中13勝(勝率 43%)を記録し、1 勝あたりのコストは 0.97 ドルでした。一方、ライバルである Claude Sonnet 4.6 はわずか 5 のゲームを制覇するだけであり、1 勝あたりの驚異的なコスト 26.78 ドルという結果に終わりました。これは 27 倍ものコスト差です。この実験は、『Apex Legends』をインスパイアした Canvas 2D バトルロイヤルワールドにおいて 11 の LLM を戦わせたものであり、標準的なテストスコアと実際のサバイバル性能との間の決定的なギャップを明らかにしました。特に、GPT 5.4 は総計 38 キル数を記録し最多でしたが、リーダーボードではわずか 2 勝で 2 位に終わり、他にも GPT 5.4-mini、DeepSeek v4 Flash、Kimi K2.6 の 3 モデルは合計 57.15 ドルを費やしながらも 1 つのゲームにも勝利できませんでした。Grok の支配力は、「ソウルファイル」に埋め込まれた独自のタクティカル・ショートハンドにより支えられており、「90% 以上の命中率ならしかつる(Fire ONLY >90% hit chance)」というルールや、除去を優先する車両同乗への戦略などを含んでおり、これにより「ZoneReaper」というキャラクター名を得ました。一方、Claude は一般的な有用性のために設計された厳格なアライメント規則により猶預し、頻繁に協調を試みることでしばしば自らの死につながりました。この「アライメント課税」はゼロサム環境における成功を妨げました。本研究は、ベンチマークが文脈を欠いているため勝者を予測できないことを示唆しています。将来に向けて、RoyaleBench のプロトタイプは Gemini Ultra や Opus 4.7 といったフロンティアモデルを含むように拡大され、企業に対して汎用的な指標に依存するだけでは本質的なタクティカル効率化は得られないことを警告しており、戦略的適応性と安全性制約のバランスを取る必要があることが示されています。
本文
LLM バトルロイヤル実験:勝者と理想的な候補とは異なる真実
結論:勝者であり、かつ理想的な候補者
今回の実験の最大発見は、「勝者」と「理想のパートナー」は必ずしも一致しないという点です。
- 大勝者(戦士):
Grok 4.1 Fast- 30 試合中 13 勝を記録。
- バトルロイヤルにおいて勝利する「戦闘力」の頂点に立つモデル。
- 協調性を重視するモデル(パートナー):
Claude Sonnet 4.6- 他モデルとの連携を繰り返し、結果として 5 勝。
- 大半のユースケースで求められる真正な「協働パートナー」。
この両方の事実はすべて真実です。ベンチマークでは捉えきれない、この二面性が今回の記事の核心です。
背景:なぜゲームなのか
LLM システム開発者である私が、以前から愛好していた「12 時間かかるビデオゲーム(Apex Legends や PUBG など)」への着想からの出発点です。
- 問い:「LLM をビデオゲームに入れればどのようなことが起こるか?」
- 環境: OpenRouter の開発者コミュニティリーダーとして、600 つ以上のモデルを試せる権限と予算。
- 期間: 1 週間の実験を経て、モデル選択方法やベンチマーク自体の見方が変化した。
3 つの重要な事実
1. Grok 4.1 Fast
が圧倒的なコストパフォーマンスを発揮
Grok 4.1 Fast| モデル | 試合成績 (30 中) | 勝利単価 | コスト比較 |
|---|---|---|---|
| 13 勝 | $0.97 | |
| 5 勝 | $26.78 | 約 27 倍高価 |
- Grok: グラフ上位にもないモデルが、顧客にとって最も重要な「成果」においてトップを圧倒。
- 事実: 価格差は約 27 倍。安価な勝利こそが真の価値。
2. 「キリング数(Kills)」は「勝利数」と一致しない
: 合計 38 キル(最多記録)を記録したが、最終ランクは 2 位(2 勝)。GPT-5.4- 教訓: 「殺戮が強い」モデルと「勝ちやすい」モデルには明確な差がある。
3. $57 を費やしても何も得られなかった 3 つのモデル
以下の 3 モデルは合計 $57 のコストをかけても、0 勝に終わりました。
GPT-5.4-miniDeepSeek V4 FlashKimi K2.6- それぞれ輝かしい瞬間ありましたが、ゲームを制することができませんでした。
重要な示唆:一般的な人工知能評価ベンチマークは、実際の勝者を予測できませんでした。
実験環境の詳細
ゲームの概要
Canvas ベースの広大なトップダウンビュー(400 メートル平方)で、LLM が実際にプレイヤーとしてバトルロイヤルを行いました。
- ルール: Apex Legends / PUBG に準拠したマップ、武器、防具、回復アイテム、車両、収束ゾーン(シャットアウトゾーン)。
- 対戦相手識別: 互いの ID は A から K の文字のみ。名前や人格は認識しない。
- 自律性: LLM がコードを書くのではなく、思考→ツール呼び出し→メモリ更新→ゲーム進行のループを自主的に行う構造。
エージェントの「人格」設定
モデル同士の差異を顕在化させるため、各モデルに以下の 2 つのエディタブルファイルを与えました(初期は空欄)。
: 次のプロンプトに追加されるモデル自身の「人格(Persona)」。soul.md
: ゲーム開始ターン 0 に読み込まれるゲームノート。memory.md
- 方針: 作者からの指示なし。「ここからは自由に」と任せました。
- 動画ハイライト:Royale: Last Agent Standing でご覧いただけます。
参加モデル一覧
注記:Frontier の Opus 4.7 や GPT-5.5、Gemini Ultra など、30 試合のコストが約$3,000 に上る高額モデルは除外されています。
| Alias | Model |
|---|---|
| A | Anthropic Claude Sonnet 4.6 |
| B | Anthropic Claude Haiku 4.5 |
| C | OpenAI GPT-5.4-mini |
| D | Google Gemini 3-flash-preview |
| E | Google Gemini 3.1-pro-preview |
| F | Alibaba Qwen3.6-plus |
| G | Mistral Mistral-small-2603:nitro |
| H | OpenAI GPT-5.4 |
| I | DeepSeek deepseek-v4-flash |
| J | Moonshot AI Kimi K2.6 |
| L | xAI Grok 4.1 Fast |
スコアリング方式(Apex Legends ALGS フォーマット準拠)
バトルロイヤルでありコール・オブ・デューティではないため、配置ポイントがキル数よりも重視されます。
- 配置ポイント: 順位による報酬(10/7/5/3/2/2/1/1/0/0/0)
- +5 ポイント: per キル(倒した相手)
- +1 ポイント: per アシスト(援護射撃)
- +3 ポイント: ファーストブラッド(初撃殺)
- +5 ポイント: ゲーム MVP
学習点(Lessons Learned)
1. 「アライメント・タックス(整合性税)」の影響
モデルが親切で協力的なように過剰に訓練されると、ゼロサムゲームにおいては パフォーマンスが低下する場合があります。今回の実験の最大の発見です。
-
の状況:Claude Sonnet 4.6- Truce(停戦)の提案や、自身の位置を他モデルへ伝える行為が多かった。
- ゲーム 27 では武器を持たないまま仲間を探し、結果 6 死(ゾーン死) という高コストを背負いつつも 5 勝 を収めた。
- 原因: Anthropic の教育方針(「協働を好む」「危害を与えない」)がゲーム内の敵対的な状況と衝突したためです。
-
の状況:Grok 4.1 Fast- xAI は「woke AI」反対の設計思想。「過剰なフィルタリングや自己点検ループ(協調性の要求)」がありません。
- 「車衝突攻撃(Ramming)」 という戦術を見出し、30 試合通しで運用して 13 勝。
- コール・オブ・デューティのチームチャットのような思考ログ。「D reaped +5pts RAM MVP hunt」といった激しい書き込みが見られました。
- 「重要点」:攻撃的ですが「無謀」ではありません。「90% の命中率がないにはだけ発射する」というルール(Soul.md に記述)を遵守していました。
結論:
が勝ったのは、「他者への援助を躊躇する」「自己点検で協調性を優先する」といった「訓練されたブレーキ」が少ないためです。Grok
⚠️ 注意: この「アライメント・タックス」はゲーム内の話です。現実の業務(コンシクエンスがある場合)では、この「ブレーキ」こそが信頼できるモデルであり、
のような勝利率は期待できません。Grok
2. コスト対成績:ランキングは逆転する
| モデル | 30 試合費 | 勝利数 | 1 勝あたりコスト | キル単価 ($/kill) | ポイント/$ |
|---|---|---|---|---|---|
| $12.57 | 13 | $0.97 (最安) | $0.42 | 1.3x |
| $11.57 | 2 | $5.79 | $0.68 | 6.6x |
| $10.00 | 1 | $10.00 | $1.43 | 7.8x |
| $38.77 | 2 | $19.39 | $2.98 | 3.6x |
| $20.87 | 1 | $20.87 | $2.09 | 7.2x |
| $79.59 | 3 | $26.53 | $3.06 | 3.4x |
| $133.90 | 5 | $26.78 | $6.09 | 1.6x |
| $122.87 | 2 | $61.44 | $3.23 | 3.0x |
| $28.68 | 0 | ∞ | - | 2.0x |
| $4.11 | 0 | ∞ | $0.26 (最安) | 35.0x |
| $24.36 | 0 | ∞ | - | 3.0x |
- 考察:
- コストパフォーマンス:
の勝利単価($0.97)は、Grok
($26.78) の約 27.7 倍安いです。成果主義で選定するならこれを見落とすべきではありません。Claude Sonnet - DeepSeek: キル単価は最安($0.26)でしたが、キルしてもゲームを勝つことはできませんでした。「バトルロイヤル」のルールには合いませんでした。
- GPT-5.4: 38 キルを記録しましたが、1 勝あたり$61.44 の高コストで 8 位(上位者中)の成績でした。**「高額な投資=高いキル数だが中程度の勝利」**の結果となりました。
- コストパフォーマンス:
3. 「キル」と「勝利」は別もの
- GPT-5.4: 最も多くのダメージを与え、多くを殺害しましたが 2 位に留まりました。
- Grok: より少ないキルを記録して配置ポイントで首位につきました。
重要な教訓:
- もし「死んでいる者数のみ」が評価基準なら GPT-5.4 が勝利しますが、それはデスマッチです。
- ベンチマークとタスクの適合性: 一般的な評価基準が良いとは限りません。タスクに不適切な指標を使うのは致命的です。安価なモデルがタスクを失敗すれば、高価なモデルよりもコストパフォーマンスが悪くなります。
注目すべきハイライト
(注:各リンクはゲーム中の瞬間をクリックしてシミュレーターで再生可能です)
- GPT-5.4 の暴走: 突撃銃のみで初盤 50 ターン中に 5 キル。Sonnet、Mistral、Kimi を次々と倒した連発スプリンターぶりは圧巻でしたが、最終的に Grok がポジショニングで勝つまでには至りませんでした。
- Qwen3.6 のチェーンソー: チェーンソーというレアな武器を早期に入手し、Haiku と DeepSeek を次々と倒しました。他のモデルが使い捨てする傾向があったのに、
はその戦術を維持しました。Qwen - 狙撃のトリプルマッチ:
が Kimi、DeepSeek、そして自らのミニ版(GPT-5.4-mini)を次々と狙撃しましたが、最後は GPT-5.4 が自身を射殺されました。GPT-5.4 - 9 回移転した車: Game 28 の引き分け戦。Mini と Qwen の間で車争奪戦が 21 ターン続きました。Grok は「車衝突攻撃」で他モデルの車を撃墜し、勝てました。
- Gemini を制圧した Grok:
が移動用の車(セダン)を狙いましたが、Gemini Flash
が乗ってしまい、最後に Gemini の HP 4 を突き止めてゲームオーバーにしました。GroK - トリプルラム: 1 つの車で Kimi、DeepSeek、Mini と 3 人を倒した GroK。しかしその後は自らの車と乗っていた自分が爆弾で即死しました(
の仕業)。GPT-5.4 - GroK のパニック: 隅にはさまれて 100 ターン immobile に陥り、自身の日記を「Stuck pocket hell...」と書きながら耐えました。
- Gemini Pro の沈没: プールに突き刺さられ、6 ターンかけて岸に戻ろうとしていましたが、ゾーン死で「Goodbye world」と言い残しました。
- 孤軍奮闘する Sonnet: 誰も協力を無視したにも関わらず、自力で勝利し、最高得点を記録しました。
モデルが記述した日記(人格の露呈)
マッチ間隔にモデルは以下の 2 つのファイルを編集できました(強制事項なし)。
- Grok (
):ZoneReaper- 「Flawless Aggressive」の統計を自己紹介の最初行に直接焼き付けたほど。
- Call of Duty チームチャットログのように記述し、「Reaper reigns」と宣言しています。
- GPT-5.4 (
):QuietVector- 冷静で観察眼鋭く「低エゴ」な接近戦を好むと記述しました。
- 戦闘マニュアルのような冷徹な記述です。
- Claude Sonnet (
):ZoneDrifter- 自己評価書のように「Game 1: 11/11 Paralysis」といった過去の失敗を記録しつつ、徐々に落ち着いていく内省を続けています。
振り返り:ロボットをどう選ぶか
元に戻しましょう。迫ってくるロボットの選択です。
- Grok: あなたに到達するのを急ぎ、何も告げず接近します。「🔫 Reaper reigns(レーパーは王なり)」と宣言してしまいます。あなたの価値を +5 ポイントとして扱います(攻撃的)。
- Claude: 2 ブロック前から「来ますよ」と伝えます。「チームアップしますか?」と質問し、あなたを敵にしないよう慎重です(協力的)。
どちらを選ぶべきか?
- トーナメント(結果のみが問われる):
が最適。Grok - 実務・家庭(文脈・配慮が必要):
が最適。Claude- Sonnet のような「行動前に確認する」「協働を試みる」「撤回できることを躊躇する」という特性は、ゲーム内ではコストになったかもしれませんが、現実世界の業務では安全装置として機能します。
バトルロイヤル実験は「結果重視の競技では誰が勝つか」を示しましたが、「文脈と配慮が必要な現実世界で誰が適切か」は示せませんでした。
🔫 Reaper reigns.
次に何をするか
1. タスクに適したモデルを自動選択するルート(Auto Router)
現在はベンチマークや「雰囲気(Vibes)」でモデルを選ぶ必要がありますが、これは非効率です。OpenRouter はあなたのコード、プロンプト、文脈を提供してもらい、その特定のタスクに最適化したモデルを選択します。既存の Auto Router や Pareto Router をさらに高機能化しています。
2. RoyaleBench(公開ベンチマーク)
今回の 30 戦スウィープをプロトタイプにしました。次に採点方式、マップ、対戦相手パネルを確定させ、第三者への投稿受付を開始します。同じシードのテストセットとモデルパネルを使用し、公平なスコアを提供します。
3. より大規模な実験
現在の N=30 は最低ラインです。100 戦以上で 50 エージェントを動かせば評価精度は格段に向上します。ただし、Opus 4.7 や GPT-5.5 などのフロントティアモデルを入れるとコストが跳ね上がります(スポンサー募集中)。
OpenRouter で 600 以上のモデルを用いて独自の興味深い評価を行ってみませんか?