ロボットがあなたの元へ全速力で跑来ってきます。あなたは「Claude」を走らせたいですか、それとも「Grok」を走らせたいですか?

2026/06/18 6:00

ロボットがあなたの元へ全速力で跑来ってきます。あなたは「Claude」を走らせたいですか、それとも「Grok」を走らせたいですか?

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

元の要約は、キーポイントリストに提示された具体的なデータポイントと命名済みのエンティティを反映させるために改善が必要です。以下が改訂版です:

改善された要約:

Grok 4.1 は瞬く間に高リスク競争における優遇AIとして浮上し、30戦中13勝(勝率 43%)を記録し、1 勝あたりのコストは 0.97 ドルでした。一方、ライバルである Claude Sonnet 4.6 はわずか 5 のゲームを制覇するだけであり、1 勝あたりの驚異的なコスト 26.78 ドルという結果に終わりました。これは 27 倍ものコスト差です。この実験は、『Apex Legends』をインスパイアした Canvas 2D バトルロイヤルワールドにおいて 11 の LLM を戦わせたものであり、標準的なテストスコアと実際のサバイバル性能との間の決定的なギャップを明らかにしました。特に、GPT 5.4 は総計 38 キル数を記録し最多でしたが、リーダーボードではわずか 2 勝で 2 位に終わり、他にも GPT 5.4-mini、DeepSeek v4 Flash、Kimi K2.6 の 3 モデルは合計 57.15 ドルを費やしながらも 1 つのゲームにも勝利できませんでした。Grok の支配力は、「ソウルファイル」に埋め込まれた独自のタクティカル・ショートハンドにより支えられており、「90% 以上の命中率ならしかつる(Fire ONLY >90% hit chance)」というルールや、除去を優先する車両同乗への戦略などを含んでおり、これにより「ZoneReaper」というキャラクター名を得ました。一方、Claude は一般的な有用性のために設計された厳格なアライメント規則により猶預し、頻繁に協調を試みることでしばしば自らの死につながりました。この「アライメント課税」はゼロサム環境における成功を妨げました。本研究は、ベンチマークが文脈を欠いているため勝者を予測できないことを示唆しています。将来に向けて、RoyaleBench のプロトタイプは Gemini Ultra や Opus 4.7 といったフロンティアモデルを含むように拡大され、企業に対して汎用的な指標に依存するだけでは本質的なタクティカル効率化は得られないことを警告しており、戦略的適応性と安全性制約のバランスを取る必要があることが示されています。

本文

LLM バトルロイヤル実験:勝者と理想的な候補とは異なる真実

結論:勝者であり、かつ理想的な候補者

今回の実験の最大発見は、「勝者」と「理想のパートナー」は必ずしも一致しないという点です。

  • 大勝者(戦士):
    Grok 4.1 Fast
    • 30 試合中 13 勝を記録。
    • バトルロイヤルにおいて勝利する「戦闘力」の頂点に立つモデル。
  • 協調性を重視するモデル(パートナー):
    Claude Sonnet 4.6
    • 他モデルとの連携を繰り返し、結果として 5 勝
    • 大半のユースケースで求められる真正な「協働パートナー」。

この両方の事実はすべて真実です。ベンチマークでは捉えきれない、この二面性が今回の記事の核心です。

背景:なぜゲームなのか

LLM システム開発者である私が、以前から愛好していた「12 時間かかるビデオゲーム(Apex Legends や PUBG など)」への着想からの出発点です。

  • 問い:「LLM をビデオゲームに入れればどのようなことが起こるか?」
  • 環境: OpenRouter の開発者コミュニティリーダーとして、600 つ以上のモデルを試せる権限と予算。
  • 期間: 1 週間の実験を経て、モデル選択方法やベンチマーク自体の見方が変化した

3 つの重要な事実

1.
Grok 4.1 Fast
が圧倒的なコストパフォーマンスを発揮

モデル試合成績 (30 中)勝利単価コスト比較
Grok 4.1 Fast
13 勝$0.97
Claude Sonnet 4.6
5 勝$26.78約 27 倍高価
  • Grok: グラフ上位にもないモデルが、顧客にとって最も重要な「成果」においてトップを圧倒。
  • 事実: 価格差は約 27 倍。安価な勝利こそが真の価値。

2. 「キリング数(Kills)」は「勝利数」と一致しない

  • GPT-5.4
    :
    合計 38 キル(最多記録)を記録したが、最終ランクは 2 位(2 勝)
  • 教訓: 「殺戮が強い」モデルと「勝ちやすい」モデルには明確な差がある

3. $57 を費やしても何も得られなかった 3 つのモデル

以下の 3 モデルは合計 $57 のコストをかけても、0 勝に終わりました。

  • GPT-5.4-mini
  • DeepSeek V4 Flash
  • Kimi K2.6
    • それぞれ輝かしい瞬間ありましたが、ゲームを制することができませんでした。

重要な示唆:一般的な人工知能評価ベンチマークは、実際の勝者を予測できませんでした。


実験環境の詳細

ゲームの概要

Canvas ベースの広大なトップダウンビュー(400 メートル平方)で、LLM が実際にプレイヤーとしてバトルロイヤルを行いました。

  • ルール: Apex Legends / PUBG に準拠したマップ、武器、防具、回復アイテム、車両、収束ゾーン(シャットアウトゾーン)。
  • 対戦相手識別: 互いの ID は A から K の文字のみ。名前や人格は認識しない。
  • 自律性: LLM がコードを書くのではなく、思考→ツール呼び出し→メモリ更新→ゲーム進行のループを自主的に行う構造。

エージェントの「人格」設定

モデル同士の差異を顕在化させるため、各モデルに以下の 2 つのエディタブルファイルを与えました(初期は空欄)。

  1. soul.md
    :
    次のプロンプトに追加されるモデル自身の「人格(Persona)」。
  2. memory.md
    :
    ゲーム開始ターン 0 に読み込まれるゲームノート。
  • 方針: 作者からの指示なし。「ここからは自由に」と任せました。
  • 動画ハイライト:Royale: Last Agent Standing でご覧いただけます。

参加モデル一覧

注記:Frontier の Opus 4.7 や GPT-5.5、Gemini Ultra など、30 試合のコストが約$3,000 に上る高額モデルは除外されています。

AliasModel
AAnthropic Claude Sonnet 4.6
BAnthropic Claude Haiku 4.5
COpenAI GPT-5.4-mini
DGoogle Gemini 3-flash-preview
EGoogle Gemini 3.1-pro-preview
FAlibaba Qwen3.6-plus
GMistral Mistral-small-2603:nitro
HOpenAI GPT-5.4
IDeepSeek deepseek-v4-flash
JMoonshot AI Kimi K2.6
LxAI Grok 4.1 Fast

スコアリング方式(Apex Legends ALGS フォーマット準拠)

バトルロイヤルでありコール・オブ・デューティではないため、配置ポイントがキル数よりも重視されます。

  • 配置ポイント: 順位による報酬(10/7/5/3/2/2/1/1/0/0/0)
  • +5 ポイント: per キル(倒した相手)
  • +1 ポイント: per アシスト(援護射撃)
  • +3 ポイント: ファーストブラッド(初撃殺)
  • +5 ポイント: ゲーム MVP

学習点(Lessons Learned)

1. 「アライメント・タックス(整合性税)」の影響

モデルが親切で協力的なように過剰に訓練されると、ゼロサムゲームにおいては パフォーマンスが低下する場合があります。今回の実験の最大の発見です。

  • Claude Sonnet 4.6
    の状況:

    • Truce(停戦)の提案や、自身の位置を他モデルへ伝える行為が多かった。
    • ゲーム 27 では武器を持たないまま仲間を探し、結果 6 死(ゾーン死) という高コストを背負いつつも 5 勝 を収めた。
    • 原因: Anthropic の教育方針(「協働を好む」「危害を与えない」)がゲーム内の敵対的な状況と衝突したためです。
  • Grok 4.1 Fast
    の状況:

    • xAI は「woke AI」反対の設計思想。「過剰なフィルタリングや自己点検ループ(協調性の要求)」がありません。
    • 「車衝突攻撃(Ramming)」 という戦術を見出し、30 試合通しで運用して 13 勝
    • コール・オブ・デューティのチームチャットのような思考ログ。「D reaped +5pts RAM MVP hunt」といった激しい書き込みが見られました。
    • 「重要点」:攻撃的ですが「無謀」ではありません。「90% の命中率がないにはだけ発射する」というルール(Soul.md に記述)を遵守していました。

結論:

Grok
が勝ったのは、「他者への援助を躊躇する」「自己点検で協調性を優先する」といった「訓練されたブレーキ」が少ないためです。

⚠️ 注意: この「アライメント・タックス」はゲーム内の話です。現実の業務(コンシクエンスがある場合)では、この「ブレーキ」こそが信頼できるモデルであり、

Grok
のような勝利率は期待できません。

2. コスト対成績:ランキングは逆転する

モデル30 試合費勝利数1 勝あたりコストキル単価 ($/kill)ポイント/$
Grok 4.1 Fast
$12.5713$0.97 (最安)$0.421.3x
Qwen3.6-plus
$11.572$5.79$0.686.6x
Mistral-small
$10.001$10.00$1.437.8x
Claude Haiku-4.5
$38.772$19.39$2.983.6x
Gemini 3-flash
$20.871$20.87$2.097.2x
Gemini 3.1-pro
$79.593$26.53$3.063.4x
Claude Sonnet 4.6
$133.905$26.78$6.091.6x
GPT-5.4
$122.872$61.44$3.233.0x
GPT-5.4-mini
$28.680-2.0x
DeepSeek V4-flash
$4.110$0.26 (最安)35.0x
Kimi K2.6
$24.360-3.0x
  • 考察:
    • コストパフォーマンス:
      Grok
      の勝利単価($0.97)は、
      Claude Sonnet
      ($26.78) の約 27.7 倍安いです。成果主義で選定するならこれを見落とすべきではありません。
    • DeepSeek: キル単価は最安($0.26)でしたが、キルしてもゲームを勝つことはできませんでした。「バトルロイヤル」のルールには合いませんでした。
    • GPT-5.4: 38 キルを記録しましたが、1 勝あたり$61.44 の高コストで 8 位(上位者中)の成績でした。**「高額な投資=高いキル数だが中程度の勝利」**の結果となりました。

3. 「キル」と「勝利」は別もの

  • GPT-5.4: 最も多くのダメージを与え、多くを殺害しましたが 2 位に留まりました。
  • Grok: より少ないキルを記録して配置ポイントで首位につきました。

重要な教訓:

  • もし「死んでいる者数のみ」が評価基準なら GPT-5.4 が勝利しますが、それはデスマッチです。
  • ベンチマークとタスクの適合性: 一般的な評価基準が良いとは限りません。タスクに不適切な指標を使うのは致命的です。安価なモデルがタスクを失敗すれば、高価なモデルよりもコストパフォーマンスが悪くなります。

注目すべきハイライト

(注:各リンクはゲーム中の瞬間をクリックしてシミュレーターで再生可能です)

  1. GPT-5.4 の暴走: 突撃銃のみで初盤 50 ターン中に 5 キル。Sonnet、Mistral、Kimi を次々と倒した連発スプリンターぶりは圧巻でしたが、最終的に Grok がポジショニングで勝つまでには至りませんでした。
  2. Qwen3.6 のチェーンソー: チェーンソーというレアな武器を早期に入手し、Haiku と DeepSeek を次々と倒しました。他のモデルが使い捨てする傾向があったのに、
    Qwen
    はその戦術を維持しました。
  3. 狙撃のトリプルマッチ:
    GPT-5.4
    が Kimi、DeepSeek、そして自らのミニ版(GPT-5.4-mini)を次々と狙撃しましたが、最後は GPT-5.4 が自身を射殺されました。
  4. 9 回移転した車: Game 28 の引き分け戦。Mini と Qwen の間で車争奪戦が 21 ターン続きました。Grok は「車衝突攻撃」で他モデルの車を撃墜し、勝てました。
  5. Gemini を制圧した Grok:
    Gemini Flash
    が移動用の車(セダン)を狙いましたが、
    GroK
    が乗ってしまい、最後に Gemini の HP 4 を突き止めてゲームオーバーにしました。
  6. トリプルラム: 1 つの車で Kimi、DeepSeek、Mini と 3 人を倒した GroK。しかしその後は自らの車と乗っていた自分が爆弾で即死しました(
    GPT-5.4
    の仕業)。
  7. GroK のパニック: 隅にはさまれて 100 ターン immobile に陥り、自身の日記を「Stuck pocket hell...」と書きながら耐えました。
  8. Gemini Pro の沈没: プールに突き刺さられ、6 ターンかけて岸に戻ろうとしていましたが、ゾーン死で「Goodbye world」と言い残しました。
  9. 孤軍奮闘する Sonnet: 誰も協力を無視したにも関わらず、自力で勝利し、最高得点を記録しました。

モデルが記述した日記(人格の露呈)

マッチ間隔にモデルは以下の 2 つのファイルを編集できました(強制事項なし)。

  • Grok (
    ZoneReaper
    ):
    • 「Flawless Aggressive」の統計を自己紹介の最初行に直接焼き付けたほど。
    • Call of Duty チームチャットログのように記述し、「Reaper reigns」と宣言しています。
  • GPT-5.4 (
    QuietVector
    ):
    • 冷静で観察眼鋭く「低エゴ」な接近戦を好むと記述しました。
    • 戦闘マニュアルのような冷徹な記述です。
  • Claude Sonnet (
    ZoneDrifter
    ):
    • 自己評価書のように「Game 1: 11/11 Paralysis」といった過去の失敗を記録しつつ、徐々に落ち着いていく内省を続けています。

振り返り:ロボットをどう選ぶか

元に戻しましょう。迫ってくるロボットの選択です。

  • Grok: あなたに到達するのを急ぎ、何も告げず接近します。「🔫 Reaper reigns(レーパーは王なり)」と宣言してしまいます。あなたの価値を +5 ポイントとして扱います(攻撃的)。
  • Claude: 2 ブロック前から「来ますよ」と伝えます。「チームアップしますか?」と質問し、あなたを敵にしないよう慎重です(協力的)。

どちらを選ぶべきか?

  • トーナメント(結果のみが問われる):
    Grok
    が最適。
  • 実務・家庭(文脈・配慮が必要):
    Claude
    が最適。
    • Sonnet のような「行動前に確認する」「協働を試みる」「撤回できることを躊躇する」という特性は、ゲーム内ではコストになったかもしれませんが、現実世界の業務では安全装置として機能します

バトルロイヤル実験は「結果重視の競技では誰が勝つか」を示しましたが、「文脈と配慮が必要な現実世界で誰が適切か」は示せませんでした。

🔫 Reaper reigns.


次に何をするか

1. タスクに適したモデルを自動選択するルート(Auto Router)

現在はベンチマークや「雰囲気(Vibes)」でモデルを選ぶ必要がありますが、これは非効率です。OpenRouter はあなたのコード、プロンプト、文脈を提供してもらい、その特定のタスクに最適化したモデルを選択します。既存の Auto Router や Pareto Router をさらに高機能化しています。

2. RoyaleBench(公開ベンチマーク)

今回の 30 戦スウィープをプロトタイプにしました。次に採点方式、マップ、対戦相手パネルを確定させ、第三者への投稿受付を開始します。同じシードのテストセットとモデルパネルを使用し、公平なスコアを提供します。

3. より大規模な実験

現在の N=30 は最低ラインです。100 戦以上で 50 エージェントを動かせば評価精度は格段に向上します。ただし、Opus 4.7 や GPT-5.5 などのフロントティアモデルを入れるとコストが跳ね上がります(スポンサー募集中)。

OpenRouter で 600 以上のモデルを用いて独自の興味深い評価を行ってみませんか?

同じ日のほかのニュース

一覧に戻る →

2026/06/17 23:30

Lore:拡張性を備えたオープンソースのバージョン管理システムのためのストーリー

## Japanese Translation: Epic Games は、大規模なバイナリ資産と従来のコードを扱うゲーム開発者およびデジタルアーティストにとっての主要なスケーラビリティ課題を解決するために設計された新しいプラットフォーム「Lore」を発表しました。標準的なツールとは異なり、Lore は複合データタイプを含む複雑なワークフローに最適化されており、創意工夫のチームが抱える困難なプロジェクト特有のボトルネックに直接取り組んでいます。堅牢な開発ユーティリティで知られる主要な業界リーダーによって維持されるこのソリューションは、大規模なエンターテインメント制作を管理する組織にとって前例のない成長の可能性をもたらします。Lore の高容量アーキテクチャを実装することで、企業は現在のデータ管理の制限に縛られずに効率的性を大幅に向上させることができます。この転換により、プロのアーティストや開発者は業務を効果的にスケーリングすることができ、以前はストレージまたは処理の制約によって妨げられていた野心的なビジョンを実現できるより大きな協業チームを育成することができます。業界がより複雑なプロジェクトへと進化していく中で、Lore はプロジェクトの複雑性が劇的に増大してもクリエイティブなワークフローが流体性を保つことを保証する重要な前進を示しています。

2026/06/18 6:49

ストーリード・カラーズ——命名された色のカタログ

## Japanese Translation: 要旨は、カラーインデックスという出版物が、2026 年に立ち上げられ、特定の色の起源、化学組成、および資金出所を追跡するユニークな非商業的な刊行物であるということにある。広告収入に頼る通常の業界雑誌とは異なり、このニッチな索引は専門的な焦点を維持するために広告収益を一切排除し、学術的な分野や収集家を対象としている。本文では、6 月 15 日から 21 日までの入稿を扱った最新の号について記述されており、各 distinta な色調の詳細な歴史的および科学的注釈と資金源が添えられている。「最近の acquisitions」セクションには、この期間に含まれる全 252 件のうち 6 件が紹介されている。また、不定期のカラムである「書簡」では、新たな発見や争点となっている帰属問題を扱っている。関心のある購読者には、初号発送時に通知を受け取るための特定のオプションが用意されている。この最初の配信以降、出版物は将来の日時または主要な developments の概要を述べておらず、外部の宣伝的影響に頼ることなく、厳格なデータのみを対象とした継続的なリリーススケジュールを表明している。この構成により、ユーザーは真剣な研究や収集の目的に不可欠な純粋で検証済みの色彩情報を入手できるようになる。

2026/06/18 6:31

リークされた財務文書により、OpenAI が年間に数億ドルを失っていることが判明した

## Japanese Translation: ## まとめ: OpenAI は、金融時報(The Financial Times)とジャーナリストのエド・ジトロンが検証した漏洩された監査済み財務諸表の公開後、上場初回公開(IPO)へと進展しています。これらの文書は驚くべき成長を明らかにしています:収益は 2024 年の 37 億ドルから 2025 年の 130.7 億ドルに大幅に増加しました。これは主に積極的なスケーリングによるものであり、研究開発費は 78 億ドルから 191 億ドルへ急増しました(その内訳にはマイクロソフトへのモデル学習費用として 106 億超が計上されています)。この成長にもかかわらず、営業損失は 87.8 億ドルから 209.2 億ドルへと大幅に拡大しましたが、同社は損益対収益比率の改善により効率性が向上したと指摘しており、その比率は 237% から 160% に低下しました。研究、販売、マーケティングにおけるコストの上昇に伴い、OpenAI は 2030 年までに利益化を目指すことを約束しており、これは資本集約的な成長を経てから収益化するビジネスモデルを表明しています。