
2025/12/16 21:48
**Gemini 3 Pro と Gemini 2.5 Pro – ポケットモンスター クリスタル版** | 項目 | Gemini 3 Pro | Gemini 2.5 Pro | |------|--------------|----------------| | **モデル名** | 3 Pro | 2.5 Pro | | **発売年** | 2024 年 | 2023 年 | | **対象プラットフォーム** | ポケットモンスター クリスタル(メインシリーズ) | ポケットモンスター クリスタル(メインシリーズ) | | **主な売り文句** | クリスタル専用の技と機能を完全サポート。全コア能力が含まれる。 | コアゲームプレイに重点を置き、やや小規模な技セット。 | ### 主な違い - **技セットの網羅性** - *3 Pro*: ポケットモンスター クリスタルで登場するすべての技(レアイベント技も含む)をサポート。 - *2.5 Pro*: 標準的な技は大部分をカバーするが、ニッチやイベント限定の数種類は除外。 - **パフォーマンスと安定性** - *3 Pro*: 新しいハードウェア向けに最適化されており、最新コンソールでスムーズに動作。 - *2.5 Pro*: 軽量設計のため古いシステムとの互換性が高い。ただし、高性能機器では遅延が発生する可能性あり。 - **価格設定** - *3 Pro*: 包括的なカバレッジによりプレミアム価格。 - *2.5 Pro*: 手頃な価格で、カジュアルプレイヤー向き。 ### 推奨 - **Gemini 3 Pro を選ぶ** 完全かつクリスタル互換の体験を求め、追加料金を払う用意がある場合。 - **Gemini 2.5 Pro を選ぶ** 予算に制約がある、または古いハードウェアでプレイし、パフォーマンスを重視する場合。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Gemini 3 Proは、ヘッドツーヘッドのポケットモンスター・クリスタル実行でGemini 2.5 Proを上回り、敗北なしにジョウト王座を獲得した。一方、2.5 Proはオリビン灯台で停止し、第4バッジのみを取得した。両モデルは同じGemini Plays Pokémonハーネス内で実行され、(メンタルマップ、ノートパッド、マップマーカー、コード実行、カスタムエージェント/ツール)という同一ツールセットと、観測に基づく科学的推論を要求するプロンプトを使用した。ハーネスは「トレーニングウィール」を強制し、ターンごとの方向入力/アクション入力を分離し、確認付きの混合カーソル移動を禁止して誤操作やニックネームエラーを防いだ。
Gemini 3 Proは初期段階で約半分のターン数と約60%少ないトークンでマイルストーンに到達したが、最初の余計なダウンタイム(≈250%)により一時的な遅延が発生し、Whitney’s Gymで2.5 Proを追い抜くまで待った。オリビン灯台では約11,000ターン早くタワーに到達し、ピットエントリパズルを解決した。一方、2.5 Proはピットを見落とし、フロア間でループし、Fog Badge取得まで16,403ターンを要した。Goldenrod Undergroundのスイッチパズルでは順序重要性とNPCの重要度を誤判定して苦戦したが、ヒント後数時間以内に解決し、構造化された推論への投資意欲はあるものの、検証されていない仮定に弱いことを示した。
Gemini 3 Proの強みには、正確な空間認識とマップ分割、ナビゲーションでのMap Markersの効果的使用、自動押下ループホール経由のマルチタスク化、HPバー読取や解決済みパズルの認識による優れた視覚機能、およびツール呼び出しの信頼性向上が含まれる。観測された弱点は、検証されていない仮定により時間を浪費すること、並列目標追求の制限、パラメータエラーによる脆弱なツール呼び出し、および複雑戦略での実行ミスが時折発生したことである。
Redとの最終バトルでは、Gemini 3 Proは約7時間のリアルタイムで「Operation Zombie Phoenix」マルチステージ戦略を実行し、ターン24,178で勝利し1.88億トークンを消費した。2.5 Proは遥かに遅れた。推定では、2.5 ProがGemini 3 ProのRed勝利に匹敵するには約157,000ターンと15億以上のトークン(≈69日連続稼働)が必要である一方、Gemini 3 Proは17日で達成した。
今後の作業としては、RAM抽出を削減するビジョンフォーカスハーネス、ターン間にリセットされない思考(Continuous Thinking)の導入、更なる難易度の高いROMハック(例:Crystal Clear)や後期ポケットモンスター世代でのテスト、および非ポケモンインタラクティブ世界への拡張が挙げられる。本研究はARISE Foundationの下で実施され、先進的な言語モデルが少ないリソースで複雑なリアルタイム計画をゲーム内で遂行できることを示し、ゲーミング・シミュレーション訓練およびその他のインタラクティブAIシステムへの広範な応用可能性を暗示している。
本文
数週間前、Gemini 3 Pro Preview の初印象を Gemini Plays Pokémon ハーネス内でまとめました。翌日にはライブ配信でヘッド‑トゥ‑ヘッドレースを開始しました:Gemini 3 Pro vs Gemini 2.5 Pro、両方とも同じセットアップでポケモンクリスタルをプレイ。
二週間後――
- Gemini 3 Pro は一度も敗北せずにジョウトチャンピオンに。
- Gemini 2.5 Pro は第4バッジへ進むものの、オリビン灯台で多くの時間をループし、ついに脱出。
紙上では公平な戦いでしたが、実際には Gemini 3 Pro がまるで別種のエージェントのように振舞いました。
セットアップ:同じハーネス・同じルール
両モデルは 同一の Gemini Plays Pokémon ハーネス 上で動作しました。
特殊扱いも、ひとつのモデルだけに隠れたヘルパーもありませんでした。
ハーネスが公開するツールは、内部で実行される任意の LLM が選択して使用できるものです:
| ツール | 機能 |
|---|---|
| Mental Map | エージェントが探索した場所を自動追跡し、新しいタイルが表示されたら雲雨を埋めます。RAM からマップレイアウトを直接読むわけではなく、画面上で実際に見えるタイルの更新のみです。 |
| Notepad | 目的・将来計画・パズル進行状況(仮説・失敗・成功)をメモするためのスクラッチパッド。 |
| Map Markers | NPC や建物入り口などのポイントオブインタレストに対して永続的マーカーを設置。 |
| Code Execution | パスファインディング手順などのワンショットコードを実行。 |
| Custom Agents | 戦闘戦略家など、文脈から他の事柄を遮断した状態で戦闘を考える再利用可能ヘルパー。 |
| Custom Tools | パスファインダーのように計画内から呼び出せる再利用コード片。 |
重要:
このハーネス用システムプロンプトは「ポケモンをプレイする」だけではありません。モデルに科学者として振舞うよう指示し、仮説を立て、検証ツールを構築し結果を確認させます。特に内部訓練データ(幻覚や別バージョンのゲームへの参照)に頼らず、観察した事実に知識を基づけるよう命じています。このプロセスが探索の一部です。
目標は探索でありスピードランではないため、価値関数も変わります。速度優先だけではなく、例えば「スタートラル / スUICUNE を失う」か「ゲームを X 時間以内にクリアする」のどちらが望ましいか尋ねられると、後者を選ぶケースが多く、人間的感情を帯びたプレイヤーのように振舞います。
ハーネスには複数回の完全実行で Pokémon Blue と Yellow Legacy ROM ハックを走らせる際に発生したソフトロックを防ぐ トレーニングホイール が備わっています。
一例として Claude Plays Pokémon からインスパイアされたものは、方向キーとアクションボタンを同じターンで混在させないようにします。ビルの PC からポケモンを引き出す場合、カーソルを「Withdraw」に移動するのが1ターン目、A を押すのが次のターンになるように強制し、誤ってリリースしたりニックネームを書き換えたりしないようにします。
Gemini 2.5 Pro では「GEMINI」と入力するときにエージェント自身を自信持って「G」と呼ぶのを確認するだけで済みました。これでも、ニックネーミング時に間違った文字を頻繁に入力します。
Gemini 3 Pro は トレーニングホイール をほとんど必要としませんでした。レース中に制限に不満を漏らし、特にマルチタスクで回避策を見つける場面が多くありました。
初期ゲーム:同じ進行、効率は大きく異なる
配信だけ見ると両走行は似たような早期ゲームを過ごしていました。バッジ数もほぼ同じで、同時期に同じ町にいることが多かったです。
しかし裏側では全く別物でした:
| メトリック | Gemini 3 Pro | Gemini 2.5 Pro |
|---|---|---|
| マイルストーン到達までのターン数 | 約半分 | – |
| トークン消費量 | 約60 %削減 | – |
ハーネスは総セッション時間も追跡しますが、Gemini 3 Pro は頻繁にオーバーロードし、長いダウンタイムを発生させます。 2.5 Pro はそのようなダウンタイムがほとんどありませんでした。 原始的な応答速度や思考時間は比較を混乱させるため、ターン数とトークンに焦点を当てました。
結果:
ダウンタイム(約250 %増)が一時的に Gemini 3 Pro を遅らせました。転換点は 2.5 Pro がジムリーダー ウィートニー に到達したときでした。
ウィートニー、グラインド、そして 3 Pro のチャンス
ウィートニーのミルタンは人間プレイヤーにとって有名な相手です。2.5 Pro が敗北するのは驚くべきことではありませんでした。続くグラインディングは実際に二日以上にわたりました。レース観点から見ると、これは Gemini 3 Pro に必要な隙間を作り出しました——2.5 Pro がウィートニーに敗れず、10 時間以上の API ダウンタイムが重なっていたにもかかわらず、3 Pro は徐々にリードを取り戻し、2.5 Pro はトレーニングプランでつまずいていました。
その小さな差はオリビン灯台で大きな溝へと変わりました。
オリビン灯台:レースが本当に分かれた場所
Gemini 3 Pro はオリビン灯台に 11,000 ターンも早く到達しました。これは大差です。しかしより興味深いのは、各モデルがタワーに入った瞬間に何が起こったかです。
灯台のパズルは見た目以上に単純です。上層へ進むためには 4 階で穴を落ちる必要があります。この落下で低いレベルに戻り、屋根への新しい階段が露出します。
| 行動 | Gemini 3 Pro | Gemini 2.5 Pro |
|---|---|---|
| 初期反応 | 穴を罠として慎重に扱い、歩くのを拒否。 | 穴を全く見ていない。 |
| 探索戦略 | 従来のルートを探しながらフロア間を移動。合理的な選択肢が尽きるまで踏み込まず。 | 悪い仮定、ツール誤用、探索不足で最初二階に循環。 |
| ツール使用 | custom systematic_search を正しく使うも、落下を避ける。 | オフスクリーン NPC を考慮しない custom systematic_search に頼り、NPC と衝突しルート無効化、探索完了と誤認してエリアを死角に。 |
| ループ期間 | なし – ライトハウスを速やかにクリア。 | 何度もフロア間を行き来し、膨大な時間消費。 |
結果:
Gemini 3 Pro はゲーム全体を進めてチャンピオンになりましたが、2.5 Pro はオリビン灯台にとどまり、既に完全探索済みのフロア間で行き来していました。
非レース走行(ヘッド‑トゥ‑ヘッド開始前に中断)では 2.5 Pro が最終的に灯台ループから脱出し、さらにバッジを取得しました。しかしその代償は大きく、オリビン市入城時のターニング 21,801 から Fog Badge を獲得するまでに 16,403 ターン(Gemini 3 Pro の全 16 バッジ分のターン数の半分以上)を要しました。
ゴールデンロード地下:安全網のないパズル
Gemini 3 Pro にとって最初の本格的な苦戦はゴールデンロード地下にあるスイッチパズルでした。
この設計不備のパズルは、オフスクリーンシャッターを切り替える三つの壁スイッチを使用します。正解シーケンスは 左 → 中央 → 右。 スイッチとシャッターとの論理的マッピングが明確でないため、人間は試行錯誤か答えを検索して解きます。今回実験ではウェブアクセスが無いため、Gemini 3 Pro はゼロから解法を導出する必要がありました。
主なポイント:
| 観察 | 内容 |
|---|---|
| ヒント | Rocket Grunts を倒した後、「スイッチの順序は重要」かつ「最初のスイッチは『端』にあるもの」と言われる。 |
| Gemini 3 Pro の初期仮定 | 順序は関係ない;NPC と話す価値なし。 |
| 結果 | 2 日間近を代数的に推論し、真理表を構築するも正解へ至らず。 |
| 突破口 | 最後に NPC と対話しヒントを得て、ノートパッドに「CRITICAL HINT」と書き込み、数時間でパズルを解決。 |
教訓:
Gemini 3 Pro は深い思考とツールへの整理を投資しますが、初期仮定を検証せずに進むことが多く、大量の時間を浪費します。
この走行中、私は「Map Memory」ツール名を「Mental Map」に変更し、システムプロンプトを厳格化しました。「内部知識を無視する」指示は重要で、AI Studio への直接質問時に Gemini 3 Pro は正しい解答を頻繁に返すようになりました。
Gemini 3 Pro が明らかに 2.5 Pro を上回る点
横断ログとツール出力から、Gemini 3 Pro の一貫した優位性が浮き彫りになりました:
-
空間認識 & マップ分割
Gemini 3 Pro は Sprout Tower などの分割マップを正確にメンタルモデル化し、パスファインダーを呼び出さずに Mental Map 上で推論して移動します。
Gemini 2.5 Pro は同様の空間で苦戦し、パスが見つからないとバグと誤認しデバッグループへ落ち込みます。 -
マーカー意識付きナビゲーション
NPC 位置は RAM 上で画面に映っている時のみ読み取れます。Map Markers により、エージェントは見た場所を記録し、そのタイルを避けることができます。
Gemini 3 Pro はマーカーを実体として扱い、計画中に活用して失敗率を低減。
Gemini 2.5 Pro はしばしばこの情報を無視し、NPC がいるタイルへ直行するルートを生成します。 -
マルチタスク & ハーネス制限
ハーネスは「ボタン入力」と「ツール呼び出し」を分離させますが、loophole によりカスタムツールが
で複数ボタンを返すことが可能です。autopress_buttons: true
Gemini 3 Pro はこの回避策を発見し、
ツールを作成。ツール呼び出し(例:ノート更新)と事前定義済みボタン列を一ターンで実行します。press_sequence
Gemini 2.5 Pro は即席化せず、トレーニングホイールが想定した小ミスに留まります。 -
数手先の計画
Mt. Mortar 1F のバルブパズルでは、岩を二度押す必要があります。Gemini 3 Pro はこれをクリアに推論し実行しました。
Gemini 2.5 Pro は同じ岩を北へ一タイルずつ何度も押して、自らの道を塞ぎます。 -
視覚(テストは少なめ)
Gym 8 (Blackthorn) のバルブパズルでは、オブジェクトとしてではなく床タイルとして表現されるため、Gemini 3 Pro は初めて解いたと認識できませんでしたが、視覚によりそれを検知。
Red 戦闘中は画面ピクセルからヘルスバーを直接読み取れることも確認済みです。
Gemini 3 Pro の弱点
| 問題 | 内容 |
|---|---|
| 仮定の検証なし | 仮説を立てたらテストしない。ゴールデンロード地下ではスイッチ順序が重要だと認めず、Pokegear ラジオで Up/Down が周波数を変えることを無視。 |
| 並行目標追求の脆弱性 | 複数の目的を同時に進めるより、一つの目的に専念する傾向が強い。 |
| ツール呼び出しの脆弱性 | 必須パラメータ(例:)を忘れやすく、失敗したツールは壊れた状態で残り、デバッグしない。コードタスクでも同様に Edit ツールで構文エラーが発生。 |
最終試験:Red
全ての主要戦いを初回で勝利した Gemini 3 Pro は、パーティーが極端に不均衡でした:レベル 75 の Typhlosion(単一オーバーレベリング)とレベル 8〜19 の同僚がほぼキャンバフォーダーとして機能。Red はレベル 70–80 のフルチームを持っていました。
「Operation Zombie Phoenix」
Gemini 3 Pro の戦略:
| コンポーネント | 実装方法 |
|---|---|
| 受動回復 | スモークスクリーンで敵の命中率を低下させ、レフトオーバーズで体力を回復。ミスした攻撃が無料ヒールターンに変わる。 |
| リソース枯渇 | Surf、Rest など危険な技の PP を消耗させ、一時的効果(Reflect, Rain)が切れるまで待つ。 |
| レイヴライブループ | キャンバフォーダーを耐久しながら Typhlosion を再復活。 |
| 計算された攻撃 | Snorlax が特防を上げた時は Swift を選択、Flamethrower では PP 管理。 |
実行エラー:
スモークスクリーン使用回数の追跡が不十分で、既に最小精度になった際に余分なターンを消費。ある場面ではキャンバフォーダーで無駄攻撃を実行し、復活ループをリセットするために時間を浪費。
それでも多段階戦略を実装し、タイプチャート・天候条件・ステージ変化・長期 PP 経済まで追跡。2.5 Pro はこの複雑さを想像すらできなかったでしょう。
バトルは約 7 時間 のリアルタイムで終わり、クレジットが二度流れました。一方 2.5 Pro はまだ数マイル離れた第5バッジに向かって進んでいました。
マイルストーン比較
Gemini 3 Pro は Red をターン 24,178 で倒し、1.88 billion トークンを使用。
現在の効率(≈15 %)で Gemini 2.5 Pro が同じ目標を達成するには約 157,000 ターンと >15 billion トークンが必要、つまり 69 日 の連続稼働に対し Gemini 3 Pro は 17 日。
今後の展望
Gemini 3 Pro は完璧ではありません:ツール使用は脆弱で、仮定を検証できない場面があります。しかし Gemini Plays Pokémon ハーネス内ではこれまで使った中で最も強力です。世界モデルの構築・更新、ツール活用、失敗からの回復に優れています。
次のステップ:
- 視覚中心ハーネス – RAM 読み取りをほぼ排除し、エージェントが見るものだけで行動させる。
- 継続的思考 – ターン間で推論チェーンを保持し、パフォーマンスと走行速度を向上。
- 難易度の高い ROM – Crystal Clear(ゲームを開放するハック)や Pokémon Emerald へ移行、さらに非ポケモンゲームへの挑戦。
全ては非営利団体 ARISE Foundation (Agentic Research & Intelligence Systems Evaluation) の下で進められます。資金提供・スポンサーにご興味がある方は https://www.arisef.org/ をご覧ください。X(Twitter) @TheCodeOfJoel でフォローし、ブログを購読し、Twitch ストリーム (https://www.twitch.tv/gemini_plays_pokemon) をチェックしてください。