Waymoワールドモデル

2026/02/07 1:20

Waymoワールドモデル

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Waymoは、Waymo World Modelという生成シミュレーションエンジンを公開しました。このエンジンは、極端な天候・自然災害・象やロングホーンのような珍しいオブジェクト、逆走トラックなど安全に関わるインシデントを含むハイパーリアリスティックな自律運転シナリオを生成します。
Google DeepMind の Genie 3 をベースにしたこのモデルは、カメラと LiDAR データを融合し、ドライビングアクション制御・シーンレイアウト制御・時間帯、天候、カスタムシナリオを調整する言語プロンプトという3つの制御機構を提供します。録画済みまたは新規生成されたルートに対して代替ドライビング決定を評価する「what‑if」反実仮想シミュレーションもサポートしています。
Waymo Driver は米国都市で約 2 億マイルの完全自律走行距離を記録し、数十億マイルに相当するバーチャル走行をシミュレートしてきました。World Model はリアルなダッシュカムやモバイルカメラ映像を多模態シミュレーションへ変換し、正確な視覚シーンと一致させることでこの機能を拡張します。効率的なバリアントは実時間の最大4倍速で動作し、計算資源を削減しつつ長時間テストが可能です。
このシステムは、安全性が証明された自律運転を実現するために Waymo の AI エコシステムの重要柱となっており、Waymo と Google DeepMind からなる大規模チームによって開発されています。

本文

Waymo Driver は、ほぼ 2 億マイルに及ぶ完全自律走行距離を達成し、大都市のインフラに不可欠な存在となり、道路安全性の向上にも寄与しています。乗客や地域住民が目にするのは街中での走行だけですが、その裏では Waymo Driver は仮想空間で数十億マイルを移動し、実際に公共道路で遭遇する前から複雑なシナリオを習得しています。

本日、私たちは新しいフロンティア・ジェネレーティブモデル「Waymo World Model」をご紹介できることを嬉しく思います。このモデルは、大規模かつ極めてリアルな自律走行シミュレーションの基準を一新します。


Waymo Driver が逆方向で進む車両を回避するシミュレーション

本シミュレーションは、実際に起きた事象から始まり、カメラと LiDAR 画像を効率的なリアルタイム Waymo World Model によって自動生成しながらスムーズに移行します。

Waymo World Model は Google DeepMind の最先端汎用ワールドモデル「Genie 3」をベースに、運転領域の厳格性に合わせて調整されています。Genie の膨大な世界知識を活かし、竜巻や象との偶発的遭遇といった実際にはほぼ不可能に近い稀少イベントもシミュレートできます。モデルは高い制御性を備えており、エンジニアは簡潔な言語プロンプト・運転入力・シーンレイアウトでシミュレーションを変更できます。また、カメラと LiDAR の両方のデータを含むハイファイディティ、多センサー出力も生成します。


新たに獲得したマルチモーダル世界知識

自律走行業界のほとんどのシミュレーションモデルは、収集したオンロードデータのみでゼロから学習しています。これでは経験が限定されます。Genie 3 は、極めて大規模かつ多様な動画を事前学習することで得た強力な世界知識を持ち、Waymo のフリートで直接観測できない状況も探索可能です。専用のポストトレーニングにより、この 2D 動画から得た知識を Waymo 専用ハードウェア固有の 3D LiDAR 出力へ転移させます。Waymo World Model は、日常的な運転から稀少・長尾シナリオまで、多数のセンサー形式であらゆる場面を生成できます。


極端気象条件と自然災害

  • 雪が軽く降ったゴールデンゲートブリッジ上を走行(前方カメラ映像に Waymo の影が見える)
  • 竜巻の遭遇
  • 沈滞水没した郊外のコーンオフ・ザ・サック、漂う家具付き
  • 雪で覆われた熱帯街道を走行
  • 激しい火災から脱出

稀少かつ安全性重視のイベント

  • 無謀なドライバーが道路外へ突き進む
  • 先頭車両が木の枝に衝突
  • 上部に家具を不安定に置いた車両の後ろで走行
  • 正面から逆方向へ向かい、道路を塞ぐ故障トラック

長尾(意図的な言葉遊び)オブジェクトとその他

  • 友好的な象との遭遇
  • テキサスロングホーンの遭遇
  • ライオンの遭遇
  • T‑レックスに扮した歩行者
  • 車ほど大きなタムブルウィードの遭遇

Waymo World Model が生成するリアルな 4D ポイントクラウドをインタラクティブに可視化でき、没入感ある閲覧が可能です。


強力なシミュレーション制御

Waymo World Model は以下の三つのメカニズムで高い制御性を実現します。

  1. 運転アクション制御
    指定された運転入力に忠実に従うリアクティブシミュレータ。例えば「もっと自信を持って走行すべきだったのでは?」といった仮想的な逆説イベントを作成可能。

  2. シーンレイアウト制御
    道路構造、交通信号状態、他道路利用者の挙動をカスタマイズ。選択的配置や変異により独自のシナリオを設計。

  3. 言語制御
    最も柔軟なツールであり、時間帯・天候条件を調整したり、完全に合成されたシーン(長尾イベント等)を生成できます。

世界変異 – 時間帯

  • 夜明け
  • 正午
  • 午後
  • 夕方

世界変異 – 天候

  • 曇り
  • 晴れ

ダッシュカム映像の変換

Waymo World Model は、モバイルデバイスやダッシュカムから取得した動画(例:雪山に積もる雪堆や夕暮れ時の高速道路)を多モーダルシミュレーションへと変換します。これにより、Waymo Driver がその正確な場面をどのように認識するかをリアリティと事実性を保証しつつ可視化できます。


スケーラブル推論

長い再生時間が必要なシーン(例:狭い車線での交差)では、より効率的な Waymo World Model のバリエーションが計算量を大幅に削減しつつ高リアリズムと忠実度を維持します。これにより、大規模なシミュレーションが可能です。

  • 効率化された変種で 4 倍速度再生
  • フリーウェイの中止車両や高速交通を迂回
  • 混雑した近隣を走行
  • 急勾配街道でオートバイを安全に避ける
  • SUV の U‑ターン

「不可能」をシミュレートすることで、Waymo Driver は稀少かつ複雑な状況に対して事前に準備され、実際の世界で遭遇する前に長尾課題を安全に乗り越える能力が保証されます。


謝辞

Waymo World Model の実現には、James Gunn、Kanaad Parvate、Lu Liu、Lucas Deecke、Luca Bergamini、Zehao Zhu、Raajay Viswanathan、Jiahao Wang、Sakshum Kulshrestha、Titas Anciukevičius、Luna Yue Huang、Yury Bychenkov、Yijing Bai、Yichen Shen、Stefanos Nikolaidis、Tiancheng Ge、Shih‑Yang Su、Vincent Casser らの研究・エンジニアリング・評価への貢献に感謝します。

また、Chulong Chen、Mingxing Tan、Tom Walters、Harish Chandran、David Wong、Jieying Chen、Smitha Shyam、Vincent Vanhoucke、Drago Anguelov に、このプロジェクトのビジョンとリーダーシップを示していただきありがとうございます。

Jon Pedersen、Michael Dreibelbis、Larry Lansing、Sasho Gabrovski、Alan Kimball、Dave Richardson、Evan Birenbaum、Harrison McKenzie Chapter、Pratyush Chakraborty、Khoa Vo、Todd Hester、Yuliang Zou、Artur Filipowicz、Sophie Wang、Linn Bieske への協力にも感謝します。

さらに Google DeepMind のパートナー(Jack Parker‑Holder、Shlomi Fruchter、Philip Ball、Ruiqi Gao、Songyou Peng、Ben Poole、Fei Xia、Allan Zhou、Sean Kirmani、Christos Kaplanis、Matt McGill、Tim Salimans、Ruben Villegas、Xinchen Yan、Emma Wang、Woohyun Han、Shan Han、Rundi Wu、Shuang Li、Philipp Henzler、Yulia Rubanova、Thomas Kipf)との議論と貴重な洞察にも深く感謝します。

同じ日のほかのニュース

一覧に戻る →

2026/02/07 6:51

**OpenCiv3:サイクリズム・III のオープンソースでクロスプラットフォーム化した再構築**

## Japanese Translation: OpenCiv3は、Civilization IIIのオープンソースでクロスプラットフォームなリメイクであり、レガシー制限を取り除き、モッドサポートを拡張しつつもコアゲームプレイを保持します。Godot EngineとC#で構築されており、Windows、Linux、macOS上でネイティブに動作し、専用のCivilization IIIファイルは不要です(ただしローカルコピーがあると互換性が向上します)。 現在のプレアルファ版(v0.3「Dutch」、2025年12月)は、OS固有のzipまたはtgz(「スタンドアロンモード」でプレースホルダーグラフィック付き)として配布されます。インストール手順は以下の通りです。 - **Windows** – zipを解凍し、`OpenCiv3.exe` をダブルクリックします。ブロックされている場合は解除し、自動検出できない場合は環境変数 `CIV3_HOME` にCivilization IIIフォルダーのパスを設定してください。 - **Linux** – `.tgz` を解凍し、`export CIV3_HOME="/path/to/civ3"` としてから `OpenCiv3.x86_64` を実行します。 - **macOS** – zipを解凍し、`xattr -cr /path/to/OpenCiv3.app` でクォータリゼーションを解除し、同様に `CIV3_HOME` を設定してターミナルから起動します。 既知の問題としてはプレースホルダー資産、不完全なBIQ/SAVファイルサポート(クラッシュを引き起こす可能性があります)、および新規ゲーム開始時にマップ生成用保存ファイルが欠如しているためmacOSでクラッシュするケースがあります。最低ハードウェア要件はまだ公開されていません。プロジェクトはMITライセンスの下でリリースされ、Firaxis、CivFanatics.com、その他の団体とは独立しています。 開発者はBIQ/SAVサポートの完全復元、プラットフォーム別クラッシュ(特にmacOS)の修正、後半ゲームコンテンツの追加、およびグラフィックと安定性の向上に積極的に取り組んでいます。バグや機能要望はGitHubで追跡されており、コミュニティからの貢献が奨励されています。 モッドフレンドリーでクロスプラットフォームな基盤を提供することで、OpenCiv3はプレイヤーと開発者にオリジナルIPを侵害せずにクラシックなCivilization体験を拡張する機会を提供します。

2026/02/05 20:19

**ジオジョインをH3インデックスで400 倍高速化した手法** - **問題点:** 大規模な空間データセットに対する従来のジオジョインクエリは、ポイント‐イン‐ポリゴン判定やテーブル全体のスキャンが必要だったため遅延が大きかった。 - **解決策:** Uber の H3 ヘキサゴナル階層インデックスシステムを利用し、空間情報を固定サイズセルへ事前集約した。 - **実装手順:** 1. すべてのジオメトリ(点・線・多角形)を適切な解像度で対応する H3 インデックスに変換する。 2. 生成されたインデックスを別テーブルに格納し、H3 キーで索引付けする。 3. ジョイン時には、重複した H3 インデックスをキーとしてマッチさせ、膨大な空間判定処理を回避する。 - **結果:** クエリ遅延が数時間から数分へと短縮され、約 400 倍の高速化を実現。また、選択した解像度内であれば空間的正確性は維持された。 ジオメトリ比較を単純な整数キー検索に置き換えることで、データの忠実度を損なうことなく大幅なパフォーマンス向上を達成しました。

## Japanese Translation: ## Summary この記事は、コストの高い空間述語をH3ベースの集合演算に置き換えることで、遅い二次元空間結合をコンパクトなキーで高速ハッシュ結合へと変換する方法を示しています。各ジオメトリを解像度 3 の少数の H3 セルで覆うことにより、結合は最初にセルを共有する候補ペアをフィルタリングし、その後で正確な `ST_Intersects` をその候補のみに適用します。これにより、潜在的に何百万もの交差チェックが、フィルタ済みセットだけに減少し、テストで 400 倍の速度向上を実現しています。この手法は CTE、ビュー、およびサブクエリとシームレスに機能し、追加のマテリアライズドテーブルやスキーマ変更は不要です。したがって、精度を下げるなどの実験も容易になります。高い H3 解像度では偽陽性が減少しますが、形状ごとのセル数が増加し、低解像度ではインデックス作成が簡単ですが、解像度 4 を超えるとセル数の増加により急激に大きくなります。実際には、この書き換えにより 15 ワーカーの Xeon クラスターで結合時間を約 459 秒から約 1.2 秒へ短縮し、正確な一致精度(最終的な `ST_Intersects` によって偽陽性が除去される)を維持したまま高速な空間分析を可能にしています。

2026/02/07 6:33

**Show HN:** 「見てください、Linux なしで実現!ESP32‑S3/BreezyBox 上のシェル・アプリインストーラ・Vi・Cc」

## 日本語訳: BreezyBox – ESP32‑S3を小型の即時起動PCに変える BreezyBox は ESP‑IDF 用のミニシェルコンポーネントで、ESP32‑S3 ボードを小さな即時起動 PC に変えることができます。FreeRTOS(完全な OS ではない)上で実行され、自身のシェル、コードエディタ、コンパイラ、およびオンラインアプリインストーラを統合しています。このコンポーネントは stdio サポート付きの任意の ESP‑IDF プロジェクトにインポートできます。 ### コア機能 - **仮想端末と UNIX ライクなコマンド**(現在作業中のディレクトリを追跡) - **アプリインストーラ**:個人リポジトリから ELF バイナリをダウンロードし、既存の `elf_loader` ダイナミックリンカで実行 - **表示処理はユーザーフームウェアに任せる**:デモでは stdout を LVGL テキストラベルコントロールで表示(ほとんどの LCD で動作)。好きなグラフィックススタックに置き換え可能 - **オプションの高フレームレートフォントレンダラー**(やや大きいディスプレイでは約30FPS)を作者が実装済みだが必須ではない ### デモと柔軟性 サンプルデモは Waveshare ESP32‑S3‑Touch‑LCD‑7B ボードで動作しますが、コードは他のディスプレイやヘッドレスボードに適応できます。$10 程度の 2 インチ LCD S3 開発ボードまたは USB コンソール付きヘッドレスボードを開始点として推奨しています。 ### メモリと制約 ESP32‑S3 のメモリが限られているため、ユーザーは PSRAM アラインメントやその他の quirks を確認しながら大きなアプリケーションを実行する必要があります。BreezyBox はオーバーヘッドを最小化しつつ ELF 実行を可能にするよう設計されています。 ### コミュニティと拡張性 - MIT ライセンス;貢献は歓迎(特にテスト、共有例、異なるボードや言語用の新しいファームウェアリポジトリ) - プロジェクトは他 CPU への移植(例:RISC‑V P4/P6)や様々な GUI スタイルを備えた完全なファームウェアリポジトリ作成を推奨 ### インパクト ESP32‑S3 上で低オーバーヘッドの ELF 実行を可能にすることで、BreezyBox はメイカー、教育者、プロトタイプ開発者の可能性を拡大し、小型組み込みデバイスに PC ライクな機能を採用するホビイストコミュニティを刺激します。

Waymoワールドモデル | そっか~ニュース