
2026/01/24 0:03
**Waypoint-1:** オーバーウォールからのリアルタイム対話型ビデオ拡散
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Summary
Overworld は Waypoint‑1 を導入しました。これは、テキスト、マウスクリック、またはキーボード入力でゲームプレイを操作できるリアルタイム対話型ビデオ拡散モデルです。10 000 時間にわたる多様なゲーム映像と制御信号からゼロから学習された Waypoint‑1 は、事前訓練時に diffusion forcing を使用し、訓練後には DMD による self‑forcing を適用することで、遅延ゼロと無制限のカメラ移動を実現します。
コアアーキテクチャは フレーム因果整流フロー変換器 であり、効率的な推論のために潜在空間で動作します。単一の 5090 GPU 上で、Waypoint‑1‑Small(2.3 B パラメータ)と Overworld の WorldEngine ライブラリを組み合わせると、約30 000トークンパス/秒(フレームあたり256トークン)の速度が維持され、4 ステップで 30 FPS、2 ステップで 60 FPS を実現します。性能はさらに AdaLN フィーチャーキャッシュ、静的ロールリング KV キャッシュ+フレックスアテンション、行列積融合、および
torch.compile(fullgraph=True, mode="max-autotune", dynamic=False) により向上します。
WorldEngine は低遅延と高スループットを最適化した全 Python 推論ライブラリです。サンプルコードでは、WorldEngine インスタンスの作成、プロンプト設定(例:「美しい谷でヤギを牧畜するゲーム」)、任意で次フレームを特定画像に強制し、コントローラ入力に条件付けたフレーム生成が示されています。
コミュニティ参加を促進するため、Overworld は 2026年1月20日午前10時 PST に WorldEngine ハッカソン を開催します。2–4 人チーム向けに 5090 GPU の賞品を提供し、システムのさらなる発展を目指します。Overworld ウェブサイト、Discord(開発者)、Discord(モデル/プレイヤー)、X/Twitter へのリンクが用意されており、情報交換が可能です。
60 FPS でほぼリアルタイムの対話型ゲームプレイ生成を実現し、遅延を最小限に抑えることで、Waypoint‑1 はゲーム開発者のコンテンツ作成ワークフローを加速させ、プロシージャルに生成されたゲーム環境の新たな可能性を切り拓くことが期待されます。
本文
記事へ戻る
Waypoint‑1 でのハブ重み
- Waypoint‑1‑Small
- Waypoint‑1‑Medium(近日公開!)
モデルを試してみよう
Waypoint‑1とは?
Waypoint‑1は、Overworldが開発したリアルタイム対話型ビデオ拡散モデルです。テキスト・マウス・キーボードで制御・プロンプトを与えることができます。
フレームを数枚入力し、実行すると、自分が踏み込めるインタラクティブな世界を生成してくれます。
- バックボーン:10 000時間にわたる多様なビデオゲーム映像と制御入力・テキストキャプションを組み合わせて学習した、フレーム因果的修正フロー変圧器(rectified flow transformer)。
- 潜在モデル:圧縮されたフレームで訓練。
- インタラクティブ制御:他のモデルが周期的なカメラ移動のみを許可する中、Waypoint‑1はマウスで自由にカメラを動かし、キーボードの任意キーを押すことができます―ゼロレイテンシ。各フレームはあなたの操作をコンテキストとして生成されます。
- パフォーマンス:消費者向けハードウェアでもスムーズに動作し、シームレスな体験が可能です。
どのように訓練されたか?
- 拡散強制(Diffusion Forcing)
- モデルは因果的注意マスク(トークンは自分自身または以前のフレームのみを参照できる)を使い、過去のフレームから未来のフレームをノイズ除去することを学習します。
- 自己強制(Self‑Forcing, post‑training)
- 長時間連続推論時に生じる誤差蓄積問題(インフェレンスミスマッチ)に対処。
- 推論挙動と一致する条件下で訓練し、単一パスのCFGや少ステップノイズ除去を可能にします。
インフェレンスライブラリ:WorldEngine
WorldEngineはOverworldが提供する高性能インフェレンスライブラリで、対話型ワールドモデルストリーミング用です。
低レイテンシ・高スループット・拡張性・開発者の使いやすさを実現した純粋Pythonツールです。
- ランタイムループ:コンテキストフレーム画像、キーボード/マウス入力、テキストを消費し、リアルタイムストリーミング用に画像フレームを出力します。
- パフォーマンス(Waypoint‑1‑Small on 5090)
- 約30 000トークンパス/秒(単一ノイズ除去パス;256トークン/フレーム)
- 4ステップで30FPS、2ステップで60FPS
- 最適化
- AdaLN機能キャッシュ
- 静的ローリングKVキャッシュ + フレックスアテンション
- Matmul融合(QKV投影を統合)
- Torch Compile (
)torch.compile(fullgraph=True, mode="max-autotune", dynamic=False)
from world_engine import WorldEngine, CtrlInput # インフェレンスエンジンの作成 engine = WorldEngine("Overworld/Waypoint-1-Small", device="cuda") # プロンプトを設定 engine.set_prompt("美しい谷でヤギを追いかけるゲーム") # 任意の場合:次フレームを特定画像に強制 img = pipeline.append_frame(uint8_img) # (H, W, 3) # コントローラ入力に基づいて3枚のビデオフレームを生成 for controller_input in [ CtrlInput(button={48, 42}, mouse=[0.4, 0.3]), CtrlInput(mouse=[0.1, 0.2]), CtrlInput(button={95, 32, 105}), ]: img = engine.gen_frame(ctrl=controller_input)
WorldEngineで構築する
2026年1月20日にworld_engineハッカソンを開催します—RSVP こちら。
2〜4名のチーム参加歓迎。賞品はその場で5090 GPUです。
午前10時(PST)から8時間のフレンドリーな競技と、同じ志を持つ創業者・エンジニア・ハッカー・投資家との出会いにぜひご参加ください。
連絡先
- ウェブサイト
- Discord(開発者)
- Discord(モデル/プレイヤー)
- X/Twitter