「世界シミュレータの黎明」

2025/12/21 4:40

「世界シミュレータの黎明」

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

記事は、次トークンまたは次フレーム予測をプレトレーニング目的とすることで、不確実性を減らし、データから直接世界のダイナミクスを学習してモデルを汎用知能へ導くことができると主張しています。

Odyssey‑2 はこれを示しています:膨大な動画データセットで訓練され、手作りの物理法則なしに潜在状態、ダイナミクス、および因果関係を学習します。長期的なトレーニングが不可欠であり、モデルは観測されない期間にわたって隠れ状態を保持できるようになります;短いシーケンスやメモリ機構の欠如では永続的な構造(Key 3–4)を強制できません。

明示的な物理法則に依存する狭義で静的なシミュレータとは異なり、学習された世界モデルはデータからシミュレーションを学び、計算資源の動的割り当てと現象の広範囲なカバーが可能です。また、ノブを回す・行動を起こすなど介入の効果を予測できるため、純粋な予測を超えた推論(Key 5–6)が実現します。

インタラクティブシミュレーションは、モデルが過去の観測とユーザーアクションに条件付けされたリアルタイム動画を生成し、継続的な状態付きインタラクション(Key 7)をサポートするときに可能になります。マルチモーダル入力/出力(映像、音声、言語、行動)は、話される質問や表情に適応する講師のように自然なエンゲージメントを実現します(Key 8)。

Odyssey ラボは、長期予測とインタラクションが可能な因果的でマルチモーダルな世界モデル構築に注力しています。分野はまだ初期段階であり、データのスケーリング、アーキテクチャ、および永続状態と因果性のためのトレーニングにおける課題が残っていますが、狭義モデルを超えたい研究者は協力することを歓迎します(Key 10–12)。

本文

音声・映像知能の新しい形態

近年、シンプルで因果的な予測目的が驚くほど汎用的な知能を生み出すことが分かってきました。言語では次に来るトークンを予測することで、モデルは構文・意味論・長距離構造を内部化させるのです。このアプローチは言語を越えて「世界モデル」へと拡張されつつあり、初期段階の世界シミュレーターが誕生しています。Odyssey‑2 のような最初世代の世界シミュレーターは、膨大な映像・対話データを用いて時間経過に伴う世界の変化をフレームごとに予測するよう訓練されたモデルです。手作業で設計したルールに頼る代わりに、観測から直接潜在状態・ダイナミクス・因果関係を学習します。


Odyssey‑2 Pro:初期世代の世界シミュレーター

観察によって世界を学ぶ

次フレーム予測や次トークン予測を事前訓練タスクにする理由は何でしょうか? それらは極めて単純な目的であり、あまり多くの事前知識を持たないモデルがデータから直接「世界の仕組み」を学べるためです。事前訓練は、フレームでも語でも「次に何が来るか」という不確実性を低減します。不確実性が下がると、知的な能力が顕在化し始めます。

言語の場合で見てみましょう。単に “=” のみが与えられれば次トークン予測は不適切です。しかし “2+3=” があれば次のトークンはほぼ決定的です。このようなシーケンスを十分に訓練すれば、予測は低エントロピーになります。ある能力は規模だけで現れますが、他のものは不確実性を解消するために必要な情報を含む長いシーケンスが必要です。

映像だけでなく、それを形作る行動も学ぶ

同じ論理は世界モデルにも当てはまります。次観測を予測するには、世界の潜在状態とその時間的変化を推定しなければなりません。実際に最良の情報源は大規模で汎用性のある映像です。これにより、物理法則・因果関係・持続性についての構造が学習されます。

長期予測と隠れ状態

長期的な設定では特に明確になります。例えば、人が浴室で湯を沸かし、その場を離れて数分後に戻るケースを想像してください。湯は見えなくても水位は上昇し、温度も変化し、やがて溢れ出す可能性があります。帰ってきたときに妥当な予測を行うには、モデルは世界の内部状態を保持し、その観測不能期間中にどう進化したかを推論する必要があります。

この挙動を得るために考えられる方法はいくつかあります。一つはメモリや状態追跡用の明示的な機構を組み込むこと。もう一つは、予測不確実性を減らすために隠れ状態を記憶・更新する必要があるほど長いシーケンスで訓練することです。短いシーケンスでは忘却コストが無く、長期構造は学習されません。

世界モデルが「観測ごとに世界を学び」、数十分から数時間も一貫して保持できるようにするには、その範囲を網羅した訓練データと手法が不可欠です。言語で長い文脈やシーケンスモデリングを拡張すると短期では見えなかった能力が解放されることはすでに分かっています。世界モデルも同様の軌跡にあります。データ・アーキテクチャ・訓練アルゴリズムがより長い時間スケールへと拡張されれば、持続状態・因果関係・長期ダイナミクスを表現する能力に同様の飛躍が期待できます。これは非常にエキサイティングです。


狭いシミュレーションから一般的なシミュレーションへ

手作業で設計されたシミュレータの限界

シミュレーションとは、モデル・データ、またはその両方を用いて系統状態が時間とともにどう変化するかを予測することです。極限的には初等粒子相互作用まで第一原理で世界を再現できる可能性がありますが、実際は非常に小さなシステムに限定されます。

現在の多くのリアルワールドシミュレーションは問題を大幅に縮小しています。専門的かつ手作業で設計されたモデルは特定の挙動を再現するためだけに十分な構造を捉え、無関係な詳細は省略または平均化されます。これによりシミュレーションは扱いやすくなりますが、同時に各シミュレータは特定ドメインと固定された仮定に限定されます。例えば剛体物理エンジンは天気予報には使えません。

系統が複雑になるほど、この制限は顕著になります。多くの実世界現象は、明示的なルールだけで正確にシミュレートすることが非現実的であり、信頼できるシミュレータを構築するには相当な人手が必要です。

映像から世界をシミュレートする学習

世界モデルは新しい視点からシミュレーションに挑みます。各ドメインごとにシミュレータを設計する代わりに、大量の映像・対話データで一般目的の因果モデルを訓練し、次に何が起こるかを予測させます。データは時間経過に伴う世界の進化をフレームごとに反映しているため、学習問題自体が因果的です。次フレーム予測を通じて、状態・ダイナミクス・相互作用の内部表現を事前に構造を指定せずに獲得します。

世界モデルのアーキテクチャ

これによりシミュレーションのスケールが変わります。従来のシミュレータは詳細レベルを最初から固定し、精度が上がるほどコストも増大します。一方世界モデルは一定の計算予算内で、どの潜在構造が予測不確実性を減らすかに応じて動的にリソース配分を学びます。時間とともに、単一モデルがより広範な現象を少ない手作業でカバーできるようになります。Odyssey‑2 はその早期例です。

一般的な世界シミュレータ(現在はまだ初期段階)は、各種ドメインごとにシミュレータを構築せずとも「介入した際に世界がどう変わるか」を予測できれば、単なる予測ツールではなく推論ツールとして実用的になります。時間とともに、この種のシミュレーションは多くの狭い手作業モデルを置き換え、知能システム構築・研究の共通インフラとなります。

シミュレーションとの自然な対話

現在のシミュレーションは主に検証ツールとして使われます。オフラインで実行し、狭い質問に答え、出力を後から検査します。対話は間接的で、ユーザーが継続的に関与することは稀です。

世界モデルはこれを変え、シミュレーションを継続的プロセスへと転換します。モデルがリアルタイムで映像ストリームを生成し(過去の観測とユーザー行動に条件付けられた)、シミュレーションはインタラクティブになります。システムはステップごとに進化し、介入に即座に応答します。再起動や再設定なしで済むためです。

これにより別のタイプの対話が可能になります。コマンドを発行して結果を待つ代わりに、ユーザーは時間をかけて状態を保持するシミュレーションと継続的に関わることができます。モデルが十分長いホライズンデータで訓練されれば、過去の出来事・発言・次に起こりそうな事柄というコンテキストを長時間にわたって維持できます。

簡単な例としてはチューターです。視覚的に概念を説明し、音声質問に応答し、中断時には一時停止し、表情に合わせて適応するシミュレートされた講師を想像してください。これを実現するためには、長期映像・言語・対話データから同時に学習し、説明の展開、対話と行動の関係、数分・数時間にわたるコンテキスト保持を統合的に捉える必要があります。

広い意味で見ると、シミュレーションはもはや静的ツールや狭いものではなくなります。大規模多モーダルデータから学習された世界モデルは、連続的かつ状態保持性を備えたインタラクティブシステムを生成し、従来のシミュレータよりも豊かな対話形態をサポートします。音声・言語・行動が自然な対話手段となります。


多モーダル入力と出力

一緒に世界シミュレーターを構築しよう

この方向性に共感いただけるなら、私たちは Odyssey でそれを実現しています。私たちは一般目的の世界モデル—因果的、多モーダルなシステムが長期ホライズンで予測・対話できるよう学習する AI ラボです。狭いモデルから離れ、学習された世界シミュレータへと進む研究者であり、既存パラダイムにきちんと収まらない課題に取り組みたい方を歓迎します。まだ極めて初期段階であり、最も難しい問題は未解決です。

Odyssey の素晴らしいチームへようこそ。

同じ日のほかのニュース

一覧に戻る →

2025/12/25 4:42

Show HN:ブラウザ内で動作し、すべてのデータをURLに保存するミニマリストエディタ

## Japanese Translation: GitHub は、Copilot、Spark、Models、および MCP Registry といった AI 搭載のエンタープライズグレードツール群を拡充し、開発者がより速く質の高いコードを書けるようにしています。これら新しいオファリングは、Actions、Codespaces、Issues、作業計画・追跡、コードレビュー、変更管理といった既存のワークフローを補完し、自動化やモデル用プロンプト管理、シークレット保護や脅威検知などのセキュリティ制御を追加します。企業向けには、Advanced Security、Copilot for Business、プレミアム 24/7 サポート、および標準的な DevSecOps パイプラインに組み込める AI 強化ビジネス分析などのエンタープライズ アドオンを導入しています。同時に、GitHub は Sponsors ファンディングや Security Lab、Maintainer Community、Accelerator、Archive Program などのプログラムを通じてオープンソース エコシステムを強化し、プロジェクトを健全に保ちます。総合的な目標は、個人貢献者、小規模チーム、大企業を問わず、医療・金融・製造・政府などさまざまな業界で利用できる、一貫性があり、安全かつ知能的な開発体験を提供することです。

2025/12/25 2:49

Show HN:Vibium ― AIと人間向けのブラウザ自動化(Selenium創設者による)

## Japanese Translation: Vibiumは軽量でGoベースのブラウザ自動化ライブラリで、AIエージェントが最小限のオーバーヘッドでChromeを制御できるようにします。単一の約10 MBバイナリとして配布され、WebDriver BiDiプロトコルとMCPサーバーを使用してブラウザを管理し、自動待機、要素ポーリング、ビューポートスクリーンショット(PNG)、不可視実行などの機能を提供します。開発者は `npm install vibium` でインストールでき、ライブラリは同期 (`browserSync`) と非同期 (`browser`) の両方のJavaScript/TypeScript APIを公開し、一般的なブラウザ操作に対応しています。 Claude Codeエージェントは次のように一歩でブラウザ制御を追加できます: `claude mcp add vibium -- npx -y vibium`; これによりセットアップ時にChromeも自動ダウンロードされます。ツールはLinux x64、macOS Intel x64、macOS Apple‑Silicon arm64、およびWindows x64をサポートし、Chromeとchromedriverをローカルにキャッシュしますが、`VIBIUM_SKIP_BROWSER_DOWNLOAD=1` を設定するとダウンロードをスキップできます。 主要なエージェントツールは次の通りです: - `browser_launch` - `browser_navigate` - `browser_find` - `browser_click` - `browser_type` - `browser_screenshot` - `browser_quit` VibiumはApache 2.0ライセンスでオープンソース化され、2025‑12‑22にnpmへ公開されました。将来計画(Roadmap V2)にはPython/Javaクライアント、Cortexメモリ/ナビゲーションレイヤー、Retina録画、動画キャプチャ、およびAI駆動のロケータが追加予定です。開発ガイドラインは `CONTRIBUTING.md` に、ロードマップ詳細は `V2-ROADMAP.md` に記載されています。このライブラリはAIエージェント向けにブラウザ自動化を簡素化し、開発者、テスター、およびデータ抽出ワークフローの利便性を高めることを目指しています。

2025/12/25 6:02

NVIDIAは、AIチップスタートアップGroqを約200億ドル(現金)で買収しています。

## Japanese Translation: (日本語訳) **改訂サマリー** Nvidia は、Groq の全資産を 200 億ドルの現金で買収することに合意し、同社史上最大規模の買収となります。この取引は、2023 年 9 月に Groq が約 6.9 億ドルの評価額で 7 億5,000 万ドルを調達した資金調達ラウンドと、Nvidia に対する推論技術の非独占ライセンス契約(価格は未公開)に続くものです。主要創業者である CEO のジョナサン・ロス氏と社長のサニー・マドラ氏を含む幹部が、ライセンス取得した技術を推進するために Nvidia に加わります。一方、Groq は財務責任者シモン・エドワーズ氏が率いる独立企業として残り、GroqCloud は取引の対象外であり、そのまま運営され続けます。 Nvidia は Groq の低レイテンシプロセッサを AI ファクトリーアーキテクチャに統合し、より広範な推論およびリアルタイムワークロードを実現すると同時に、GroqCloud を別個に保つ計画です。この買収は、10 月末時点で Nvidia の現金及び短期投資が 606 億ドル(2023 年初頭の 133 億ドルから増加)だったことを受けて行われました。 Groq は本年の売上高を 5 億ドルと目標設定しており、これは大規模言語モデル推論用 AI アクセラレータチップへの需要によって牽引されます。この動きは、Enfabrica との同様だが規模が小さい 9 億ドルの取引(CEO の採用と技術ライセンス)に続くものです。Nvidia の買収は歴史上最大の購入者として位置付けられ、ハードウェアポートフォリオとクラウドサービス提供への影響を拡大し、アクセラレータチップ市場で競合他社に影響を与える可能性があります。