
2026/02/24 2:00
「完全一般化されたコンピュータ行動モデル(First Fully General Computer Action Model)」
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
FDM‑1は、11 百万時間にわたる画面録画動画を元に訓練された基盤モデルであり、自動的に逆力学モデル(IDM)によってラベル付けされています。IDMはマスク付き拡散アーキテクチャを採用しており、クロスエントロピー/CTC損失よりも優れた性能を示し、ほぼ真実のラベルを生成します。このデータを利用して、FDM‑1はキー入力、マウスデルタ(各軸で49個の指数的ビンとクリック位置でエンコード)およびその他のアクションを自己回帰的に予測するよう学習します。
動画エンコーダーは30 fpsの約2時間分の映像をわずか1 Mトークンに圧縮し、以前の研究よりも50倍以上トークン効率が高く、OpenAIのVPTエンコーダーよりも100倍速く収束します。モデルは最大で約1時間40分のコンテキストウィンドウを処理できるため、CAD設計、金融分析、工学シミュレーションなどの真に長期的なタスクに対応できます。
評価では、80 kの最小Ubuntu VM上で毎時100万以上のロールアウトが実行され、共有GPUとカスタムRustバインディングを通じて約11 msの往復レイテンシを達成します。IDMによってラベル付けされたデータは、マウス移動およびUI操作に関して常に請負業者によるラベル付けよりも優れており(タイピングはラベリングノイズのためわずかに遅れます)。FDM‑1は強力なゼロショット転送を示し、微調整が1時間未満であれば、自律的に車両を運転したり、Blenderでギア押出しなどのCADタスクを実行したり、ファジングによってバグを発見することができます。
著者らは、データ制約から計算制約へと移行しているコンピューターアクションモデルの分野が進化しており、10年以内にAGIへの道を目指していると主張しています。彼らは[e‑mail protected]で協力者を募集しています。広く採用されれば、FDM‑1はCAD設計・金融分析・UIテストなどのソフトウェアワークフロー全体で低レイテンシ自動化を実現し、人手による注釈作業の必要性を削減する可能性があり、生産性ツールや産業におけるAI駆動型デバッグを変革するでしょう。
本文
FDM‑1は、コンピュータを操作するための基盤モデルとして設計されました。
このモデルは、11 百万時間に及ぶスクリーン録画データセットから抽出したビデオで学習させており、逆動力学モデル(Inverse Dynamics Model)で自動的にラベル付けしました。ビデオエンコーダーは30 FPSの動画をほぼ2時間分圧縮し、わずか 1 Mトークン にまとめることができます。
なぜFDM‑1が重要なのか
- CAD・ファイナンス・工学・将来的には機械学習研究まで「同僚」として活躍できる長文脈を扱える初のモデル。
- スケールアップに伴い性能が継続的に向上。
- 画像やスクリーンショットではなく、直接ビデオで学習・推論し、インターネット全体から無監督で知識を獲得。
従来は、コンピュータ使用エージェントを構築するには、契約者がアノテーションしたスクリーンショットでビジョン‑言語モデル(VLM)をファインチューニングし、その後各下流タスク用に強化学習環境を作る必要がありました。こうしたエージェントは数秒程度の文脈しか扱えず、低フレームレート動画しか処理できず、短期的なタスクしか実行できませんでした。また、VLMは契約者ラベルに依存し、高価でデータセットが極端に小さく(最大公開データセットも30 FPSで20時間未満)あります。対照的に、映画編集、コーディングライブストリーム、ゲームプレイ動画などの数百万時間分の映像はオンライン上に蓄積されており、インターネット規模のビデオコーパスが必要です。GPT‑3 がインターネット規模のテキストコーパスを必要としたように、FDM‑1 はそのスケールで学習できる初めてのモデルです。
デモハイライト
- 図 1 – FDM‑1がBlender上でn‑gonの顔を押し出してギアを作成。
- 図 2 – 矢印キーを使い、FDM‑1は< 1時間のファインチューニングデータで自律的に車を運転。
- 図 3 – FDM‑1はファズィング(脆弱性検査)で優秀。模擬バンキングアプリのバグを多様な状態探索で発見。
トレーニング手順(図 4参照)
- 40,000時間分の契約者ラベル付きスクリーン録画で逆動力学モデル(IDM)をトレーニング。
- IDM を用いて11 百万時間のビデオコーパスに自動ラベル付け。
- IDM ラベル付き動画を使い、次アクション予測で前方動力学モデル(FDM)を自己回帰的にトレーニング。
FDM の出力トークン空間はキー入力とマウス移動デルタから構成され、コンピュータ上のあらゆる操作を表現可能です。
ビデオエンコーダー
- 実際のビデオとテキストは情報密度が比較的均一であり、セマンティック内容をほぼ失わずに潜在表現へ圧縮できる。
- 既存のエンコーダはスクリーン録画の情報密度変化(例:空白画面上のカーソル vs. 密集テキストのスクロール)により、セマンティック詳細と圧縮率のトレードオフを行う。
- 当社はマスク付き圧縮目的関数でエンコーダを訓練し(V‑JEPA に似た手法をビデオフレーム埋め込みへ適応)、非常に高い圧縮率で高密度特徴量を得る。
圧縮比
| コンテキストウィンドウ | 平均動画長 |
|---|---|
| 32kトークン | 3 分 30 秒 |
| 200kトークン | 20 分 |
| 1Mトークン | 1 時間 40 分 |
これにより、CAD のような長期作業フローを実現しつつ、高精度のテキスト読み取りも維持できます。
逆動力学モデル(IDM)
- アクション(マウス移動・キー入力)を非因果的に予測:
を貼り付けた後でラベル化できる。Cmd+C - マスク付き拡散アーキテクチャが最適と判明。すべてのアクショントークンを同時に予測し、曖昧なアクションへの注力と契約者データとのほぼ等価な性能を実現。
前方動力学モデル(FDM)
- 以前のフレーム・アクションから次アクションを予測(図 9参照)。
- ビデオとアクショントークンのみで直接操作。Chain‑of‑Thought 推論やツール使用は不要。
- キー入力、マウス移動、スクロールイベントを離散ビン化。マウスデルタは指数的にビニングし、状態空間を削減しつつ小さな動きでも高精度を保つ。
評価インフラ
- 80,000 の最小 Ubuntu VM(1 vCPU、8 GB RAM)で時間あたり > 1M ロールアウト。
- フォーク機能により OS 状態の完全メモリスナップショットと高速複製を実現。
- 低レイテンシに最適化:GPU/VM の同一配置、累積シーケンスパッキング、低レイテンシ VNC、Rust バインディングをカスタム開発。画面キャプチャからアクションまでの往復遅延 11 ms を達成。
評価トレンド(図 11)では IDM ラベル付きデータがマウス移動・操作能力で契約者データを上回ることが示され、タイピングや言語理解は IDM データのノイズにより改善速度が遅いが、将来は両データ混合で向上予定。
成果
- FDM‑1 は複雑なタスク(オブジェクト分割・3D 操作)において人間行動を推論。
- 自律走行テストでは、< 1時間の収集データでファイナンシアラボ周辺を通過。
- キー入力予測で 50 % の精度から開始し、ビジョンプライオリティのみのベースラインよりも急速にスケール。
今後の展望
コンピュータ操作はデータ制約から計算制約へ移行しました。AGI は今世紀内に実現できると信じており、次の10年以内に実装される可能性があります。我々の最近の研究は自律的で有能なコンピュータ使用エージェントへのギャップを埋めましたが、対称的な汎用学習者が存在する前には多くの技術課題が残っています。
サンフランシスコに拠点を置く小規模チームです。私たちの研究に興味を持っていただける方は、[email protected] までご連絡ください。
謝辞:Mohit Agarwal、Carlo Agostinelli、Robert Avery、Cheru Berhanu、Trevor Chow、Luke Drago、Ryan Kaufman、Rudolf Laine、Jinglin Li、Lexi Mattick、Ulisse Mini、Rio Popper、Jannik Schilling、Armando Shashoua、Aidan Smith、Koko Xsu、および Sally Zhu に感謝します。