「完全一般化されたコンピュータ行動モデル(First Fully General Computer Action Model)」

2026/02/24 2:00

「完全一般化されたコンピュータ行動モデル(First Fully General Computer Action Model)」

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

FDM‑1は、11 百万時間にわたる画面録画動画を元に訓練された基盤モデルであり、自動的に逆力学モデル(IDM)によってラベル付けされています。IDMはマスク付き拡散アーキテクチャを採用しており、クロスエントロピー/CTC損失よりも優れた性能を示し、ほぼ真実のラベルを生成します。このデータを利用して、FDM‑1はキー入力、マウスデルタ(各軸で49個の指数的ビンとクリック位置でエンコード)およびその他のアクションを自己回帰的に予測するよう学習します。

動画エンコーダーは30 fpsの約2時間分の映像をわずか1 Mトークンに圧縮し、以前の研究よりも50倍以上トークン効率が高く、OpenAIのVPTエンコーダーよりも100倍速く収束します。モデルは最大で約1時間40分のコンテキストウィンドウを処理できるため、CAD設計、金融分析、工学シミュレーションなどの真に長期的なタスクに対応できます。

評価では、80 kの最小Ubuntu VM上で毎時100万以上のロールアウトが実行され、共有GPUとカスタムRustバインディングを通じて約11 msの往復レイテンシを達成します。IDMによってラベル付けされたデータは、マウス移動およびUI操作に関して常に請負業者によるラベル付けよりも優れており(タイピングはラベリングノイズのためわずかに遅れます)。FDM‑1は強力なゼロショット転送を示し、微調整が1時間未満であれば、自律的に車両を運転したり、Blenderでギア押出しなどのCADタスクを実行したり、ファジングによってバグを発見することができます。

著者らは、データ制約から計算制約へと移行しているコンピューターアクションモデルの分野が進化しており、10年以内にAGIへの道を目指していると主張しています。彼らは[e‑mail protected]で協力者を募集しています。広く採用されれば、FDM‑1はCAD設計・金融分析・UIテストなどのソフトウェアワークフロー全体で低レイテンシ自動化を実現し、人手による注釈作業の必要性を削減する可能性があり、生産性ツールや産業におけるAI駆動型デバッグを変革するでしょう。

本文

FDM‑1は、コンピュータを操作するための基盤モデルとして設計されました。
このモデルは、11 百万時間に及ぶスクリーン録画データセットから抽出したビデオで学習させており、逆動力学モデル(Inverse Dynamics Model)で自動的にラベル付けしました。ビデオエンコーダーは30 FPSの動画をほぼ2時間分圧縮し、わずか 1 Mトークン にまとめることができます。

なぜFDM‑1が重要なのか

  • CAD・ファイナンス・工学・将来的には機械学習研究まで「同僚」として活躍できる長文脈を扱える初のモデル。
  • スケールアップに伴い性能が継続的に向上。
  • 画像やスクリーンショットではなく、直接ビデオで学習・推論し、インターネット全体から無監督で知識を獲得。

従来は、コンピュータ使用エージェントを構築するには、契約者がアノテーションしたスクリーンショットでビジョン‑言語モデル(VLM)をファインチューニングし、その後各下流タスク用に強化学習環境を作る必要がありました。こうしたエージェントは数秒程度の文脈しか扱えず、低フレームレート動画しか処理できず、短期的なタスクしか実行できませんでした。また、VLMは契約者ラベルに依存し、高価でデータセットが極端に小さく(最大公開データセットも30 FPSで20時間未満)あります。対照的に、映画編集、コーディングライブストリーム、ゲームプレイ動画などの数百万時間分の映像はオンライン上に蓄積されており、インターネット規模のビデオコーパスが必要です。GPT‑3 がインターネット規模のテキストコーパスを必要としたように、FDM‑1 はそのスケールで学習できる初めてのモデルです。

デモハイライト

  • 図 1 – FDM‑1がBlender上でn‑gonの顔を押し出してギアを作成。
  • 図 2 – 矢印キーを使い、FDM‑1は< 1時間のファインチューニングデータで自律的に車を運転。
  • 図 3 – FDM‑1はファズィング(脆弱性検査)で優秀。模擬バンキングアプリのバグを多様な状態探索で発見。

トレーニング手順(図 4参照)

  1. 40,000時間分の契約者ラベル付きスクリーン録画で逆動力学モデル(IDM)をトレーニング。
  2. IDM を用いて11 百万時間のビデオコーパスに自動ラベル付け。
  3. IDM ラベル付き動画を使い、次アクション予測で前方動力学モデル(FDM)を自己回帰的にトレーニング。

FDM の出力トークン空間はキー入力とマウス移動デルタから構成され、コンピュータ上のあらゆる操作を表現可能です。

ビデオエンコーダー

  • 実際のビデオとテキストは情報密度が比較的均一であり、セマンティック内容をほぼ失わずに潜在表現へ圧縮できる。
  • 既存のエンコーダはスクリーン録画の情報密度変化(例:空白画面上のカーソル vs. 密集テキストのスクロール)により、セマンティック詳細と圧縮率のトレードオフを行う。
  • 当社はマスク付き圧縮目的関数でエンコーダを訓練し(V‑JEPA に似た手法をビデオフレーム埋め込みへ適応)、非常に高い圧縮率で高密度特徴量を得る。

圧縮比

コンテキストウィンドウ平均動画長
32kトークン3 分 30 秒
200kトークン20 分
1Mトークン1 時間 40 分

これにより、CAD のような長期作業フローを実現しつつ、高精度のテキスト読み取りも維持できます。

逆動力学モデル(IDM)

  • アクション(マウス移動・キー入力)を非因果的に予測:
    Cmd+C
    を貼り付けた後でラベル化できる。
  • マスク付き拡散アーキテクチャが最適と判明。すべてのアクショントークンを同時に予測し、曖昧なアクションへの注力と契約者データとのほぼ等価な性能を実現。

前方動力学モデル(FDM)

  • 以前のフレーム・アクションから次アクションを予測(図 9参照)。
  • ビデオとアクショントークンのみで直接操作。Chain‑of‑Thought 推論やツール使用は不要。
  • キー入力、マウス移動、スクロールイベントを離散ビン化。マウスデルタは指数的にビニングし、状態空間を削減しつつ小さな動きでも高精度を保つ。

評価インフラ

  • 80,000 の最小 Ubuntu VM(1 vCPU、8 GB RAM)で時間あたり > 1M ロールアウト。
  • フォーク機能により OS 状態の完全メモリスナップショットと高速複製を実現。
  • 低レイテンシに最適化:GPU/VM の同一配置、累積シーケンスパッキング、低レイテンシ VNC、Rust バインディングをカスタム開発。画面キャプチャからアクションまでの往復遅延 11 ms を達成。

評価トレンド(図 11)では IDM ラベル付きデータがマウス移動・操作能力で契約者データを上回ることが示され、タイピングや言語理解は IDM データのノイズにより改善速度が遅いが、将来は両データ混合で向上予定。

成果

  • FDM‑1 は複雑なタスク(オブジェクト分割・3D 操作)において人間行動を推論。
  • 自律走行テストでは、< 1時間の収集データでファイナンシアラボ周辺を通過。
  • キー入力予測で 50 % の精度から開始し、ビジョンプライオリティのみのベースラインよりも急速にスケール。

今後の展望

コンピュータ操作はデータ制約から計算制約へ移行しました。AGI は今世紀内に実現できると信じており、次の10年以内に実装される可能性があります。我々の最近の研究は自律的で有能なコンピュータ使用エージェントへのギャップを埋めましたが、対称的な汎用学習者が存在する前には多くの技術課題が残っています。

サンフランシスコに拠点を置く小規模チームです。私たちの研究に興味を持っていただける方は、[email protected] までご連絡ください。


謝辞:Mohit Agarwal、Carlo Agostinelli、Robert Avery、Cheru Berhanu、Trevor Chow、Luke Drago、Ryan Kaufman、Rudolf Laine、Jinglin Li、Lexi Mattick、Ulisse Mini、Rio Popper、Jannik Schilling、Armando Shashoua、Aidan Smith、Koko Xsu、および Sally Zhu に感謝します。

同じ日のほかのニュース

一覧に戻る →

2026/02/26 5:16

ジミ・ヘンドリックスはシステムズエンジニアでした。

## Japanese Translation: ## Summary: この記事は、ジミ・ヘンドリックスを実質的にシステムエンジニアとして描き、彼が1967年の象徴的な「Purple Haze」のサウンドをペダルとアンプからなる意図的に設計された信号チェーンで作り出したことを論じています。Fuzz Face、Octavia(オクターブ倍増)、wah‑wah、Marshall amp、そして後のUni‑Vibeがどのように連携し、オクターブ倍増、バンドパスフィルタリング、位相シフト、および持続的なフィードバックを生成したかを説明しています。これらは単なる音楽的選択ではなく、設計されたサウンド挙動であると述べています。詳細な回路図を入手し、各ペダルをngspiceの回路シミュレータでモデル化することで、著者はPythonスクリプトを用いてオリジナル録音の非線形ダイナミクスを再現しました。本稿は、1967年2月3日にロンドンのOlympic Studiosで録音された歴史的背景を示し、ヘンドリックスがギターを静的なノブではなく身体運動によって操作するモジュラーアナログシステムとして扱ったことを強調しています。GitHubに公開されているさらなるシミュレーションコードは、他の音楽家がこれらのテクニックを再現または拡張できるようにし、パフォーマンスと回路設計を融合した新しいペダルデザインへのインスピレーションとなる可能性があります。このアプローチは、ギタリスト、プロデューサー、およびメーカーがより体系的なトーン形成方法を採用し、機材をエンジニアリングされたシステムとして捉えるよう促すでしょう。 ## Summary Skeleton **テキストの主な伝えたいこと(メインメッセージ)** この記事はジミ・ヘンドリックスをシステムエンジニアと描き、彼が1967年に「Purple Haze」をレコーディングした際に、ペダルとアンプからなる意図的に設計された信号チェーンを用いて表現力豊かなサウンド効果を生み出したことを示しています。 **証拠/根拠(なぜそう言われるのか)** - ヘンドリックスのチェーン――Fuzz Face、Octavia、wah‑wah、Marshall amp、後にUni‑Vibe――は、オクターブ倍増、バンドパスフィルタリング、位相シフト、および持続的なフィードバックを導入するカスタムハードウェアから構成されていました。 - 著者は詳細な回路図を取得し、ngspiceで各ペダルをモデル化し、Pythonスクリプトで連鎖したシミュレーションを行うことで、録音に観測された非線形挙動を再現しました。 **関連事例/背景(文脈・過去の出来事・周辺情報)** - 「Purple Haze」は1967年2月3日にロンドンのOlympic StudiosでRoger MayerのOctaviaペダルとともに録音されました。 - ヘンドリックスのアプローチは、ギターを静的なコントロールではなく身体運動によって操作するモジュラーアナログシステムとして扱いました。 - 本稿は2026年3月に印刷で掲載され、「Jimi Hendrix, Systems Engineer」というタイトルで、彼の音楽的革新と工学原理を結びつけています。 **今後起こりうること(将来の展開/予測)** - さらに進められたシミュレーション作業とコード(GitHubで公開)は、他のミュージシャンやエンジニアがヘンドリックスの信号処理テクニックを再現または拡張できるようにする可能性があります。 - この枠組みは、現代のアーティストが自らの機材をエンジニアリングされたシステムとして扱い、ヘンドリックスの手法に触発されて新しいペダルデザインを生み出すきっかけになるかもしれません。 **この影響が及ぼすもの(ユーザー/企業/業界)** - ギタリストやプロデューサーは、トーン形成により体系的なアプローチを採用し、身体運動コントロールを機材に組み込む可能性があります。 - ペダルメーカーは、文書化された回路図を参照してヘンドリックスの効果を模倣または改良した新モデルを開発できるでしょう。 - 音楽とエンジニアリングコミュニティは、パフォーマンス芸術と回路設計を融合させた具体的なケーススタディとして、この研究を活用できます。

2026/02/26 8:02

「最初のウェブサイト」

## Japanese Translation: 「オリジナルの要約は明確で包括的であり、主要なポイントを正確に反映しています。修正は必要ありません。」

2026/02/26 5:29

CLI で MCP を低価格化する方法

## Japanese Translation: ## Summary コマンドラインインターフェース(CLI)ツールは、マルチチャネルプログラム(MCP)エージェントと比較してトークン消費を劇的に削減します。セッション開始時には、CLI は約 300 トークンしか必要とせず、MCP はおよそ 15,500 トークンが必要です。各ツール呼び出しは、CLI で約 910 トークンかかり、MCP では 15,600 トークンになるため、90〜98 % の節約が得られます。10 個または 100 個のツールにスケーリングしても、節約率は高く(≈94 %と 92 %)維持されます。Anthropic の Tool Search はより大きなオーバーヘッドを伴い、検索インデックスをロードするだけで約 500 トークンが必要になり、要求時に完全な JSON スキーマを取得すると1回あたり約 3,530 トークンがかかります。これは CLI コストよりもはるかに高くなります。CLIHub はエージェント用の CLI ディレクトリと、MCP 定義を CLI 対応形式に変換するオープンソースコンバータを提供しています。これらの調査結果は、既存ツールを CLI 形式に移行または変換することでトークン使用量を大幅に削減し、API コストを低減し、レスポンス速度を向上させることができることを示唆しています。

「完全一般化されたコンピュータ行動モデル(First Fully General Computer Action Model)」 | そっか~ニュース