Japanese Translation:

以下の改善されたサマリーは、すべての主要なキーポイントを網羅しつつ明瞭さを維持しています：

ロボット工学チームは、スケーリング則を活用するエンドツーエンドモデルの導入を急速に進めていますが、その進捗は未熟なデータインフラストラクチャと評価手法の困難さに阻害されています。最も重要な教訓は、データの選別がアルゴリズムの微調整よりも優れているという点です：1,200エピソードの選択的収集（キュレーション）は成功률を 50 パーセントポイント改善し、アルゴリズム変更のみによる 5〜20% の改善と比べて優れています。一方、選別されていないシミュレーションデータはトレーニングミックスを支配するリスクがあり、シムトゥリアルギャップの閉鎖に失敗します。評価はロボットにとって本質的に困難であり、しばしば現実世界のトライアルを数時間から数日必要とし、高速なコードイテレーションとは対照的です。その結果、チームは深層評価が大規模には非現実的であるため、報酬モデルや 3D 再構築の品質などの代理指標に依存しています。エンジニアリングの摩擦もまた、バッチ内で複数の関節や複数のカメラを時間同期させる必要がある複雑なパイプラインから生じます。デルタフレームのデコードは前のキーフレームを読むことを必要とし、データローダーが特定の時間窓に必要な列のみを取得できない場合、GPU スターベーションを引き起こす可能性があります。さらに、グループオファピクチャ（GOP）構造を用いたビデオ圧縮は取得を複雑化します；LeRobot は無作為アクセスを優先するため GOP を 2 にデフォルト設定しています。これらの問題は、複数のデータ形式（ビデオログ、関節状態など）およびカスタム変換ビルダーを関与するパイプラインにおいて増幅され、デバッグ時間を増加させます。これらの課題に対処するため、チームはデータアクセスを統合し、別々の ETL システムの必要性を排除するレイクハウスアーキテクチャを採用しています。これにより、収集、保存、モデリング、アクセスのすべての段階にわたる「データ層の税」を削減することを目指しています。このシフトは堅牢なトレーニング効率を促進し、過度なデバッグコストなしで高度なロボティクスをスケールさせ、早期データセットで見られた高い失敗率（例えば DROID データセットにおいて QoQ ペーパーによるとサンプルされたペンと鉛筆の軌道の 33.5% が outright の失敗であった）を回避します。

物理 AI（ロボティクス）における「データレイヤー税」の克服：インフラ改革の重要性

スケーリング法則がロボティクスにも適用され始め、従来の常識を超えた能力の開拓を可能にしています。しかし、データの収集から訓練までの工程には莫大な摩擦が存在し、これを取り除くことが業界の成長への鍵となります。

問題の本質：「データレイヤー税」とは？

ロボット学習の開発において、データ処理にかかる非効率なコストを私たちは**「データレイヤー税」**と呼びます。

定義: データの収集、評価、保存、モデリング、アクセスにおいて、本来必要な以上の困難さと時間的遅延が発生すること。
影響:
- 反復速度の低下
- エンジニアリングへの集中力の分散
- GPU 利用率の悪化
解決策: この税を減らすことは、市場拡大と技術進化の重要なレバレッジとなります。

データレイヤーは保存・モデリング・アクセスを担当しますが、物理 AI 分野では未成熟です。以下に、評価から収集へ逆方向にたどることで明らかになる課題と、要件が上流に与える波及効果を解説します。

1. 評価（Evaluation）の難問

大規模言語モデル（LLM）チームは迅速な進歩を実現するために大規模な「評価」を行いますが、ロボット動作の評価ははるかに困難です。

時間的コスト:
- LLM チームは数分で反復可能だが、ロボティクスでは実際のトライアルと慎重な設計を要し、数時間から数日かかります。
- 広範で再現可能かつ高速な評価を行えることは現実的ではありません。
評価指標の限界:
- チームはデータ品質を直接スコアリングするプロキシ指標に頼らざるを得ません（リワードモデル、3D 再構築品質、ジビネス推定など）。
- これらは単一のサンプルの評価にはなりますが、より良いポリシーが生み出されるかの保証にはなりません。
調査と追跡の非効率:
- ロールアウトのレビューや詳細な調査は、不接続したツール間での手作業（「探偵的な作業」）が必要です。
- 評価結果から問題を引き起こす訓練データまで追跡することが困難です。
摩擦の結果:
- 反復時間の遅延と、洞察に基づいたフィードバック回路の欠如が、技術進歩を阻害します。

2. サンプル構築と動画圧縮の課題

ロボット動作学習は時間次元を含むため、データレイヤーの複雑性が激増します。主な要因は以下の 2 つです。

データセットのサンプリングと組み合わせ

高価な GPU の利用効率を最大化するため、研究者たちは慎重にデータをサンプリングし、複数のデータセットを組み合わせて使用します。

同期の難しさ:
- 複数のカメラストリーム（例：ヒューマンオイドでは 3 つ）、関節ログ、言語指令などを時間同期させる必要があります。
- これはバグが発生しやすい箇所であり、効率的なデータローダーが必要となります。
アーキテクチャ依存:
- VLA モデル: 現在のフレームと未来のアクション（例：50～100 ステップ先）を構成します。単純な行指向フェッチは不要なデータをダウンロードさせ、GPU の飢餓（starvation）を引き起こします。
- ディフューズポリシー: 2 つの観測フレームを入力し、16 ステップ先の未来を予測します。
- 世界動作モデル（WAM）：等間隔の連続フレームシーケンス全体を読み込みます。

動画圧縮（GOP）とのトレードオフ

動画はデータセットサイズの90% 以上を占めます。画像を圧縮保存しますが、**グループ・オブ・ピクチャ（GOP）**構造を採用したコーデックではランダムアクセスが困難です。

GOP の仕組み:
- キーフレーム（I フレーム）から始まり、以降のフレームは変化量のみを記録するデルタフレーム（P フレーム）となります。
復号化のコスト:
- GOP 内の任意のフレームを復号化するには、直近のキーフレームからの全フレームを読み取る必要があります。
- 例：GOP が 30 フレームの場合、1 つのフレームへのランダムアクセスは平均15 フレームの復号化が必要です。
設計上のジレンマ:
- 大きな GOP: 高圧縮だが、ランダムアクセスが遅い。
- 小さな GOP: 高速アクセスだが、ストレージ効率が悪く GPU が飢餓しやすくなる。
- LeRobot はランダムアクセスを優先して GOP を小さく設定していますが、これにより潜在的な圧縮性能を犠牲にしています。

非均等な履歴への対応

複数のカメラと異なる時間間隔を持つポリシー（例：現在・直前・0.5 秒前）では、復号化の計算量が増大します。

処理負荷: 3 つのカメラ × 4 つの履歴フレーム＝サンプルあたり12 フレームの復号化が必要に。
バグリスク: サンプリングパターンが複雑になるほど、別エピソードのアクションを誤って読み込んでしまうリスクが高まります。

3. データセット組成とシミュレーションの活用

データセットの選び方や混合比率は、モデルパフォーマンスに決定的な影響を与えます。

データ組成の重要性:
- Physical Intelligence の pi0 など、タスク・ロボット組み合わせごとの超過表現化を防ぐための適切な重み付けが不可欠です。
- コール 2024 ベストペーパー研究表明：「基準数のデモ後にタスクの多様性を追加する」ことが、「単にデモ数を増やす」ことよりもはるかに重要。
シミュレーションと現実のギャップ:
- シミュデータは安価ですが、リアルへの転移には適した比率の実験が必要です。
- ロスカーブなどの指標が早期に混合の適切さを検証する信号を与えますが、柔軟性のないローラーでは新しいミックスを試すオーバーヘッド（再エクスポート、結合など）が発生します。

理想的な状態: データセット混合を「クエリ」で表し、パラメータ変更だけで即座に試せるようにすること。

4. 注釈と事後処理による強化（データ収集の進化）

テレオパティデータの基本的な処理は modest ですが、エンドツーエンドモデルへの移行に伴い複雑性が「データパイプライン」へとシフトしています。

人間のデモデータの再利用:
- Sunday Robotics や Generalist AI などは、人間がグripper を着用して高速にデモを収集します。
- しかし、これを訓練用に変換するには以下の処理が必要です。
  - SLAM による 3D グripper ポーズの抽出
  - 人間の運動からロボットの運動学へリターゲット化
  - 空間的一貫性の検証
- Generalist AI はこのパイプラインに10K コア以上の CPUを消費しています。
視覚データからの派生:
- ヘッドマウントカメラ映像は、視点の異なる「ロボット視点」へマッピングする必要があります（Meta の HOT3D など）。
生成型 3D 再構築:
- Tesla は生成型ガウススプラッティングを使用して、複数カメラビューから完全な 3D シーンを再構築し、実世界記録の合成バリエーションを作成しています。

結論: エンドツーエンド学習がロボット本体から複雑性を除去しましたが、それはデータパイプラインへの負荷として戻ってきています。マルチレート・マルチモーダルデータをネイティブに扱えない場合、管理とデバッグは急速に複雑化します。

5. 記録、取り込み、正規化の課題

すべてのロボットや収集環境が異なるため、共通のフォーマットがない限りシステム間は連携できません。

スキーマの不安定性:
- 新しいセンサー追加、関節ネーミング変更、ソフトウェア更新により、記録形式は頻繁に変化します。
- 6 ヶ月前に収集されたデータと今日のデータが統合可能であることが求められます。
コンバーターの不足:
- Open X-Embodiment では60 以上のカスタムコンバーターが必要でした。
- DROID などの大規模データセットをフォーマット間で変換するには数日かかります。
アナリティクスと ML の二重化:
- データレイク（オープンだが構造なし）とデータウェアハウス（高速だがプロプライエタリな形式）を両方使い、ETL で繋いでいるチームが多いです。
- これにより壊れやすいパイプラインが生まれ、デバッグが困難になります。
レイトハウス・アーキテクチャの理想:
- オブジェクトストレージ上にオープンなファイル形式を保存し、トップ層に構造化メタデータ（トランザクション、スキーマ強制）を追加することで、BI・アナリティクス・ML が単一コピーからアクセスできるようにする。

摩擦による非生産的な活動:

データセットミックスを試すために全データを再エクスポートしている。
クエリ不可能なデータのため、高度なキュレーション手法が適用できない。
訓練中に検出されるバグの源泉が、記録時のフォーマット不一致にある場合でも追跡が困難。

まとめ：勝者チームは「ループ」を速く回す

ロボット学習では記録 → 分析 → 訓練 → 展開というループを閉じて適応可能で信頼できるモデルを構築します。

現状の問題: データレイヤーが未成熟のため、このループには「重税」が発生しています。
- エンジニアリング時間の浪費（フォーマット変換、カスタムローラーの構築）
- 機会損失（試せない実験、遅い反復）
理想の姿:
- データレイヤーがマルチレートかつマルチモーダルデータをネイティブにモデル化。
- システム間を接続した共通フォーマットで、柔軟なデータクエリングと可視化を提供。
- パイプライン自体が脆弱ではなく、変化に対応しうる構成。

Rerun は、この「データレイヤー税」の解消に向けて必要な部品を第一原理から構築しています。問題意識がある方はお問い合わせください。

ロボティクスチームがデータスタックを一から再構築している