Japanese Translation:

Google から、テーブルデータの分類および回帰向けの基礎モデルである TabFM が発表されました。本モデルは、ゼロショットインコンテキストラーニング（ICL）を採用し、手動でのハイパーパラメータ最適化や特徴量エンジニアリングの必要性を排除します。AdaBoost や XGBoost といった従来の教師ありモデルとは異なり、TabFM は行列とカラム注意、行圧縮、および専用の Transformer を備えたアーキテクチャを通じて、複雑な特徴量相互作用をネイティブに捉えます。高品質な産業データの不足に対処するために、本モデルは構造的因果モデルを用いて生成された数億の合成データセット entirety でトレーニングされています。

TabArena ベンチマーク（38 の分類データセットおよび 13 の回帰データセットをカバー）における性能評価では、頭脳対戦勝率に基づいた Elo スコアを用いると、TabFM は大規模にチューニングされた業界標準を一貫して上回ることが示されています。本プロジェクトは 2 つの構成を提供します：調整なしで使用可能なベース「TabFM」モデルと、「TabFM-Ensemble」変種です。後者はクロス特徴量、SVD 特徴量、32 重アンサンブル、および校准のための Platt スケーリングを統合しています。完全なベンチマーク結果とコードベースは GitHub および Hugging Face で利用可能です。今後近いうちに、TabFM は

AI.PREDICT

テーブルデータのための「ゼロショット」予測を実現する TabFM

背景と革新

タイムズ FM の公開以来、時系列予測のアプローチは劇的に変化してきました。この「ゼロショット」の論理をテーブルデータにも拡張するのが今回の目的です。そのために、分類および回帰ワークフローを簡素化する新たな基礎モデル**「TabFM」**を導入します。

テーブルデータの課題と現状

重要性: テーブルデータは企業基盤データの中核であり、顧客離脱予測や金融詐欺検知など多数の重要アプリケーションの原動力です。
従来手法の限界: アドアブーストや XGBoost などの樹形アルゴリズムが長年支配していましたが、以下のような重大なボトルネックがありました。
- 新しいデータセットへの適合は単なる
```
.fit()
```
  操作だけで終わらず、手間のかかる手作業が必要です。
- データサイエンティストは信頼できるシグナル抽出に多くの時間を費やし、大規模な超パラメータ最適化やドメイン固有の特徴量エンジニアリングを行わざるを得ません。

「ゼロショット」アプローチの可能性

LLM の進化: 大規模言語モデル（LLM）による文脈内学習（ICL: In-Context Learning）は、モデルの重みを更新せず、例題と指示を入力コンテキストに提供することで新たなタスクを習得することを可能にしました。
TabFM の価値: ICL をテーブル予測に応用し、以下の必要性を取り除くことで、ユーザーが新しいテーブルに対して単一の順伝播（forward pass）だけで高品質な予測値を生成できます。
- 手動によるモデル学習の排除
- 超パラメータチューニングの不要化
- 複雑な特徴量エンジニアリングからの解放

リポジトリ公開

TabFM は既に、当社の Hugging Face リポジトリ と GitHub リポジトリ で利用可能です。

動作原理：TabFM のアーキテクチャ

従来の機械学習は各データセットごとにモデルパラメータを更新しますが、TabFM は ICL パラダイムによりそれを回避します。歴史的な訓練例とターゲットとなるテスト行を備えた全体データセットを単一の統合されたプロンプトとして扱い、推論段階で直接列と行の関係性を解釈します。

自然言語の順序性に対し、テーブルデータの 2 次元無秩序構造（行や列の順序交換は意味を変えない）を処理するために、以下の 3 つの主要メカニズムを統合したハイブリッド設計を採用しています。

行と列での交互アテンション
- TabPFN と同様に、多重層アテンションモジュールを通じて生のテーブルを処理します。
- 列（特徴量）と行（例）の両方について交互にアテンションを適用します。
- これによりモデルは複雑な特徴間相互作用および依存関係を本来的に捉え、深い文脈化を獲得します。
- この手法は、データサイエンティストが手動で行う特徴量構築の重たい作業を効果的に代替します。
行圧縮
- 行ごとの横方向アテンション情報を、単一の密集ベクトル表現に圧縮します。
文脈内学習（ICL）による効率化
- TabICL の効率的なアプローチを採用し、専用 Transformer が圧縮された行ベクトルのシーケンス上でアテンションを遂行します。
- 生の未圧縮グリッドではなく圧縮データで処理するため、計算コストを大幅に削減できます。
- データセットが拡大しても予測ステップの計算効率は維持されます。

大規模な合成データを基にした訓練

基礎モデル構築には通常、多様な膨大なデータでの高容量ニューラルネットワーク訓練が必要ですが、高品質で多様なテーブルデータセット（特に産業用巨大テーブル）はオープンソース空間において極めて乏しいです。

なぜ合成データなのか？

産業用テーブルには独家的スキームや機密情報が含まれ、事前訓練への利用が制限されます。
テーブル型機械学習における最大の足かせを克服するため、任意に大きく生成できる合成テーブルが唯一の実用的な選択肢となります。

訓練プロセス

TabFM は、数百億以上の合成データセットを完全に用いて訓練されています。
これらは、多種多様なランダム関数を組み込んだ**構造的因果モデル（SCM: Structural Causal Models）**を用いて動的に生成されます。
このアプローチにより、実世界のテーブルデータに含まれる広範な分布と複雑な特徴間関係が捉えられています。
その結果、未観測の実世界テーブルに対して良好な汎化性能を発揮します。

パフォーマンスとベンチマキング

TabFM は、既存の最良（state-of-the-art）手法との厳密な比較のため、Elo スコアに基づき対戦勝率を計算する TabArena というライブベンチマークシステム上で評価されました。

評価対象: サンプル数 700〜15 万にわたる 38 の分類データセットと 13 の回帰データセット。
2 つのモデル構成:
1. TabFM（標準機能）
  - オブ・ザ・ボックス（out-of-the-box）能力。
  - 予測は単一の順伝播で生成され、チューニングや交叉検証は不要。
2. TabFM-Ensemble（高パフォーマンス版）
  - クロス特徴量および SVD（特異値分解）特徴量を組み込み、パフォーマンスをさらに向上。
  - 32 重アンサンブルの最適重みは非負最小二乗ソルバーで計算。
  - 分類タスクではプラットスケールによる追加のカリブレーションステップも適用。

詳細なフォルド別メトリクスやベースライン対戦勝率は、当社の GitHub ページをご覧ください。

結論：开箱即用的なテーブル機械学習

本質的な捉え込み: ハイブリッドアテンションアーキテクチャと大規模合成訓練データを組み合わせ、複雑な特徴間相互作用を本来的に捉えることに成功しました。
ボトルネックの排除:
- 伝統的な手動特徴量エンジニアリングからの解放
- 超パラメータ最適化の不要化
- 反復的なモデル学習の排除
圧倒的性能: 高度にチューニングされた産業標準の教師ありアルゴリズムを一貫して凌駕する性能を発揮します。
実用性の向上: 基礎モデルの「開箱即用（out-of-the-box）」利便性を直接テーブル型機械学習ワークフローへ持ち込み、実務家が単一の順伝播で極めて正確な予測を生成できます。

BigQuery 統合によるアクセシビリティ向上

TabFM は Google BigQuery に統合されています。
今後数週間で、ユーザーは ML 専門知識がなくても、BigQuery の単純な
```
AI.PREDICT
```
SQL コマンドを使用して高度な回帰および分類を実行できるようになります。

謝辞

本プロジェクトは以下の皆様との共同作業で進められました。

Erez Louidor Ilan, Taman Narayan, Shuxin Nie, Rajat Sen, Yichen Zhou, Joe Toth, Deqing Fu および Samet Oymak 氏へ感謝します。
グラフィックのデザインにご尽力いただいた Kimberly Schwede 氏にも心より感謝申し上げます。

TabFM: 構造化データのゼロショット基礎モデル