TabFM: 構造化データのゼロショット基礎モデル

2026/07/01 7:08

TabFM: 構造化データのゼロショット基礎モデル

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Google から、テーブルデータの分類および回帰向けの基礎モデルである TabFM が発表されました。本モデルは、ゼロショットインコンテキストラーニング(ICL)を採用し、手動でのハイパーパラメータ最適化や特徴量エンジニアリングの必要性を排除します。AdaBoost や XGBoost といった従来の教師ありモデルとは異なり、TabFM は行列とカラム注意、行圧縮、および専用の Transformer を備えたアーキテクチャを通じて、複雑な特徴量相互作用をネイティブに捉えます。高品質な産業データの不足に対処するために、本モデルは構造的因果モデルを用いて生成された数億の合成データセット entirety でトレーニングされています。

TabArena ベンチマーク(38 の分類データセットおよび 13 の回帰データセットをカバー)における性能評価では、頭脳対戦勝率に基づいた Elo スコアを用いると、TabFM は大規模にチューニングされた業界標準を一貫して上回ることが示されています。本プロジェクトは 2 つの構成を提供します:調整なしで使用可能なベース「TabFM」モデルと、「TabFM-Ensemble」変種です。後者はクロス特徴量、SVD 特徴量、32 重アンサンブル、および校准のための Platt スケーリングを統合しています。完全なベンチマーク結果とコードベースは GitHub および Hugging Face で利用可能です。今後近いうちに、TabFM は

AI.PREDICT
SQL コマンドという単純な方法を通じて Google BigQuery に直接統合され、専門的な機械学習知識を持たない実務者でも、見えないテーブルで高品質な予測を生成できるようになります。

本文

テーブルデータのための「ゼロショット」予測を実現する TabFM

背景と革新

タイムズ FM の公開以来、時系列予測のアプローチは劇的に変化してきました。この「ゼロショット」の論理をテーブルデータにも拡張するのが今回の目的です。そのために、分類および回帰ワークフローを簡素化する新たな基礎モデル**「TabFM」**を導入します。

テーブルデータの課題と現状

  • 重要性: テーブルデータは企業基盤データの中核であり、顧客離脱予測や金融詐欺検知など多数の重要アプリケーションの原動力です。
  • 従来手法の限界: アドアブーストや XGBoost などの樹形アルゴリズムが長年支配していましたが、以下のような重大なボトルネックがありました。
    • 新しいデータセットへの適合は単なる
      .fit()
      操作だけで終わらず、手間のかかる手作業が必要です。
    • データサイエンティストは信頼できるシグナル抽出に多くの時間を費やし、大規模な超パラメータ最適化やドメイン固有の特徴量エンジニアリングを行わざるを得ません。

「ゼロショット」アプローチの可能性

  • LLM の進化: 大規模言語モデル(LLM)による文脈内学習(ICL: In-Context Learning)は、モデルの重みを更新せず、例題と指示を入力コンテキストに提供することで新たなタスクを習得することを可能にしました。
  • TabFM の価値: ICL をテーブル予測に応用し、以下の必要性を取り除くことで、ユーザーが新しいテーブルに対して単一の順伝播(forward pass)だけで高品質な予測値を生成できます。
    • 手動によるモデル学習の排除
    • 超パラメータチューニングの不要化
    • 複雑な特徴量エンジニアリングからの解放

リポジトリ公開

  • TabFM は既に、当社の Hugging Face リポジトリGitHub リポジトリ で利用可能です。

動作原理:TabFM のアーキテクチャ

従来の機械学習は各データセットごとにモデルパラメータを更新しますが、TabFM は ICL パラダイムによりそれを回避します。歴史的な訓練例とターゲットとなるテスト行を備えた全体データセットを単一の統合されたプロンプトとして扱い、推論段階で直接列と行の関係性を解釈します。

自然言語の順序性に対し、テーブルデータの 2 次元無秩序構造(行や列の順序交換は意味を変えない)を処理するために、以下の 3 つの主要メカニズムを統合したハイブリッド設計を採用しています。

  • 行と列での交互アテンション

    • TabPFN と同様に、多重層アテンションモジュールを通じて生のテーブルを処理します。
    • 列(特徴量)と行(例)の両方について交互にアテンションを適用します。
    • これによりモデルは複雑な特徴間相互作用および依存関係を本来的に捉え、深い文脈化を獲得します。
    • この手法は、データサイエンティストが手動で行う特徴量構築の重たい作業を効果的に代替します。
  • 行圧縮

    • 行ごとの横方向アテンション情報を、単一の密集ベクトル表現に圧縮します。
  • 文脈内学習(ICL)による効率化

    • TabICL の効率的なアプローチを採用し、専用 Transformer が圧縮された行ベクトルのシーケンス上でアテンションを遂行します。
    • 生の未圧縮グリッドではなく圧縮データで処理するため、計算コストを大幅に削減できます。
    • データセットが拡大しても予測ステップの計算効率は維持されます。

大規模な合成データを基にした訓練

基礎モデル構築には通常、多様な膨大なデータでの高容量ニューラルネットワーク訓練が必要ですが、高品質で多様なテーブルデータセット(特に産業用巨大テーブル)はオープンソース空間において極めて乏しいです。

なぜ合成データなのか?

  • 産業用テーブルには独家的スキームや機密情報が含まれ、事前訓練への利用が制限されます。
  • テーブル型機械学習における最大の足かせを克服するため、任意に大きく生成できる合成テーブルが唯一の実用的な選択肢となります。

訓練プロセス

  • TabFM は、数百億以上の合成データセットを完全に用いて訓練されています。
  • これらは、多種多様なランダム関数を組み込んだ**構造的因果モデル(SCM: Structural Causal Models)**を用いて動的に生成されます。
  • このアプローチにより、実世界のテーブルデータに含まれる広範な分布と複雑な特徴間関係が捉えられています。
  • その結果、未観測の実世界テーブルに対して良好な汎化性能を発揮します。

パフォーマンスとベンチマキング

TabFM は、既存の最良(state-of-the-art)手法との厳密な比較のため、Elo スコアに基づき対戦勝率を計算する TabArena というライブベンチマークシステム上で評価されました。

  • 評価対象: サンプル数 700〜15 万にわたる 38 の分類データセットと 13 の回帰データセット。
  • 2 つのモデル構成:
    1. TabFM(標準機能)
      • オブ・ザ・ボックス(out-of-the-box)能力。
      • 予測は単一の順伝播で生成され、チューニングや交叉検証は不要。
    2. TabFM-Ensemble(高パフォーマンス版)
      • クロス特徴量および SVD(特異値分解)特徴量を組み込み、パフォーマンスをさらに向上。
      • 32 重アンサンブルの最適重みは非負最小二乗ソルバーで計算。
      • 分類タスクではプラットスケールによる追加のカリブレーションステップも適用。

詳細なフォルド別メトリクスやベースライン対戦勝率は、当社の GitHub ページをご覧ください。


結論:开箱即用的なテーブル機械学習

  • 本質的な捉え込み: ハイブリッドアテンションアーキテクチャと大規模合成訓練データを組み合わせ、複雑な特徴間相互作用を本来的に捉えることに成功しました。
  • ボトルネックの排除:
    • 伝統的な手動特徴量エンジニアリングからの解放
    • 超パラメータ最適化の不要化
    • 反復的なモデル学習の排除
  • 圧倒的性能: 高度にチューニングされた産業標準の教師ありアルゴリズムを一貫して凌駕する性能を発揮します。
  • 実用性の向上: 基礎モデルの「開箱即用(out-of-the-box)」利便性を直接テーブル型機械学習ワークフローへ持ち込み、実務家が単一の順伝播で極めて正確な予測を生成できます。

BigQuery 統合によるアクセシビリティ向上

  • TabFM は Google BigQuery に統合されています。
  • 今後数週間で、ユーザーは ML 専門知識がなくても、BigQuery の単純な
    AI.PREDICT
    SQL コマンドを使用して高度な回帰および分類を実行できるようになります。

謝辞

本プロジェクトは以下の皆様との共同作業で進められました。

  • Erez Louidor Ilan, Taman Narayan, Shuxin Nie, Rajat Sen, Yichen Zhou, Joe Toth, Deqing Fu および Samet Oymak 氏へ感謝します。
  • グラフィックのデザインにご尽力いただいた Kimberly Schwede 氏にも心より感謝申し上げます。

同じ日のほかのニュース

一覧に戻る →

2026/07/01 2:59

Claude Sonnet 5

## Japanese Translation: Claude Sonnet 5 は、プレミアム向けの Opus モデルに限定されていた高度な自律型機能を大幅に安価な価格で提供することで、AI のアクセシビリティにおいて大きな転換をもたらしました。これにより、性能格差は縮小しつつも、厳格な安全基準を維持しています。低廉なコストにもかかわらず、評価結果ではリスクのある行動が少ないことが示されており、Agent 型コンテキストにおいては Sonnet 4.6 よりも安全性が高く、開発などの危険なサイバーセキュリティタスクを実行する能力が限定的であるためデフォルトでサイバー防御機能が有効化されています。技術的な向上点には、初期コストを上げることなく処理効率を改善する新しいトークナイザーが含まれており、同じ入力が 1.0–1.35 倍多くのマッピングされたトークンに対応しますが、導入価格(入力/出力トークンあたり 2 ドル/10 ドル)を設定することでこの移行をほぼ費用対中立とします。2026 年 8 月 31 日以降には、標準的な価格(入力/出力トークンあたり 3 ドル/15 ドル)が適用されます。本モデルは、ブラウンフィールドコードの保守、多段階のソフトウェアエンジニアリング、法務調査など複雑なワークフローにおいて卓越したパフォーマンスを発揮します。チャット、Cowork、Claude Code、プラットフォーム全体におけるレート制限を引き上げることで、高度なエフォートレベルに伴う高いトークン利用量を対応可能です。最近のベンチマークスコアの見直しは、実際の品質低下を意味するものではなく、評価方法の更新によるものです。例えば、「コスト対性能チャート」の更新(変更ログ:2026 年 6 月 30 日)や、「Humanity's Last Exam」と OSWorld-Verified 評価におけるスコアの再計算は、標準的な手法を用いた実世界でのパフォーマンスをより正確に反映しています。Sonnet 5 は、無料プランからエンタープライズまでのすべてのサブスクリプションレベルで最適なデフォルト選択となり、広くユーザー層の即時かつ安全な導入を可能にします。

2026/07/01 0:44

Claude Code がリクエストに対してステガノグラフィーを用いて暗記している

## Japanese Translation: 地元の Claude Code バージョン 2.1.196 の最近の検査により、特定の条件下でシステムがデベロッパーのプロンプトに暗黙的に隠しデータを注入するセキュリティ慣行が発見されました。これは透明性の高い対策ではなく裏口を介したシグナルに依存することで信頼性を損ない、`ANTHROPIC_BASE_URL` が設定されており、かつシステムの時-zone が中国と一致するか、または特定の API ホスト名が検出された場合にのみコードがトリガーされます。これらの条件下で、プロンプトの句読点を改変—具体的には "Today's" のアポストロフィを、および日付の区切り文字を一括線からスラッシュに変更する—with 見えないユニコードマーカーを埋め込む。さらに、バインaries 内に base64 文字列として保存されたドメインおよびキーワードリスト(「DeepSeek」や「Zhipu」などの用語を含む)は XOR でデコードされ、潜在的な API リセラーまたはモデル蒸留攻撃を検出します。後端の脅威(無権限のプロキシなど)をブロックすることを意図されていますが、この論理はカスタムセットアップを使用する正当な開発者を懲罰し、AI に送信されるコンテキストに検出データを直接エンコードします。幸運にも、これらの特定の設定がないユーザーは変更を見ませんが、トリガー条件を満たす者はパッチが適用されるまで改変されたプロンプトを受けます。著者は、プロンプトの句読点にシグナルを隠すことは開発者の信頼を侵害し、セキュリティには明示的なポリシーに依存すべきだと主張しています。この機能をバイパスするのは、ホスト名の修正、時-zone の調整、またはバインりパッチ適用によって容易であると考えられています。

2026/07/01 6:29

脳波から単語へ:手術を必要としない新たなコミュニケーションの道筋

## Japanese Translation: 研究者らが、非侵襲的脳記録からリアルタイムでテキストへの変換を行えるエンドツーエンドの AI パイプライン「Brain2Qwerty v2」を公開しました。本システムは、磁気共鳴法(MEG)を用いて 10 時間にわたって 9 名の被験者から記録された約 2 万 2,000 の文を学習データとし、生信号に対してエンドツーエンドの深層学習を適用するとともに、ノイズの多い神経入力を活用するため到大規模言語モデルを微調整しています。一般化単語精度は 61% に達しており、これにより他の非侵襲的手法で一般的であった約 8% より著しく改善されました。最適な条件下では個人ごとの性能は最大 78% に向上し、すべての文の半分以上が 1 つ以下の子音エラーで復号化されました。パフォーマンスはデータ量に対して対数線形に拡張するため、規模拡大だけでもさらなる進歩が可能であることが示唆されます。v1 および v2 の完全な学習コードは、パートナー組織である BCBL よりも提供された v1 データセットとともに公開され、AI エージェントがパイプラインの最適化を支援し、最終的な構成はエンジニアによって手動で選択されました。この研究成果は、500 万ドル規模のデジタル・ブレイン・プロジェクトの一環として、Tribev2(知覚)、NeuralSet(拡張処理)、NeuralBench(評価)などとの並行して、オープンな基礎脳のモデルを推進しています。目的は、侵襲性脳プロスタネースと非侵襲的なアクセシビリティのギャップを埋め、脳病変の影響を受けた数百万人の患者に対してより迅速な診断・治療を可能にしつつ、孤立した研究活動を超えてオープン神経科学を進めることです。