30 M トポロジカル・トランスフォーマーのゼロからの学習

2026/01/18 20:39

30 M トポロジカル・トランスフォーマーのゼロからの学習

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

(欠落していた詳細を追加)**

Tauformerは従来のドット積注意機構を、各トークン/ヘッドごとにラプラスから導出されたスカラー―taumode―で置き換えます。各ヘッドベクトルは特徴空間ラプラシアンによって制限付きレイリー商エネルギー λへ圧縮され、注意ロジットは (-|\lambda^Q_i-\lambda^K_j|/\text{temperature}) として計算されます。これにより完全な Q·K 行列を必要とせず、KV キャッシュには (V, λ_k) のみが保存されるため、レイヤーごとのキャッシュサイズが約 50 % 削減されます。

30 M パラメータの TauGPT(6 層、6 ヘッド、埋め込みサイズ 384、シーケンス長 1024、語彙数 30522)は、IterableDataset でストリームされたローカル JSONL データセットを使用して訓練されました。各 20 バッチごとに検証が行われました。訓練には AdamW(ベース LR 5×10⁻⁴、ウォームアップ 100 ステップ)を採用し、ステップ 100 でトレーニング損失 4.6772/検証損失 4.9255、ステップ 2000 で検証損失 2.3585(PPL 6.59)、そしてステップ 4500 で最高の検証損失 1.9146 を達成しました。最終ステップ 5000 では 655 360 000 トークン(約 60K TPS)がログされました。

Taumode は本実験中は固定しており、将来の実験では例えばブロック 0 の K ベクトルから算出した中央値レイリー商エネルギーに taumode を設定するなど、適応的に再校正します。これはクロスエントロピー損失が改善するときに下方へドリフトしやすい性質があります。論文では低分散 K 表現によって中央値エネルギーが低下した場合の崩壊リスクを警告し、中央値とともに分布幅(p05 / p95)の監視も重要であると強調しています。

著者らは Tauformer の決定論的スカラー圧縮を「epiplexity」に結び付け、計算コストを削減することで境界付き学習者にとって学習可能な構造が増大すると示唆しています。実験は Enverge Labs の H100 GPU クラスター(再生エネルギーで稼働)上で行われました。すべてのモデルファイル、データ、訓練設定、およびログは許容的なライセンスの下で公開されます。さらに大規模(≈100 M パラメータ)のテストも計画されています。

本文

30 Mパラメータのトポロジカル・トランスフォーマーを学習する

Tauformerは、ドットプロダクトアテンションをラプラシアンから導出したスカラー(taumode)に置き換え、そのスカラー空間で距離を用いて注意機構を行うトポロジカル・トランスフォーマーです(論文参照)。
以下では、投稿スタイルの概要と30 Mパラメータ実験から得られた最初の学習信号についてまとめます。


Tauformerの核心アイデア

Tauformerは、ドメイン埋め込み空間(「ドメインメモリ」)から構築したグラフラプラシアンを永続的な参照として用い、注意機構に直接ドメイン構造を注入することを目的としています。
キーを (Q!\cdot!K) でランク付けする代わりに、Tauformerはそれらのラプラシアン由来の taumode スカラーがどれだけ似ているかで順位付けし、ドメイン関連性の高い関係へ注意を向けるよう偏差します。

実装面では、Q/K/V の射影、RoPE、因果マスク、安定したソフトマックス/値集約パイプラインはそのままに、注意ロジットの計算方法だけを変更しています。
各ヘッドベクトルは、ラプラシアン (L) で計算される境界付きレイリー商エネルギーを用いてスカラー (\lambda) に圧縮し、次にロジットを負の距離として計算します。 [ -\frac{|\lambda_q-\lambda_k|}{\text{temperature}}. ]

実装で使われた主な構成要素

  • Taumode スカラー
    [ E_{\text{raw}}=\frac{x^\top L x}{x^\top x+\varepsilon},\qquad \lambda=\frac{E_{\text{raw}}}{E_{\text{raw}}+\tau}\in[0,1). ]
  • ロジット
    [ \text{att}_{ij} = -|\lambda^Q_i-\lambda^K_j|/\text{temperature}, ]
    その後因果マスクを再利用 → 行最大値を引く → ソフトマックス → (V) と掛け合わせる。

コスト削減の根拠

キーをフルベクトルでスコアリングする必要がなくなるため、KVキャッシュは「値 + コンパクトなキー側スカラー」だけを保持します。
すなわち、ペイロードは ((V,\lambda_k))(((K,V)) ではない)となり、典型的なヘッド寸法で約 50 % のキャッシュサイズ削減が期待できます(追加スカラーの保存オーバーヘッドはごくわずか)。

設計はまた、事前に算出したドメインマニフォールドから得た疎ラプラシアンを利用することを想定しており、(\lambda) の計算が疎行列の非ゼロ要素数(nnz)に依存できるようになっています。
これにより、重み調整の長い前処理を、短時間で完結する事前学習フェーズへ置き換えることが可能です。


実験設定(訓練対象)

  • モデル:30 Mクラス TauGPT(GPT‑2 を模した構成)

    • 層数 (n_layer):6
    • ヘッド数 (n_head):6
    • 埋め込み次元 (n_embd):384
    • シーケンス長 (seq_len):1024
    • 語彙サイズ (vocab_size):30522
  • オプティマイザ:AdamW

    • ベース学習率:(5\times10^{-4})
    • ウォームアップ:100 ステップ
    • ウォームアップ後はベース LR を一定に保ち、必要に応じて外部制御でスケールダウン
  • データ:ローカル JSONL ファイル

    train.jsonl
    を IterableDataset 風にストリーミング。

    • バッチの20回目を検証用として切り出す(約 5 %)。
  • 学習率スケジュール:ウォームアップ後は LR の減衰なし。


実験結果概観

ステップtrain_lossval_lossPPL
1004.67724.9255107.47
20002.35856.59
45001.9146
50002.3746

最終ログには以下が記録されています。

  • ステップ = 5000
  • best_val_loss = 1.914555
  • current_lr_scale = 0.03125
  • total_tokens = 655,360,000

約 2 時間でこの小型モデルを訓練し、平均 60K Tokens/秒 の速度で実行できた点は良好です。
初期フェーズでは validation が 4.93 → 約 2.36(ステップ 2000)へ急速に低下し、学習が効果的に進んでいることを示しています。しかしその後はノイズが増え、ステップ 2100 で再び 2.92 へ上昇、4200 付近では 2.95 にピーク。その後 4500 ステップで 1.91 という良い点に戻ります。
全期間を通じて taumode は固定されており、重みが変化しても注意幾何学は更新されていません。これは次回以降の実験で対処予定です。


ベースライン:まとめ

本ベースラインでは taumode を訓練全体を通じて固定し、シンプルな検証ループと plateau 触発型 LR スケーリングのみを使用しました。
早期〜中盤での収束は良好でしたが、最終フェーズで変動・回帰が見られたため、次の実験では「adaptive taumode」戦略(定期再キャリブレーション、エネルギー漂移を検出して勾配性能に応じてゲート制御)とより洗練された検証手法を導入します。

小規模モデル・短時間実験(5 000 ステップ)で得られた結果は、Tauformer アーキテクチャが有望であることを示唆しています。
今後は 100 M パラメータ規模での拡張評価を計画しています。


クロスエントロピーと taumode の相関

この実験から興味深い疑問が浮上しました:クロスエントロピー(損失)と taumode はどの程度相関しているか?
モデルが収束すれば損失は下がり、同時に学習した重みで再キャリブレーションすると taumode も低くなる傾向があります。

「converging taumode」とは

taumode は K ベクトルのラプラシアンレイリー商エネルギーを基に算出され、バッチ全体から中央値を取ってグローバルスカラーとして設定します。
実装では次式で計算されます。

[ E_{\text{raw}}(x)=\frac{x^\top L x}{x^\top x+\varepsilon},\qquad \lambda_\tau(x)=\frac{E_{\text{raw}}}{E_{\text{raw}}+\tau}, ]

これによりエネルギーは ([0,1)) にマッピングされます。

なぜ損失が改善すると taumode が下がるか

健全な解釈不健全(崩壊リスク)
訓練を進めると、K 表現はドメイン/マニフォールドラプラシアンに対して「スムーズ」になり、中央値エネルギーが下がる一方で次トークン予測も改善されます。もし taumode が再キャリブレーション時に K ベクトルが低分散・非識別的な構成へ崩壊すると、λ 距離ロジットの対比が減少し、損失は短期的には改善しても長期的には悪化します。
重要:taumode を再キャリブレーションすると、単なる「測定」ではなく途中でハイパーパラメータを変更するような効果が生じるため、損失との相関は因果性を示すものではありません。

つまり、重みが収束すると各トークンのエネルギー分布 (x^\top L x) が安定し、中央値(または 50 パーセンタイル)が低い値へシフトするという「converging taumode」は自然に起こる現象です。
確認には、固定された注意スカラーだけでなく、現在のバッチで測定した中央値や分布幅(p05/p95)も追跡し、中央値が下がっている一方で広がりが縮小していれば崩壊を疑います。

「低損失 ⇒ 低 taumode」 は Tauformer において因果的に成立する可能性があります。
クロスエントロピーの勾配は Q/K から算出されるラプラシアンエネルギーに依存し、モデルが次トークン予測を改善すると同時に Laplacian‑Rayleigh エネルギーも低くなるため、再キャリブレーションで中央値が小さくなる傾向があります。
最適停止点はまだ未解決の課題です。


参考文献

大規模学習機械による情報理解へのシフトが進んでいます!

最近の論文では、MDL(最小記述長原理)が「モデルとデータを説明する総コード長を最小化する」ことを示し、エピプレキシティ (ST(X)) を計算可能なモデル (P) のプログラム長として定義します。時間制限付き MDL から得られる期待コード長は時刻制約付きエントロピー (HT(X)) と呼ばれます。

実際的には、ニューラルネットワークの学習ダイナミクス(例:最終損失より上の「area under the loss curve」)を使った推定器が提案され、有限学習者がデータから吸収できる構造量を近似します。
この観点で、arrowspace、taumode、tau‑attention は有限学習者にとって有用な構造を増やす決定的計算です。
エピプレキシティの枠組みでは、arrowspace と Tauformer が行う「ヘッドベクトルをレイリー商スタイルで境界付けてスカラー λ に変換する」処理は情報を圧縮し、下流計算がより効率的に活用できるようにします。


謝辞

Enverge Labs がクリーンで安価な電力を供給した H100 GPU クラスターでの計算時間を提供してくださったことに感謝します。
これはトポロジカル・トランスフォーマーが Transformers の計算コストを削減するという目的と完全に合致しています。

同じ日のほかのニュース

一覧に戻る →

2026/01/19 2:40

ガウス・スプラッティング ― A$AP ロッキー「ヘリコプター」ミュージックビデオ

## Japanese Translation: ## Summary: A$AP Rocky の新しい「Helicopter」ビデオは、ライブアクション撮影におけるブレークスルーを示しています。動的ガウシアン・スプラッティング(dynamic Gaussian splatting)という手法により、カメラ映像が即座にレンダリング可能な体積データへ変換されます。56 台の RGB‑D カメラからなる大規模アレイを使用してチームは 10 TB 超の原始映像と約 30 分間の事前レンダリング済みスプラッティングコンテンツを生成しました。Houdini(シーケンス作業)、OctaneRender(ライティング調整)、Blender(レイアウト・プロキシキャッシュ)を組み合わせることで、セット上で数秒以内にショットのプレビューが可能となり、重いポストプロダクション作業に入る前に迅速なクリエイティブ判断を行うことができました。 これは A$AP Rocky の 2023 年に「Shittin’ Me」で実施した NeRF ベースの放射場(radiance fields)実験を踏襲しています。現在のワークフローは、各テイク後すぐにライブ空間フィードバックとメッシュプレビューを提供することで、動的ガウシアン・スプラッティングの最も高度な実世界利用例の一つです。この手法は、体積キャプチャがリアルなモーションを保持しながら、監督に広範なポストプロダクションの柔軟性を提供できることを示しています。 広く採用されれば、この技術はミュージックビデオ、映画、広告などを変革し、セット上のリソース削減、ワークフロー高速化、アーティストやスタジオにとっての創造的可能性拡大につながるでしょう。

2026/01/19 3:01

Flux 2 Klein 純粋 C 推論

## Japanese Translation: ドキュメントは、テキストから画像および画像から画像へのタスクの両方をサポートする純粋なC実装であるFLUX.2‑klein‑4B画像生成モデルについて説明しています。外部依存関係はC標準ライブラリのみで、HuggingFace から小さな Python スクリプト (`pip install huggingface_hub`) を介して VAE、Transformer、Qwen3‑4B エンコーダ、トークナイザを含む約16 GBの事前学習済み重みをロードします。Apple の Silicon 上では Metal Performance Shaders、Linux/Intel macOS では BLAS(OpenBLAS)によるオプションの高速化が可能で、最大約30倍の速度向上と Apple マシン上で自動的に GPU を使用します。 ライブラリは単純な C API (`flux_load_dir`、`flux_generate`、`flux_img2img` など) を公開しており、ユーザーのプロジェクトへリンクできます。サンプルコードではプログラムから画像を生成または変換する方法が示されています。またコマンドライン利用も可能で、例として `./flux -d flux-klein-model -p "prompt" -o out.png`(テキスト→画像)や `-i input.png` と `-t strength` を付けて画像→画像を実行します。オプションには幅/高さ(64–1024 px、16ピクセル単位)、ステップ数(デフォルト 4)、シード、quiet/verbose フラグが含まれます。 プロンプトのエンコード後、Qwen3‑4B エンコーダは自動的に解放され(約8 GB が解放)拡散中のピークメモリを約16 GB に抑えます。複数のプロンプトが同じエンコーダを再利用でき、再ロードは不要です。サポートされる最大解像度は 1024×1024 ピクセル、最小は 64×64 で、VAE のダウンサンプリングにより 16 の倍数に制限されています。 MIT ライセンスの下で配布されるこのパッケージは、軽量かつ依存関係がないため組み込みシステム、高性能サーバー、クロスプラットフォームアプリケーションに適しています。オープンソースおよび商用プロジェクトの両方で広く採用されることを奨励します。

2026/01/18 17:18

ソーシャル・ファイルシステム