
2026/01/18 20:39
30 M トポロジカル・トランスフォーマーのゼロからの学習
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
(欠落していた詳細を追加)**
Tauformerは従来のドット積注意機構を、各トークン/ヘッドごとにラプラスから導出されたスカラー―taumode―で置き換えます。各ヘッドベクトルは特徴空間ラプラシアンによって制限付きレイリー商エネルギー λへ圧縮され、注意ロジットは (-|\lambda^Q_i-\lambda^K_j|/\text{temperature}) として計算されます。これにより完全な Q·K 行列を必要とせず、KV キャッシュには (V, λ_k) のみが保存されるため、レイヤーごとのキャッシュサイズが約 50 % 削減されます。
30 M パラメータの TauGPT(6 層、6 ヘッド、埋め込みサイズ 384、シーケンス長 1024、語彙数 30522)は、IterableDataset でストリームされたローカル JSONL データセットを使用して訓練されました。各 20 バッチごとに検証が行われました。訓練には AdamW(ベース LR 5×10⁻⁴、ウォームアップ 100 ステップ)を採用し、ステップ 100 でトレーニング損失 4.6772/検証損失 4.9255、ステップ 2000 で検証損失 2.3585(PPL 6.59)、そしてステップ 4500 で最高の検証損失 1.9146 を達成しました。最終ステップ 5000 では 655 360 000 トークン(約 60K TPS)がログされました。
Taumode は本実験中は固定しており、将来の実験では例えばブロック 0 の K ベクトルから算出した中央値レイリー商エネルギーに taumode を設定するなど、適応的に再校正します。これはクロスエントロピー損失が改善するときに下方へドリフトしやすい性質があります。論文では低分散 K 表現によって中央値エネルギーが低下した場合の崩壊リスクを警告し、中央値とともに分布幅(p05 / p95)の監視も重要であると強調しています。
著者らは Tauformer の決定論的スカラー圧縮を「epiplexity」に結び付け、計算コストを削減することで境界付き学習者にとって学習可能な構造が増大すると示唆しています。実験は Enverge Labs の H100 GPU クラスター(再生エネルギーで稼働)上で行われました。すべてのモデルファイル、データ、訓練設定、およびログは許容的なライセンスの下で公開されます。さらに大規模(≈100 M パラメータ)のテストも計画されています。
本文
30 Mパラメータのトポロジカル・トランスフォーマーを学習する
Tauformerは、ドットプロダクトアテンションをラプラシアンから導出したスカラー(taumode)に置き換え、そのスカラー空間で距離を用いて注意機構を行うトポロジカル・トランスフォーマーです(論文参照)。
以下では、投稿スタイルの概要と30 Mパラメータ実験から得られた最初の学習信号についてまとめます。
Tauformerの核心アイデア
Tauformerは、ドメイン埋め込み空間(「ドメインメモリ」)から構築したグラフラプラシアンを永続的な参照として用い、注意機構に直接ドメイン構造を注入することを目的としています。
キーを (Q!\cdot!K) でランク付けする代わりに、Tauformerはそれらのラプラシアン由来の taumode スカラーがどれだけ似ているかで順位付けし、ドメイン関連性の高い関係へ注意を向けるよう偏差します。
実装面では、Q/K/V の射影、RoPE、因果マスク、安定したソフトマックス/値集約パイプラインはそのままに、注意ロジットの計算方法だけを変更しています。
各ヘッドベクトルは、ラプラシアン (L) で計算される境界付きレイリー商エネルギーを用いてスカラー (\lambda) に圧縮し、次にロジットを負の距離として計算します。
[
-\frac{|\lambda_q-\lambda_k|}{\text{temperature}}.
]
実装で使われた主な構成要素
- Taumode スカラー
[ E_{\text{raw}}=\frac{x^\top L x}{x^\top x+\varepsilon},\qquad \lambda=\frac{E_{\text{raw}}}{E_{\text{raw}}+\tau}\in[0,1). ] - ロジット
[ \text{att}_{ij} = -|\lambda^Q_i-\lambda^K_j|/\text{temperature}, ]
その後因果マスクを再利用 → 行最大値を引く → ソフトマックス → (V) と掛け合わせる。
コスト削減の根拠
キーをフルベクトルでスコアリングする必要がなくなるため、KVキャッシュは「値 + コンパクトなキー側スカラー」だけを保持します。
すなわち、ペイロードは ((V,\lambda_k))(((K,V)) ではない)となり、典型的なヘッド寸法で約 50 % のキャッシュサイズ削減が期待できます(追加スカラーの保存オーバーヘッドはごくわずか)。
設計はまた、事前に算出したドメインマニフォールドから得た疎ラプラシアンを利用することを想定しており、(\lambda) の計算が疎行列の非ゼロ要素数(nnz)に依存できるようになっています。
これにより、重み調整の長い前処理を、短時間で完結する事前学習フェーズへ置き換えることが可能です。
実験設定(訓練対象)
-
モデル:30 Mクラス TauGPT(GPT‑2 を模した構成)
- 層数 (n_layer):6
- ヘッド数 (n_head):6
- 埋め込み次元 (n_embd):384
- シーケンス長 (seq_len):1024
- 語彙サイズ (vocab_size):30522
-
オプティマイザ:AdamW
- ベース学習率:(5\times10^{-4})
- ウォームアップ:100 ステップ
- ウォームアップ後はベース LR を一定に保ち、必要に応じて外部制御でスケールダウン
-
データ:ローカル JSONL ファイル
を IterableDataset 風にストリーミング。train.jsonl- バッチの20回目を検証用として切り出す(約 5 %)。
-
学習率スケジュール:ウォームアップ後は LR の減衰なし。
実験結果概観
| ステップ | train_loss | val_loss | PPL |
|---|---|---|---|
| 100 | 4.6772 | 4.9255 | 107.47 |
| 2000 | – | 2.3585 | 6.59 |
| 4500 | – | 1.9146 | – |
| 5000 | – | 2.3746 | – |
最終ログには以下が記録されています。
- ステップ = 5000
- best_val_loss = 1.914555
- current_lr_scale = 0.03125
- total_tokens = 655,360,000
約 2 時間でこの小型モデルを訓練し、平均 60K Tokens/秒 の速度で実行できた点は良好です。
初期フェーズでは validation が 4.93 → 約 2.36(ステップ 2000)へ急速に低下し、学習が効果的に進んでいることを示しています。しかしその後はノイズが増え、ステップ 2100 で再び 2.92 へ上昇、4200 付近では 2.95 にピーク。その後 4500 ステップで 1.91 という良い点に戻ります。
全期間を通じて taumode は固定されており、重みが変化しても注意幾何学は更新されていません。これは次回以降の実験で対処予定です。
ベースライン:まとめ
本ベースラインでは taumode を訓練全体を通じて固定し、シンプルな検証ループと plateau 触発型 LR スケーリングのみを使用しました。
早期〜中盤での収束は良好でしたが、最終フェーズで変動・回帰が見られたため、次の実験では「adaptive taumode」戦略(定期再キャリブレーション、エネルギー漂移を検出して勾配性能に応じてゲート制御)とより洗練された検証手法を導入します。
小規模モデル・短時間実験(5 000 ステップ)で得られた結果は、Tauformer アーキテクチャが有望であることを示唆しています。
今後は 100 M パラメータ規模での拡張評価を計画しています。
クロスエントロピーと taumode の相関
この実験から興味深い疑問が浮上しました:クロスエントロピー(損失)と taumode はどの程度相関しているか?
モデルが収束すれば損失は下がり、同時に学習した重みで再キャリブレーションすると taumode も低くなる傾向があります。
「converging taumode」とは
taumode は K ベクトルのラプラシアンレイリー商エネルギーを基に算出され、バッチ全体から中央値を取ってグローバルスカラーとして設定します。
実装では次式で計算されます。
[ E_{\text{raw}}(x)=\frac{x^\top L x}{x^\top x+\varepsilon},\qquad \lambda_\tau(x)=\frac{E_{\text{raw}}}{E_{\text{raw}}+\tau}, ]
これによりエネルギーは ([0,1)) にマッピングされます。
なぜ損失が改善すると taumode が下がるか
| 健全な解釈 | 不健全(崩壊リスク) |
|---|---|
| 訓練を進めると、K 表現はドメイン/マニフォールドラプラシアンに対して「スムーズ」になり、中央値エネルギーが下がる一方で次トークン予測も改善されます。 | もし taumode が再キャリブレーション時に K ベクトルが低分散・非識別的な構成へ崩壊すると、λ 距離ロジットの対比が減少し、損失は短期的には改善しても長期的には悪化します。 |
| 重要:taumode を再キャリブレーションすると、単なる「測定」ではなく途中でハイパーパラメータを変更するような効果が生じるため、損失との相関は因果性を示すものではありません。 |
つまり、重みが収束すると各トークンのエネルギー分布 (x^\top L x) が安定し、中央値(または 50 パーセンタイル)が低い値へシフトするという「converging taumode」は自然に起こる現象です。
確認には、固定された注意スカラーだけでなく、現在のバッチで測定した中央値や分布幅(p05/p95)も追跡し、中央値が下がっている一方で広がりが縮小していれば崩壊を疑います。
「低損失 ⇒ 低 taumode」 は Tauformer において因果的に成立する可能性があります。
クロスエントロピーの勾配は Q/K から算出されるラプラシアンエネルギーに依存し、モデルが次トークン予測を改善すると同時に Laplacian‑Rayleigh エネルギーも低くなるため、再キャリブレーションで中央値が小さくなる傾向があります。
最適停止点はまだ未解決の課題です。
参考文献
大規模学習機械による情報理解へのシフトが進んでいます!
最近の論文では、MDL(最小記述長原理)が「モデルとデータを説明する総コード長を最小化する」ことを示し、エピプレキシティ (ST(X)) を計算可能なモデル (P) のプログラム長として定義します。時間制限付き MDL から得られる期待コード長は時刻制約付きエントロピー (HT(X)) と呼ばれます。
実際的には、ニューラルネットワークの学習ダイナミクス(例:最終損失より上の「area under the loss curve」)を使った推定器が提案され、有限学習者がデータから吸収できる構造量を近似します。
この観点で、arrowspace、taumode、tau‑attention は有限学習者にとって有用な構造を増やす決定的計算です。
エピプレキシティの枠組みでは、arrowspace と Tauformer が行う「ヘッドベクトルをレイリー商スタイルで境界付けてスカラー λ に変換する」処理は情報を圧縮し、下流計算がより効率的に活用できるようにします。
謝辞
Enverge Labs がクリーンで安価な電力を供給した H100 GPU クラスターでの計算時間を提供してくださったことに感謝します。
これはトポロジカル・トランスフォーマーが Transformers の計算コストを削減するという目的と完全に合致しています。