
2025/12/07 5:15
Zebra-Llama – Towards efficient hybrid models
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
(主要ポイントをすべて組み込んで)**
Zebra‑Llama は、1 B、3 B、および 8 B のハイブリッド言語モデルのファミリーです。State Space Models (SSMs) と Multi‑head Latent Attention (MLA) を組み合わせています。洗練された初期化と 8 B 事前学習済み Transformer からのポストトレーニング知識転送パイプラインを使用することで、Transformer レベルの精度を達成しつつ、数兆ではなく 7–11 B のトレーニングトークンだけで済みます。KV キャッシュは劇的に縮小されます:1 B モデルで 3.9 %、3 B モデルで 2 %、8 B モデルで 2.73 % ですが、LM Harness タスクでのゼロショット性能を ≥97 % 保持します。
MambaInLLaMA、X‑EcoMLA、Minitron、および Llamba といった他のハイブリッドと比較しても、Zebra‑Llama は競争力あるかそれ以上の精度を提供します。たとえば、Zebra‑Llama‑8B は Minitron‑8B を few‑shot タスクで 7 % 上回り、トレーニングトークン数が 8 倍少なく、KV キャッシュも 12 倍以上小さく、教師モデル(8 B 対 15 B)も小さいです。また、MambaInLLaMA を 32k トークンのコンテキストまで 2.6–3.8× 高いスループット(トークン/秒)で上回ります。
著者らは論文が採択された後にコードとチェックポイントを公開する予定であり、これによりこの効率的なハイブリッドアーキテクチャの広範な導入とさらなるベンチマークが可能になります。
本文
概要
大規模言語モデル(LLM)の多様なアプリケーションへの導入需要が増える中、推論効率の向上は持続可能で民主化された利用を実現するために不可欠です。しかし、新たなユーザー固有要件を満たすためにLLMを再訓練することは、コスト面でも環境負荷も考慮すると実質的に不可能です。本研究では、既存の事前学習済みモデルを組み合わせて効率的かつスケーラブルなハイブリッド言語モデルを構築する実用的手法を提案します。
我々のアプローチ Zebra‑Llama は、State Space Models(SSM)と Multi‑Head Latent Attention(MLA)レイヤーを組み合わせることで、1B・3B・8B のハイブリッドモデルファミリーを実現します。洗練された初期化とポストトレーニングパイプラインにより、事前学習済み Transformer から知識を効率的に転送。Zebra‑Llama は 7–11B の訓練トークン(事前学習で必要な数兆トークンとは対照的)と 8B の教師モデルだけで、Transformer と同等の精度を達成しつつ、SSM に近い効率性を実現します。
さらに、Zebra‑Llama は KV キャッシュサイズを大幅に削減(1B・3B・8B バリアントそれぞれ 3.9 %、2 %、2.73 %)しながら、LM Harness タスクの平均ゼロショット性能を 100 %、100 %、>97 % まで維持します。
MambaInLLaMA、X‑EcoMLA、Minitron、Llamba 等のモデルと比較しても、Zebra‑Llama は競争力あるまたは優れた精度を示しつつ、トークン数・教師サイズが小さく、KV キャッシュメモリが大幅に削減されます。特に Zebra‑Llama‑8B は、Minitron‑8B の少数ショット精度を 7 % 向上させつつ、訓練トークンを 8 倍以下、KV キャッシュを 12 倍以上小さくし、教師も 8 B(対 15 B)と減らしています。また、32k コンテキスト長まで MambaInLlama より 2.6–3.8 倍高いスループット(トークン/秒)を達成します。
本研究のコードとモデルチェックポイントは採択後公開予定です。