
2026/05/30 1:19
Liquid AI、38TBで学習された80億パラメーターのA1B MoEを発表
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Liquid AI は、エントリーレベルのノートパソコンやスマートフォンを含むコンシューマー向けハードウェアにおいてクラウド接続を必要とせずに高速かつ信頼性の高いツール呼び出しを実現することを目的としたエッジに特化した推論専用モデル「LFM2.5-8B-A1B」をリリースしました。主要なアーキテクチャの改良としては、事前学習トークン数が 12 兆から 38 兆へと拡大されたこと、推論と長文書に焦点を当てた中間トレーニングによりコンテキストウィンドウが 128k に拡張されたこと、そして非ラテン語向けのトークナ化効率を改善する辞書のサイズが 65,536 から 128,000 に倍増したことが挙げられ、これにより中国語では文字毎トークンで最大 +238.2%、日本語では +17.6% の向上が見られます。これらの変更は、ハルシネーション率を 7.46% から大幅に低下させ信頼性を高めるとともに、エージェントワークフローのパフォーマンスも向上させており、AA-Omniscience Index が +53.62 ポイント増、IFEval スコアが 91.84 に向上し、Tau² Telecom ベンチマークでは 88.07 を達成したことがこれを裏付けています。モデルは、長推論のトレースにおけるドームループを緩和するため、明示的なチェーン-of-thought(思考連鎖)戦略と avg@k ベ이스のリワード最適化を採用しています。ユーザーは Hugging Face および Liquid AI Playground で利用可能な LocalCowork デモを通じて、Apple Silicon、AMD、Intel、Qualcomm、Nvidia といった多様なハードウェア上で高度なローカルエージェントを実行できます。llama.cpp、MLX、vLLM、SGLang、ONNX などのスパース推論フレームワークを使用することで、M5 Max ノートパソコンでは最大 253 トークン/秒、スマートフォンでは約 30 トークン/秒のパフォーマンスを実現すると同時に、機密データをオンデバイスで保持し API キーへの依存を排除しています。これは、エントリーレベルデバイス全体におけるプライバシー第一かつコスト効果の高いローカル AI ソリューションに向けた重要な一歩を表しています。
本文
LFM2.5-8B-A1B リリース:エントリー級ハードウェアのための高性能エッジモデル
今日、Liquid AI は「LFM2.5-8B-A1B」を正式にリリースします。このモデルは、エントリークラスのノートパソコンや一般的な PC でも快適に動作し、迅速かつ信頼性の高いツール呼び出しを実現することを目的として設計されたエッジモデルです。
主な改良点
先代モデル「LFM2-8B-A1B」(2025 年 10 月リリース)を基盤とし、以下の変更を実施しました。
- コンテキストウィンドウの拡張: 32,768 トークンから128,000 トークンへ拡大。
- トレーニングデータのスケールアップ: 事前トレーニングデータを 12T トークンから38T トークンへ増加。
- 大規模な強化学習(RL)の実施。
- 辞書の拡張: ラテン文字以外の言語のトークン化効率向上のため、辞書サイズを 65,536 から128,000(2 倍)に拡大。
これらの改善により、ツール呼び出しの連鎖処理が可能となり、複雑なタスクの実行も安定して動作することが実証されました。
モデルの利用方法
- ダウンロード: ベースモデルとトレーニング済みモデルは本日、Hugging Faceおよび当社のPlaygroundで利用可能です。
- ドキュメント: ローカル環境での実行方法やファインチューニングの手順については、公式ドキュメントをご確認ください。
性能評価:AA-Omniscience Index
「AA-Omniscience Index」は、正しい回答の評価とハルシネーション(妄想)に対するペナルティを科す指標です(スコア範囲:-100〜100)。
ハイライト機能
- オンデバイスパーソナルアシスタント: リアルワールドアプリケーションの実装、ツール呼び出しの連鎖処理、および複雑な指示文の追従を設計の核としています。
- 圧縮されたパフォーマンス(高性能化): 指示従順性やエージェント型タスクにおいて、はるかに大きな密度型モデルや MoE(混合エキスパート)モデルと競争力を持ちます。
- 圧倒的な処理速度: サイズクラス別で最も高速な推論性能を CPU および GPU で発揮し、llama.cpp、MLX、vLLM、SGLangへの初日から完全対応を提供します。
先代モデル(LFM2-8B-A1B)との違い
新バージョン LFM2.5-8B-A1B は、以下の点で強化されています:
コンテキストとトークン化の向上
- コンテキストウィンドウ: 32,768 トークン → 128,000 トークンへ拡大。より長いドキュメントの処理や長時間にわたる推論が可能になりました。
- 多言語対応: ラテン文字以外のスクリプト(文字系)を効率的にトークン化できるよう、辞書サイズを 2 倍に拡大。
- 特にインド語、タイ語、ベトナム語、インドネシア語、アラビア語において顕著な圧縮効率の向上を実証しています。
- アーキテクチャ: モデル構成は、LFM2-8B-A1B と同様に MoE(混合エキスパート)、GQA(ゲート付きクエリアテンション)、ゲート付きショート畳み込みブロックを採用しています。
推論機能の強化
- Chain of Thought (思考の連鎖): モデルは推論専用として設計され、最終的な回答を出す前に明確な思考プロセスを生成します。
- MoE の活用: アクティブパラメータ数を減らす戦略により、計算資源がボトルネックとなる環境でもコストを低く抑えつつ、速度を損なわずに品質を大幅に向上させています。
ベンチマーク成績の比較
| ベンチマーク | LFM2-8B-A1B (旧) | LFM2.5-8B-A1B (新) | Δ(変化量) |
|---|---|---|---|
| AA-Omniscience Index | -78.42 | -24.70 | +53.62 ⬆ |
| AA-Omniscience Accuracy | 7.33 | 8.67 | +1.34 |
| AA-Omniscience Non-Hallucination Rate | 7.46 | 63.47 | +56.01 ⬆ |
| IFEval | 79.44 | 91.84 | +12.40 |
| IFBench | 26.00 | 56.47 | +30.47 |
| Multi-IF | 58.54 | 79.93 | +21.39 |
| MATH500 | 74.80 | 88.76 | +13.96 |
| AIME25 | 20.00 | 42.53 | +22.53 ⬆ |
| BFCLv3 | 45.07 | 64.36 | +19.29 |
| BFCLv4 | 25.52 | 48.50 | +22.98 |
| Tau² Telecom | 13.60 | 88.07 | +74.47 ⬆ |
| Tau² Retail | 7.02 | 39.82 | +32.80 |
トレーニングのハイライト
トークナイザーの拡張
- 辞書サイズの拡大: LFM2-8B-A1B は初期に 65K BPE を使用していましたが、LFM2.5 では128K(2 倍)へとインプレイス拡張しました。
- マルチリンガルサポート: 新しいトークナイザーにより、すべての 16 の言語で「chars/token」が改善され、特にアラビア語(+38.8%)、ヒンディー語(+120.4%)、ベトナム語(+238.2%)などで劇的な効率化を実現。
| 言語 | アラビア語 (ar) | ヒンディー語 (hi) | ベトナム語 (vi) | 中国語 (zh) |
|---|---|---|---|---|
| 旧トークナイザー | 2.239 | 0.961 | 1.519 | 1.475 |
| 新トークナイザー | 3.107 | 2.118 | 3.311 | 1.620 |
コンテキストの拡張と安定化
- データフェーズ: 推論・数学・ツール使用に焦点を当てた 2T トークン処理後、さらに長期ドキュメントに特化した追加フェーズ(400B トークン)を実施。
- RoPE の調整: ベースθを増大させ、長期データの安定性を確保しました。
ドームループ(Doom Loops)の回避
- 長期推論における思考の停滞を軽減するため、ターゲティングされた好ましさ最適化フェーズを追加。
- ループ行動を引き起こすトークンの確率質量を再分配し、「Wait…」などの過剰な繰り返しを抑制。
ハルシネーションの軽減
- 知識容量への対策: 多様な知識データセット上で avg@k ベースの報酬を用いた RL フェーズを追加。
- 信頼性の向上: 既存の知識範囲を超えた問い合わせについてははるしねーションを強化しつつ、不確実性も明確に表現できるよう改善しました。
他モデルとの比較ベンチマーク
LFM2.5-8B-A1B は、同様の総パラメータ数を持つ密度型モデルや、はるかに大きな MoE モデル(例:Gemini、Gemma の大型版)に対抗し得る性能を発揮しました。特にハルシネーション率を著しく低下させつつ、指示従順性でリードしています。
| モデル | パラメータ数 | AA-Omniscience Index | Accuracy | Non-Hallucination | IFEval |
|---|---|---|---|---|---|
| LFM2.5-8B-A1B | 8B/A1B | -24.70 | 8.67 | 63.47 | 91.84 |
| Granite-4.0-H-Tiny | 7B/A1B | -75.50 | 9.37 | 6.38 | 82.23 |
| Qwen3.5-4B | 4B | -51.53 | 17.20 | 16.99 | 87.80 |
| Gemini 4-26B (MoE) | 26B/4B | -62.07 | 14.37 | 10.75 | 91.40 |
数学とエージェント型ワークフローでの性能
特に Tau² ベンチマークで大きな差をつけました。オンデバイスで完全にプライベートなエージェントを動作させるための第一歩となります。
| モデル | パラメータ数 | MATH500 | AIME25 | Tau² Telecom | Tau² Retail |
|---|---|---|---|---|---|
| LFM2.5-8B-A1B | 8B/A1B | 88.76 | 42.53 | 88.07 | 39.82 |
| Granite-4.0-H-Tiny | 7B/A1B | 59.20 | 4.93 | 16.67 | 18.42 |
| Qwen3.5-4B | 4B | 80.76 | 54.28 | 87.72 | 71.93 |
| Gemma 4-26B (MoE) | 26B/4B | 94.20 | 68.67 | 42.11 | 55.26 |
推論機能とエコシステム対応
LFM2.5-8B-A1B は、推論エコシステム全体で初日からサポートされています。
- LEAP: iOS および Android 用の液体 AI プラットフォーム(Liquid's Edge AI Platform)。
- llama.cpp: エッジ推論向けの効率的な GGUF チェックポイント。
- MLX: Apple Silicon 向けの最適化済み推論。
- vLLM: プロダクションでのスループット向上のための GPU 加速型サービング。
- SGLang: プロダクションでのスループット向上のための GPU 加速型サービング。
- ONNX: 多様なアクセラレーターを跨ぐクロスプラットフォーム推論。
CPU 推論(ローカル環境)
llama.cpp サポートにより、日常的な一般向けハードウェア上で動作します。
- M5 Max: 253 トークン/秒(メモリ使用量 6 GB)。
- Ryzen AI Max+ 395: 146 トークン/秒。
- スマートフォン: 約 30 トークン/秒で動作し、プライバシーを保ったまま瞬時にレスポンス可能です。
GPU 推論(データセンター環境)
vLLM および SGLang を使用したベンチマーク結果です。
- 環境: NVIDIA H100 SXM5 (単一 GPU)
- 構成: 1,024 インプット、最大 256 アウトプット(BF16)、高並列化環境。
- 性能: 毎秒18.5Kの出力トークンを達し、毎日16 億トークン以上を処理可能です。
ローカル・コワーカー:動作を目にする
オープンソースデスクトップエージェントデモ「LocalCowork」は、LFM2.5-8B-A1B で動作します。
- 環境: 単一のノートパソコン、クラウドなし、API キーなし、データがマシン外へ流出しない完全なオンデバイス環境。
- 構成: 13 の MCP サーバーを跨ぐ67 つのツールに対応。
- 特徴: ツール選択速度向上と信頼性の飛躍的な改善。ツールディスパッチループは対話的な感覚(問いかけ→提案→確認→実行)を実現し、1 つの処理あたり 1 秒未満で完結します。
お使いいただくために
LFM2.5 とともに、「どこでも動作する AI」というビジョンを実現します。
- オープンウェイト: 制限なくダウンロード、ファインチューニング、デプロイが可能。
- ハードウェアへの対応: Apple、AMD、Intel、Qualcomm、Nvidia の全ハードウェアでネイティブサポート。
- 完全なファミリー: カスタマイズ用ベースモデルから音声・ビジョンバリエーションまで、1 つのアーキテクチャが幅広いユースケースをカバーします。
オンデバイスエージェント型の未来はここから始まります。みなさんがどのようなものを作るか楽しみにしています。
引用方法
本記事を引用する場合は以下の形式を使用してください。
Liquid AI, "LFM2.5-8B-A1B: Personal Assistant On Your Laptop," Liquid AI Blog, May 2026.
BibTeX 形式:
@article{liquidAI20268BA1B, author = {Liquid AI}, title = {LFM2.5-8B-A1B: Personal Assistant On Your Laptop}, journal = {Liquid AI Blog}, year = {2026}, note = {https://www.liquid.ai/blog/lfm2-5-8b-a1b}, }