Liquid AI、38TBで学習された80億パラメーターのA1B MoEを発表

2026/05/30 1:19

Liquid AI、38TBで学習された80億パラメーターのA1B MoEを発表

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Liquid AI は、エントリーレベルのノートパソコンやスマートフォンを含むコンシューマー向けハードウェアにおいてクラウド接続を必要とせずに高速かつ信頼性の高いツール呼び出しを実現することを目的としたエッジに特化した推論専用モデル「LFM2.5-8B-A1B」をリリースしました。主要なアーキテクチャの改良としては、事前学習トークン数が 12 兆から 38 兆へと拡大されたこと、推論と長文書に焦点を当てた中間トレーニングによりコンテキストウィンドウが 128k に拡張されたこと、そして非ラテン語向けのトークナ化効率を改善する辞書のサイズが 65,536 から 128,000 に倍増したことが挙げられ、これにより中国語では文字毎トークンで最大 +238.2%、日本語では +17.6% の向上が見られます。これらの変更は、ハルシネーション率を 7.46% から大幅に低下させ信頼性を高めるとともに、エージェントワークフローのパフォーマンスも向上させており、AA-Omniscience Index が +53.62 ポイント増、IFEval スコアが 91.84 に向上し、Tau² Telecom ベンチマークでは 88.07 を達成したことがこれを裏付けています。モデルは、長推論のトレースにおけるドームループを緩和するため、明示的なチェーン-of-thought(思考連鎖)戦略と avg@k ベ이스のリワード最適化を採用しています。ユーザーは Hugging Face および Liquid AI Playground で利用可能な LocalCowork デモを通じて、Apple Silicon、AMD、Intel、Qualcomm、Nvidia といった多様なハードウェア上で高度なローカルエージェントを実行できます。llama.cpp、MLX、vLLM、SGLang、ONNX などのスパース推論フレームワークを使用することで、M5 Max ノートパソコンでは最大 253 トークン/秒、スマートフォンでは約 30 トークン/秒のパフォーマンスを実現すると同時に、機密データをオンデバイスで保持し API キーへの依存を排除しています。これは、エントリーレベルデバイス全体におけるプライバシー第一かつコスト効果の高いローカル AI ソリューションに向けた重要な一歩を表しています。

本文

LFM2.5-8B-A1B リリース:エントリー級ハードウェアのための高性能エッジモデル

今日、Liquid AI は「LFM2.5-8B-A1B」を正式にリリースします。このモデルは、エントリークラスのノートパソコンや一般的な PC でも快適に動作し、迅速かつ信頼性の高いツール呼び出しを実現することを目的として設計されたエッジモデルです。

主な改良点

先代モデル「LFM2-8B-A1B」(2025 年 10 月リリース)を基盤とし、以下の変更を実施しました。

  • コンテキストウィンドウの拡張: 32,768 トークンから128,000 トークンへ拡大。
  • トレーニングデータのスケールアップ: 事前トレーニングデータを 12T トークンから38T トークンへ増加。
  • 大規模な強化学習(RL)の実施
  • 辞書の拡張: ラテン文字以外の言語のトークン化効率向上のため、辞書サイズを 65,536 から128,000(2 倍)に拡大。

これらの改善により、ツール呼び出しの連鎖処理が可能となり、複雑なタスクの実行も安定して動作することが実証されました。


モデルの利用方法

  • ダウンロード: ベースモデルとトレーニング済みモデルは本日、Hugging Faceおよび当社のPlaygroundで利用可能です。
  • ドキュメント: ローカル環境での実行方法やファインチューニングの手順については、公式ドキュメントをご確認ください。

性能評価:AA-Omniscience Index

「AA-Omniscience Index」は、正しい回答の評価とハルシネーション(妄想)に対するペナルティを科す指標です(スコア範囲:-100〜100)。

ハイライト機能

  • オンデバイスパーソナルアシスタント: リアルワールドアプリケーションの実装、ツール呼び出しの連鎖処理、および複雑な指示文の追従を設計の核としています。
  • 圧縮されたパフォーマンス(高性能化): 指示従順性やエージェント型タスクにおいて、はるかに大きな密度型モデルや MoE(混合エキスパート)モデルと競争力を持ちます。
  • 圧倒的な処理速度: サイズクラス別で最も高速な推論性能を CPU および GPU で発揮し、llama.cpp、MLX、vLLM、SGLangへの初日から完全対応を提供します。

先代モデル(LFM2-8B-A1B)との違い

新バージョン LFM2.5-8B-A1B は、以下の点で強化されています:

コンテキストとトークン化の向上

  • コンテキストウィンドウ: 32,768 トークン → 128,000 トークンへ拡大。より長いドキュメントの処理や長時間にわたる推論が可能になりました。
  • 多言語対応: ラテン文字以外のスクリプト(文字系)を効率的にトークン化できるよう、辞書サイズを 2 倍に拡大。
    • 特にインド語、タイ語、ベトナム語、インドネシア語、アラビア語において顕著な圧縮効率の向上を実証しています。
  • アーキテクチャ: モデル構成は、LFM2-8B-A1B と同様に MoE(混合エキスパート)、GQA(ゲート付きクエリアテンション)、ゲート付きショート畳み込みブロックを採用しています。

推論機能の強化

  • Chain of Thought (思考の連鎖): モデルは推論専用として設計され、最終的な回答を出す前に明確な思考プロセスを生成します。
  • MoE の活用: アクティブパラメータ数を減らす戦略により、計算資源がボトルネックとなる環境でもコストを低く抑えつつ、速度を損なわずに品質を大幅に向上させています。

ベンチマーク成績の比較

ベンチマークLFM2-8B-A1B (旧)LFM2.5-8B-A1B (新)Δ(変化量)
AA-Omniscience Index-78.42-24.70+53.62
AA-Omniscience Accuracy7.338.67+1.34
AA-Omniscience Non-Hallucination Rate7.4663.47+56.01
IFEval79.4491.84+12.40
IFBench26.0056.47+30.47
Multi-IF58.5479.93+21.39
MATH50074.8088.76+13.96
AIME2520.0042.53+22.53
BFCLv345.0764.36+19.29
BFCLv425.5248.50+22.98
Tau² Telecom13.6088.07+74.47
Tau² Retail7.0239.82+32.80

トレーニングのハイライト

トークナイザーの拡張

  • 辞書サイズの拡大: LFM2-8B-A1B は初期に 65K BPE を使用していましたが、LFM2.5 では128K(2 倍)へとインプレイス拡張しました。
  • マルチリンガルサポート: 新しいトークナイザーにより、すべての 16 の言語で「chars/token」が改善され、特にアラビア語(+38.8%)、ヒンディー語(+120.4%)、ベトナム語(+238.2%)などで劇的な効率化を実現。
言語アラビア語 (ar)ヒンディー語 (hi)ベトナム語 (vi)中国語 (zh)
旧トークナイザー2.2390.9611.5191.475
新トークナイザー3.1072.1183.3111.620

コンテキストの拡張と安定化

  • データフェーズ: 推論・数学・ツール使用に焦点を当てた 2T トークン処理後、さらに長期ドキュメントに特化した追加フェーズ(400B トークン)を実施。
  • RoPE の調整: ベースθを増大させ、長期データの安定性を確保しました。

ドームループ(Doom Loops)の回避

  • 長期推論における思考の停滞を軽減するため、ターゲティングされた好ましさ最適化フェーズを追加。
  • ループ行動を引き起こすトークンの確率質量を再分配し、「Wait…」などの過剰な繰り返しを抑制。

ハルシネーションの軽減

  • 知識容量への対策: 多様な知識データセット上で avg@k ベースの報酬を用いた RL フェーズを追加。
  • 信頼性の向上: 既存の知識範囲を超えた問い合わせについてははるしねーションを強化しつつ、不確実性も明確に表現できるよう改善しました。

他モデルとの比較ベンチマーク

LFM2.5-8B-A1B は、同様の総パラメータ数を持つ密度型モデルや、はるかに大きな MoE モデル(例:Gemini、Gemma の大型版)に対抗し得る性能を発揮しました。特にハルシネーション率を著しく低下させつつ、指示従順性でリードしています。

モデルパラメータ数AA-Omniscience IndexAccuracyNon-HallucinationIFEval
LFM2.5-8B-A1B8B/A1B-24.708.6763.4791.84
Granite-4.0-H-Tiny7B/A1B-75.509.376.3882.23
Qwen3.5-4B4B-51.5317.2016.9987.80
Gemini 4-26B (MoE)26B/4B-62.0714.3710.7591.40

数学とエージェント型ワークフローでの性能

特に Tau² ベンチマークで大きな差をつけました。オンデバイスで完全にプライベートなエージェントを動作させるための第一歩となります。

モデルパラメータ数MATH500AIME25Tau² TelecomTau² Retail
LFM2.5-8B-A1B8B/A1B88.7642.5388.0739.82
Granite-4.0-H-Tiny7B/A1B59.204.9316.6718.42
Qwen3.5-4B4B80.7654.2887.7271.93
Gemma 4-26B (MoE)26B/4B94.2068.6742.1155.26

推論機能とエコシステム対応

LFM2.5-8B-A1B は、推論エコシステム全体で初日からサポートされています。

  • LEAP: iOS および Android 用の液体 AI プラットフォーム(Liquid's Edge AI Platform)。
  • llama.cpp: エッジ推論向けの効率的な GGUF チェックポイント。
  • MLX: Apple Silicon 向けの最適化済み推論。
  • vLLM: プロダクションでのスループット向上のための GPU 加速型サービング。
  • SGLang: プロダクションでのスループット向上のための GPU 加速型サービング。
  • ONNX: 多様なアクセラレーターを跨ぐクロスプラットフォーム推論。

CPU 推論(ローカル環境)

llama.cpp サポートにより、日常的な一般向けハードウェア上で動作します。

  • M5 Max: 253 トークン/秒(メモリ使用量 6 GB)。
  • Ryzen AI Max+ 395: 146 トークン/秒。
  • スマートフォン: 約 30 トークン/秒で動作し、プライバシーを保ったまま瞬時にレスポンス可能です。

GPU 推論(データセンター環境)

vLLM および SGLang を使用したベンチマーク結果です。

  • 環境: NVIDIA H100 SXM5 (単一 GPU)
  • 構成: 1,024 インプット、最大 256 アウトプット(BF16)、高並列化環境。
  • 性能: 毎秒18.5Kの出力トークンを達し、毎日16 億トークン以上を処理可能です。

ローカル・コワーカー:動作を目にする

オープンソースデスクトップエージェントデモ「LocalCowork」は、LFM2.5-8B-A1B で動作します。

  • 環境: 単一のノートパソコン、クラウドなし、API キーなし、データがマシン外へ流出しない完全なオンデバイス環境。
  • 構成: 13 の MCP サーバーを跨ぐ67 つのツールに対応。
  • 特徴: ツール選択速度向上と信頼性の飛躍的な改善。ツールディスパッチループは対話的な感覚(問いかけ→提案→確認→実行)を実現し、1 つの処理あたり 1 秒未満で完結します。

お使いいただくために

LFM2.5 とともに、「どこでも動作する AI」というビジョンを実現します。

  • オープンウェイト: 制限なくダウンロード、ファインチューニング、デプロイが可能。
  • ハードウェアへの対応: Apple、AMD、Intel、Qualcomm、Nvidia の全ハードウェアでネイティブサポート。
  • 完全なファミリー: カスタマイズ用ベースモデルから音声・ビジョンバリエーションまで、1 つのアーキテクチャが幅広いユースケースをカバーします。

オンデバイスエージェント型の未来はここから始まります。みなさんがどのようなものを作るか楽しみにしています。

引用方法

本記事を引用する場合は以下の形式を使用してください。

Liquid AI, "LFM2.5-8B-A1B: Personal Assistant On Your Laptop," Liquid AI Blog, May 2026.

BibTeX 形式:

@article{liquidAI20268BA1B,
  author  = {Liquid AI},
  title   = {LFM2.5-8B-A1B: Personal Assistant On Your Laptop},
  journal = {Liquid AI Blog},
  year    = {2026},
  note    = {https://www.liquid.ai/blog/lfm2-5-8b-a1b},
}

同じ日のほかのニュース

一覧に戻る →

2026/05/30 2:54

耐久性のあるワークフローには SQLite のみで十分です

## 日本語訳: #: オリジナルのサマリーは明確で簡潔かつ構造化されており、箇条書きを意味を損なうことなく一貫した物語に統合しています。したがって、改善は必要ありません。 # 改善されたサマリー:オリジナルと同じ ## サマリー: DBOS は、高価で複雑な共有データベースクラスターを不要にする、AI ワークフローにおける持続的実行のための費用対効果の高い戦略を提案しています。Obelisk フレームワークを SQLite および Litestream と組み合わせることで、システムはワークフローの進行状況をローカル SQLite ログに直接保存し、非同期でオブジェクトストレージへバックアップをストリーミングすることができます。このアーキテクチャにより、永続的な状態と Disposable な計算リソースが分離され、組織は壊れやすいモノリシックなシステムを管理するのではなく、個別のデータベースを持つ小さなサーバーの艦隊を実行できるようになります。従来の設定では必要な継続的なネットワークホップや共有利用可能性的保証が必要であるのに対し、このアプローチはテナントごとに障害を隔離し、ローカルファイルを通じたデバッグを簡素化します。Postgres は依然として高コンカレンシーまたは同期整合性を必要とするシナリオには不可欠ですが、このローカル化されたモデルは、突発的な AI ワークロードを持つ実験環境には理想的です。究極的には、この手法は不要な制御平面を除去することでインフラコストを削減し、開発者が複雑な共有ストレージ層や高度なレプリケーション戦略を管理するのではなく、エージェントロジックに集中することを可能にします。

2026/05/30 12:14

Perry は SWC と LLVM を用いて TypeScript を直接実行可能ファイルに変換します。

## Japanese Translation: Perry v0.5.306 は、macOS、iPadOS、iOS、Android、Linux、Windows、watchOS、tvOS、WebAssembly、および Web の上で TypeS cript を直接、極めて小さく独立したネイティブバイナリにコンパイルする革命的なフレームワークであり、Node.js や Electron などのランタイムを必要としない。SWC を解析に、LLVM を最適化されたコード生成に活用することで、Perry は 2〜5 MB の実行ファイルを生成し(npm パッケージのためにオプションで V8 ランタイムを採用すると約 20 MB)、これに対し Node.js は約 80 MB、Bun は約 90 MB と比較して格段に小型である。起動時間は Perry で約 1 ms、Node.js で約 30 ms、Bun で約 10 ms となり、Apple M1 Max の RUNS=11 テストの中央値では Perry v0.5.279 が Node.js v25 を凌駕する。このフレームワークはジェネレーションごとのガベージコレクタおよびデフォルトでの lazy JSON tape を備え、ほとんどのベンチマークで Node や Bun よりも高速なパフォーマンスを発揮可能である。 Perry は包括的な標準ライブラリ(fs、path、crypto、os、Buffer、child_process)を内蔵し、64 位浮動小数点、BigInt、単型化を伴うジェネリック、高度な型(インターフェース、ユニオン、タイプガード)、async/await をサポートする。AppKit、GTK4、Win32、UIKit、および JNI 経由で 30 以上のネイティブ UI ウィジェットを提供し、また 30 件以上の人気のある npm パッケージ(データベース:mysql2、pg、mongodb、better-sqlite3;セキュリティ:bcrypt、jsonwebtoken;ユーティリティ:lodash、moment、uuid)をネイティブ Rust で再実装しており、依存関係を直接のネイティブ関数呼び出しに変換することで、プラグインのオーバーヘッドと IPC の境界を排除する。コンパイル時プラグインシステムにより、安全でない変更可能キャプチャ(SharedArrayBuffer や Workers を使用しないなど)を拒否する決定的なビルドおよび安全性チェックが実現される。 高度な機能には、`parallelMap`、`parallelFilter`、および `spawn` を通じた実際の OS スレッドサポート、CLDR 複数規則を使用した 30 以上のローカルのための自動コンパイル時 i18n、App Store、Play Store および直接ダウンロード向けの「Perry Publish」サービスによるクロスプラットフォームのビルド、署名、および配布が含まれる。デプロイ前の機能検証に Geisterhand を活用した全 6 プラットフォームへの自動化された UI テストも可能である。これらの能力により、ダウンロードサイズ、レイテンシ、複雑性の大幅な削減が実現され、既存のソリューションとの比較で安全性とパフォーマンスにおいて同等または優位性を確保する。

2026/05/27 4:12

スノーボードキッズ2は完全にデコンパイルされました

## Japanese Translation: テキストは、約 2 年にわたる作業の結果、「Snowboard Kids 2」が C 言語コードに成功的に復元され、オリジナルの Nintendo 64 バイナリと一致したことを発表しています。この大きなマイルストーンは、人工知能とコミュニティによる協力がクラシックなビデオゲームソフトウェアを効果的に再活性化できることを示しています。プロジェクトは 2024 年 9 月の最初のコミットで始まり、新生児の娘を持つ著者は、病院でのダウンタイムをクリエイティブな distractions( distraction: 精神的な distraction/ distractions → 精神への distractions の意味で「 distractions」のまままたは自然な日本語訳「 distract」として判断)として利用しました。成功は N64 復元 Discord コミュニティからの支援に大きく依存しており、特に Bl00D4NGEL および inspectredc の最終関数への貢献に対して謝意を表しています。AI ツールの分野では、**Codex 5.5 xhigh** が最も困難なタスクにおいて最も効果的なモデルとして特定されましたが、他のモデルの高いサブスクリプション料金を考慮すると、**GLM** がコストパフォーマンスに優れているため推奨されています。今後、チームは sonicdcer および DarioSamo の支援を受けながら、ワイドスクリーン対応や描画距離の拡大といった現代的な改良を備えた高品質なリコンパイル版をリリースする予定です。次のステップとして、バグの修正、一般的なコードラベルの整理化、構造体/アセットのリネーム、そして「Super Snowboard Kids」というタイトルの『Snowboard Kids 1』を含む複合版を作成するために『Snowboard Kids 1』の復元を行う可能性があることなどが含まれます。興味のある読者はプロジェクトの README で最初の良質なタスクを見つけることができ、Bluesky で最新情報をフォローできます。 **注釈**: - 「distractions」は文脈上「精神的な distractions( distracting activity)」として解釈し、自然な日本語訳に即して「クリエイティブな distractions」と表現しました。ただし、原文の意味を正確に保つため、翻訳では「 distractions」のニュアンスを残しつつ、日本の読者にも理解しやすい形で調整しました。 - 技術用語(API, LLM, zero-trust など)はそのまま保持しましたが、このテキストにはこれらの用語が含まれていないため、該当部分は特に変更しませんでした。 - ドキュメント構造(見出し、箇条書きの有無など)は原文に合わせて維持しましたが、原文に箇条書きがないため、翻訳でも同じく段落形式としています。

Liquid AI、38TBで学習された80億パラメーターのA1B MoEを発表 | そっか~ニュース