
2026/06/01 0:04
ローカルデバイス向けの 1 ビットボサイン画像生成モデル「4B Image Generation」
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Bonsai Image 4B は、FLUX.2 Klein 4B から派生したコンパクトな画像生成モデルファミリーであり、ラップトップからスマートフォンまでのローカルハードウェア上で高品質な拡散推論を可能にすることを目的としています。2 つのバリエーションを提供します:
- 1 ビット Bonsai Image 4B は、{-1, +1} の二値変換器重みと FP16 グループ軸スケーリング(有効ビット数〜1.125 bits/weight)を採用し、拡散変換器のフットプリントを 8.3 倍に圧縮—from 7.75 GB to ~0.93 GB—and GenEval、HPSv3、DPG-Bench のベンチマークにおいて元のモデルの約 88% の精度を維持します。
- テルナリー Bonsai Image 4B は、{-1, 0, +1} のテルナリー重みと FP16 スケーリング(有効ビット数〜1.71 bits/weight)を採用し、フットプリントを 6.4 倍に圧縮—to ~1.21 GB—and 元の精度の約 95% を維持します。
512×512 の生成に対する総アクティブメモリは、フルプレシジョンの FLUX.2 Klein 4B の 11.74 GB に対して、それぞれ 1 ビットで約 1.5 GB、テルナリーで約 1.96 GB に減少します。特に、1 ビットのバリエーションはそのパラメータクラス初の iPhone(例:iPhone 17 Pro Max)上で直接動作する画像モデルであり、フルプレシジョンの FLUX.2 Klein 4B は同様に動作しません。パフォーマンスベンチマークでは、iPhone 17 Pro Max で 512×512 の生成に約 9.4 秒、Mac M4 Pro で約 6 秒となり、標準の MFLUX に比べて約 5.6 倍高速です。
両バリエーションとも Apache 2.0 ライセンスで公開され、重みとコードがオープン化されており、サーバーサイドリクエストなしでローカル推論を可能にします。Apple Silicon(iPhone、iPad、Mac)では MLX を用いて、CUDA GPU では Gemlite の低ビット GEMM カーネルを用いて動作し、新たにローンチされる Bonsai Studio iOS アプリと連携して提供されます。
本文
「Bonsai Image 4B」:モバイルデバイスでの高品質画像生成を実現する小型モデルファミリー
ローカル環境(ラップトップからスマートフォンまで)で高品質な拡散推論を実行できるよう設計された新世代の画像生成モデルファミリー「Bonsai Image 4B」をご紹介します。
モデルバリエーション
「Bonsai Image 4B」は、使用メモリと性能要件に合わせて以下の 2 つのバリエーションを提供します。
1. 1 ビット Bonsai Image 4B
- 仕様: トランスフォーマー重みを二値化({-1, +1})し、実効的に1.125 ビット/重みを実現。
- 特徴:
- FP16 グループごとのスケーリングファクターを採用。
- 最大の圧縮を追求したモデル。
- 用途: メモリ負荷、帯域幅、デプロイ時のフットプリントが主要な制約となる場合に最適です。
2. Ternary(三値)Bonsai Image 4B
- 仕様: トランスフォーマー重みを三値化({-1, 0, +1})し、実効的に1.71 ビット/重みを実現。
- 特徴:
- 「ゼロ」の状態を追加することで、モデルに高い表現柔軟性を付与。
- 視覚品質とプロンプトの忠実度を向上させながら極めてコンパクトなサイズを維持。
- 用途: クオリティとサイズバランスが求められるケース向けです。
ローカル生成のための技術的革新
画像生成におけるローカル推論には、モデルをデバイス内のメモリ予算内に収めるという決定的な制約があります。通常、40 億パラメータ級の画像モデルでは拡散トランスフォーマーが最大の負荷を持ちます。
- Bonsai Image 4B のアプローチ:
- FLUX.2 Klein 4B をベースに構築しつつ、アーキテクチャ自体は保持したままトランスフォーマー重みの表現方法を変更。
- 重みを二値または三値形式に変換することで、画像生成パイプラインの最も重い部分を大幅に削減。
メモリフットプリントの削減率
圧縮による削減効果は以下の通りです。
- 1 ビット版:
- 二値化により拡散トランスフォーマーを約14 倍削減。
- 全精度モデル(7.75 GB)と比較し、8.3 倍のサイズ削減。
- サイズ:0.93 GB(投影レイヤー等を含み)。
- 三値版:
- 三値化により拡散トランスフォーマーを約10 倍削減。
- 全精度モデルと比較し、6.4 倍のサイズ削減。
- サイズ:1.21 GB。「ゼロ」追加による品質向上が反映されています。
デバイスごとのデプロイペイロード(Apple Silicon / CUDA GPU)
テキストエンコーダーと FP16 VAE を含む場合の総サイズは以下の通りです(実行時の平均メモリ使用量はこれより低くなります)。
| モデルバリエーション | 512×512 生成時の平均アクティブメモリ | 1024×1024 生成時の平均アクティブメモリ | 全精度 FLUX.2 Klein 4B との比較削減率 (512px) |
|---|---|---|---|
| 1 ビット Bonsai Image 4B | 3.42 GB (総ペイロード) 1.5 GB (アクティブ) | 4.0 GB (推計) 1.95 GB (アクティブ) | 7.8 倍削減 |
| 三値 Bonsai Image 4B | 3.88 GB (総ペイロード) 1.96 GB (アクティブ) | 4.26 GB (推計) 2.38 GB (アクティブ) | 6.0 倍削減 |
注: 全精度 FLUX.2 Klein 4B は、512px で 11.74 GB、1024px で 14.39 GB のメモリを使用します。 MLX ライブラリと GemLite コアを活用し、Apple iPhone・iPad・MacおよびCUDA GPUの両方をサポートしています。
デバイス実行性の実証
- iPhone 17 Pro Max: 全精度モデルはメモリ予算内に収まりませんが、「Bonsai Image」のどちらのバリエーションもオンデバイスで動作。
- iPhone (512×512): 9.4 秒
- Mac M4 Pro: 約 6 秒(標準パイプラインに比べて最大5.6 倍高速)。
性能ベンチマーク評価
圧縮が意味を持つのは、モデルが依然として有用である場合のみです。「Bonsai Image 4B」は以下の 3 つの補完的なベンチマークを通じて評価されました。
- GenEval: オブジェクト組成と属性結合
- HPSv3: 人間の嗜好性と美的品質
- DPG-Bench: 高密度プロンプト追従およびセマンティック忠実度
ベンチマーク結果の要約
- Ternary Bonsai Image 4B(品質志向):
- サイズ: 1.21 GB
- 達成指標: GenEval、HPSv3、DPG-Bench のすべてで、FLUX.2 Klein 4B の精度を95% 維持。
- メモリ効率: 拡散トランスフォーマーフットプリントは6.4 倍削減。
- 1 ビット Bonsai Image 4B(フットプリント志向):
- サイズ: 0.93 GB(8.3 倍削減)。
- 達成指標: 同様の評価項目で強力なスコアを獲得し、FLUX.2 Klein 4B の精度を88% 維持。
これらの結果は、現代の 40 億パラメータクラスの画像モデルと競合しつつも、その一部に過ぎないサイズで動作することを示しています。かつては小さく能力も限られたモデルが担っていたメモリ範囲に、現代の拡散トランスフォーマー挙動をもたらしました。
なぜこれが重要なのか:ローカル推論の意義
画像生成はモデル品質の問題だけでなく、デプロイ上の課題でもあります。クラウド API は選択肢の一つですが、クラウドのみによる生成には以下のような制約があります。
- すべてのプロンプトがリモートリクエストとなるため追加的なコストが発生。
- 各反復で往復遅延(ラテンシー)が発生するため、画像生成が本来持つ「反復的」な性質が損なわれる。
- ユーザーは通常、出力の比較やプロンプト修正を繰り返し行うが、これらがサーバーサイドタスクとなるためクリエイティブなループが遅くなる。
ローカル推論はこの状況を根本的に変えます。
- モデルがデバイスに収まれば、生成プロセス自体を製品体験の中に直接内包可能に。
- 運用コストの削減と反復速度の向上。
- プロンプトや生成アセットの**非公開性(プライバシー)**を重視する環境での利用が可能に。
「Bonsai Image 4B」は、ユーザーに近い場所、すでに所有しているハードウェア上で動作可能な高機能な画像生成を実現する一歩です。
提供情報と参加方法
オープンソースリリース
- ライセンス: Apache 2.0
- コンテンツ: オープンウェイトおよび関連コード。
- iOS アプリ: 「Bonsai Studio」(iPhone で直接動作するための専用アプリを同時に公開予定)。
会社情報
PrismML は Caltech の研究者チームにより設立され、Khosla Ventures、Cerberus、Google の支援を受けて創業されました。我々は「ニューラルネットワークを圧縮しつつ推論能力を損なわない」という課題に数年来取り組んできました。
- 採用・お問い合わせ: キャリアページをご覧ください。
- 連絡先: 次世代の最先端 AI を共築したい方はお気軽にご連絡ください。
リソースリンク
- 📄 技術白書
- 🤗 Hugging Face ページ
- 🌐 WebGPU デモ
- 🍎 Bonsai Studio for iPhone
- 💻 GitHub リポジトリ