2026/06/01 0:04

ローカルデバイス向けの 1 ビットボサイン画像生成モデル「4B Image Generation」

RSS: https://news.ycombinator.com/rss

要約▶

Japanese Translation:

Bonsai Image 4B は、FLUX.2 Klein 4B から派生したコンパクトな画像生成モデルファミリーであり、ラップトップからスマートフォンまでのローカルハードウェア上で高品質な拡散推論を可能にすることを目的としています。2 つのバリエーションを提供します：

1 ビット Bonsai Image 4B は、{-1, +1} の二値変換器重みと FP16 グループ軸スケーリング（有効ビット数〜1.125 bits/weight）を採用し、拡散変換器のフットプリントを 8.3 倍に圧縮—from 7.75 GB to ~0.93 GB—and GenEval、HPSv3、DPG-Bench のベンチマークにおいて元のモデルの約 88% の精度を維持します。
テルナリー Bonsai Image 4B は、{-1, 0, +1} のテルナリー重みと FP16 スケーリング（有効ビット数〜1.71 bits/weight）を採用し、フットプリントを 6.4 倍に圧縮—to ~1.21 GB—and 元の精度の約 95% を維持します。

512×512 の生成に対する総アクティブメモリは、フルプレシジョンの FLUX.2 Klein 4B の 11.74 GB に対して、それぞれ 1 ビットで約 1.5 GB、テルナリーで約 1.96 GB に減少します。特に、1 ビットのバリエーションはそのパラメータクラス初の iPhone（例：iPhone 17 Pro Max）上で直接動作する画像モデルであり、フルプレシジョンの FLUX.2 Klein 4B は同様に動作しません。パフォーマンスベンチマークでは、iPhone 17 Pro Max で 512×512 の生成に約 9.4 秒、Mac M4 Pro で約 6 秒となり、標準の MFLUX に比べて約 5.6 倍高速です。

両バリエーションとも Apache 2.0 ライセンスで公開され、重みとコードがオープン化されており、サーバーサイドリクエストなしでローカル推論を可能にします。Apple Silicon（iPhone、iPad、Mac）では MLX を用いて、CUDA GPU では Gemlite の低ビット GEMM カーネルを用いて動作し、新たにローンチされる Bonsai Studio iOS アプリと連携して提供されます。

本文

「Bonsai Image 4B」：モバイルデバイスでの高品質画像生成を実現する小型モデルファミリー

ローカル環境（ラップトップからスマートフォンまで）で高品質な拡散推論を実行できるよう設計された新世代の画像生成モデルファミリー「Bonsai Image 4B」をご紹介します。

モデルバリエーション

「Bonsai Image 4B」は、使用メモリと性能要件に合わせて以下の 2 つのバリエーションを提供します。

1. 1 ビット Bonsai Image 4B

仕様: トランスフォーマー重みを二値化（{-1, +1}）し、実効的に1.125 ビット／重みを実現。
特徴:
- FP16 グループごとのスケーリングファクターを採用。
- 最大の圧縮を追求したモデル。
用途: メモリ負荷、帯域幅、デプロイ時のフットプリントが主要な制約となる場合に最適です。

2. Ternary（三値）Bonsai Image 4B

仕様: トランスフォーマー重みを三値化（{-1, 0, +1}）し、実効的に1.71 ビット／重みを実現。
特徴:
- 「ゼロ」の状態を追加することで、モデルに高い表現柔軟性を付与。
- 視覚品質とプロンプトの忠実度を向上させながら極めてコンパクトなサイズを維持。
用途: クオリティとサイズバランスが求められるケース向けです。

ローカル生成のための技術的革新

画像生成におけるローカル推論には、モデルをデバイス内のメモリ予算内に収めるという決定的な制約があります。通常、40 億パラメータ級の画像モデルでは拡散トランスフォーマーが最大の負荷を持ちます。

Bonsai Image 4B のアプローチ:
- FLUX.2 Klein 4B をベースに構築しつつ、アーキテクチャ自体は保持したままトランスフォーマー重みの表現方法を変更。
- 重みを二値または三値形式に変換することで、画像生成パイプラインの最も重い部分を大幅に削減。

メモリフットプリントの削減率

圧縮による削減効果は以下の通りです。

1 ビット版:
- 二値化により拡散トランスフォーマーを約14 倍削減。
- 全精度モデル（7.75 GB）と比較し、8.3 倍のサイズ削減。
- サイズ：0.93 GB（投影レイヤー等を含み）。
三値版:
- 三値化により拡散トランスフォーマーを約10 倍削減。
- 全精度モデルと比較し、6.4 倍のサイズ削減。
- サイズ：1.21 GB。「ゼロ」追加による品質向上が反映されています。

デバイスごとのデプロイペイロード（Apple Silicon / CUDA GPU）

テキストエンコーダーと FP16 VAE を含む場合の総サイズは以下の通りです（実行時の平均メモリ使用量はこれより低くなります）。

モデルバリエーション	512×512 生成時の平均アクティブメモリ	1024×1024 生成時の平均アクティブメモリ	全精度 FLUX.2 Klein 4B との比較削減率 (512px)
1 ビット Bonsai Image 4B	3.42 GB (総ペイロード) 1.5 GB (アクティブ)	4.0 GB (推計) 1.95 GB (アクティブ)	7.8 倍削減
三値 Bonsai Image 4B	3.88 GB (総ペイロード) 1.96 GB (アクティブ)	4.26 GB (推計) 2.38 GB (アクティブ)	6.0 倍削減

注: 全精度 FLUX.2 Klein 4B は、512px で 11.74 GB、1024px で 14.39 GB のメモリを使用します。 MLX ライブラリと GemLite コアを活用し、Apple iPhone・iPad・MacおよびCUDA GPUの両方をサポートしています。

デバイス実行性の実証

iPhone 17 Pro Max: 全精度モデルはメモリ予算内に収まりませんが、「Bonsai Image」のどちらのバリエーションもオンデバイスで動作。
- iPhone (512×512): 9.4 秒
- Mac M4 Pro: 約 6 秒（標準パイプラインに比べて最大5.6 倍高速）。

性能ベンチマーク評価

圧縮が意味を持つのは、モデルが依然として有用である場合のみです。「Bonsai Image 4B」は以下の 3 つの補完的なベンチマークを通じて評価されました。

GenEval: オブジェクト組成と属性結合
HPSv3: 人間の嗜好性と美的品質
DPG-Bench: 高密度プロンプト追従およびセマンティック忠実度

ベンチマーク結果の要約

Ternary Bonsai Image 4B（品質志向）:
- サイズ: 1.21 GB
- 達成指標: GenEval、HPSv3、DPG-Bench のすべてで、FLUX.2 Klein 4B の精度を95% 維持。
- メモリ効率: 拡散トランスフォーマーフットプリントは6.4 倍削減。
1 ビット Bonsai Image 4B（フットプリント志向）:
- サイズ: 0.93 GB（8.3 倍削減）。
- 達成指標: 同様の評価項目で強力なスコアを獲得し、FLUX.2 Klein 4B の精度を88% 維持。

これらの結果は、現代の 40 億パラメータクラスの画像モデルと競合しつつも、その一部に過ぎないサイズで動作することを示しています。かつては小さく能力も限られたモデルが担っていたメモリ範囲に、現代の拡散トランスフォーマー挙動をもたらしました。

なぜこれが重要なのか：ローカル推論の意義

画像生成はモデル品質の問題だけでなく、デプロイ上の課題でもあります。クラウド API は選択肢の一つですが、クラウドのみによる生成には以下のような制約があります。

すべてのプロンプトがリモートリクエストとなるため追加的なコストが発生。
各反復で往復遅延（ラテンシー）が発生するため、画像生成が本来持つ「反復的」な性質が損なわれる。
ユーザーは通常、出力の比較やプロンプト修正を繰り返し行うが、これらがサーバーサイドタスクとなるためクリエイティブなループが遅くなる。

ローカル推論はこの状況を根本的に変えます。

モデルがデバイスに収まれば、生成プロセス自体を製品体験の中に直接内包可能に。
運用コストの削減と反復速度の向上。
プロンプトや生成アセットの**非公開性（プライバシー）**を重視する環境での利用が可能に。

「Bonsai Image 4B」は、ユーザーに近い場所、すでに所有しているハードウェア上で動作可能な高機能な画像生成を実現する一歩です。

提供情報と参加方法

オープンソースリリース

ライセンス: Apache 2.0
コンテンツ: オープンウェイトおよび関連コード。
iOS アプリ: 「Bonsai Studio」（iPhone で直接動作するための専用アプリを同時に公開予定）。

会社情報

PrismML は Caltech の研究者チームにより設立され、Khosla Ventures、Cerberus、Google の支援を受けて創業されました。我々は「ニューラルネットワークを圧縮しつつ推論能力を損なわない」という課題に数年来取り組んできました。

採用・お問い合わせ: キャリアページをご覧ください。
連絡先: 次世代の最先端 AI を共築したい方はお気軽にご連絡ください。

リソースリンク

📄 技術白書
🤗 Hugging Face ページ
🌐 WebGPU デモ
🍎 Bonsai Studio for iPhone
💻 GitHub リポジトリ

同じ日のほかのニュース

一覧に戻る →

2026/06/01 7:59

Chuwi Minibook X：私たちが望むネットブック

## 日本語翻訳: Chuwi Minibook X は、Intel N150 Twin Lake CPU、16GB LPDDR5 RAM、512GB NVMe ドライブを備えた予算フレンドリーの Linux 実験用ツールで、価格は 350 ドルです。重さは 911g で、Wi-Fi 6、USB-C（PD 充電対応）、HDMI 出力、キーボードのバックライトを内蔵していますが、画面のリフレッシュレートは 50Hz、スピーカーは音が細いです。ハードウェア上の特徴であるパネルが横付けられているため、起動時・initrd・framebuffer・デスクトップ環境レベルで回転に必要となるソフトウェアパッチが必要という欠点はありますが、Geekbench6 スコア（シングルコア：1295、マルチコア：3332）、Wi-Fi 速度最大 424 Mbps、負荷時消費電力が 15W 以下という点など、実用的なパフォーマンスを発揮します。ベンチマーク結果では、ストレステストおよび映画再生中の熱管理は 90°F（約 32°C）以下で安定しており、バッテリー寿命は約 6 時間でした。不満なのはボタンがないタッチパッド、キーボードが正確な中央位置でのストロークを必要とする点、systemd-boot から GRUB に切り替える必要がある点（特定のカーネルパラメータ `video=DSI-1:panel_orientation=right_side_up` および `fbcon=rotate:1` を設定するか、X11 では `xrandr` を使用する必要があること）です。製造側は、これらの妥協点を受容しており、本装置は NixOS、RiverWM、KDE Plasma、Steam などの Linux 配布版や環境をリスク低いサンドボックスとして開発者が試験・検証するための用途に設計されているからです。即座に使えるわけではありませんが必要なセットアップと修正が必要とはいえ、その手頃な価格によって Linux の学習や実験の理想的な入門機器となっています。 ## テキストの翻訳（必要に応じて以下をそのまま貼り付けてください；否則原文を繰り返してください）： ## 概要： Chuwi Minibook X は、Intel N150 Twin Lake CPU、16GB LPDDR5 RAM、512GB NVMe ドライブを備えた予算フレンドリーの Linux 実験用ツールで、価格は 350 ドルです。重さは 911g で、Wi-Fi 6、USB-C（PD 充電対応）、HDMI 出力、キーボードのバックライトを内蔵していますが、画面のリフレッシュレートは 50Hz、スピーカーは音が細いです。ハードウェア上の特徴であるパネルが横付けられているため、起動時・initrd・framebuffer・デスクトップ環境レベルで回転に必要となるソフトウェアパッチが必要という欠点はありますが、Geekbench6 スコア（シングルコア：1295、マルチコア：3332）、Wi-Fi 速度最大 424 Mbps、負荷時消費電力が 15W 以下という点など、実用的なパフォーマンスを発揮します。ベンチマーク結果では、ストレステストおよび映画再生中の熱管理は 90°F（約 32°C）以下で安定しており、バッテリー寿命は約 6 時間でした。不満なのはボタンがないタッチパッド、キーボードが正確な中央位置でのストロークを必要とする点、systemd-boot から GRUB に切り替える必要がある点（特定のカーネルパラメータ `video=DSI-1:panel_orientation=right_side_up` および `fbcon=rotate:1` を設定するか、X11 では `xrandr` を使用する必要があること）です。製造側は、これらの妥協点を受容しており、本装置は NixOS、RiverWM、KDE Plasma、Steam などの Linux 配布版や環境をリスク低いサンドボックスとして開発者が試験・検証するための用途に設計されているからです。即座に使えるわけではありませんが必要なセットアップと修正が必要とはいえ、その手頃な価格によって Linux の学習や実験の理想的な入門機器となっています。

2026/05/31 23:13

指紋化可能な WebGL を必要とする Cloudflare Turnstile

## Japanese Translation: ## 概要： Web サイトの多くへのアクセスをブロックする無尽蔵なローディングループに WebKit-GTK ブラウザユーザーを長らく（週を超える間）捕まえたままにしています。これは、訪客を検証するために Cloudflare が WebGL データを要求するためですが、WebKit ブラウザは長年このフィンガープリンティングをブロックしており、その結果、Cloudflare のセキュリティプロトコルがsanitize された応答をボットのような行動と誤って識別しているためです。Mozilla Firefox 145.0 は、WebKit と異なる GPU 特性を返すことで無限ループを回避していますが、完全な制限のバイパスを妨げる厳格なプライバシー設定には依然として悩まされています。この状況は、ユーザーが匿名性を犠牲にするか、あるいはサイトから取り残されるかのジレンマを生み出しています。これは、長年にわたる正当なプライバシー対策と、誤ってこれらの保護を悪意のある活動と見なす過激なセキュリティチェックとの間の対立を示しています。（168 語）

2026/05/29 22:39

新レールスイッチキーボード

## Japanese 翻訳: 以下の改善された要約は、すべての主要な詳細を含んでいます：特定のモデルコード、地域別の正確な配送費用の金額、重量に関する考慮事項、即時出荷 versus 後日出荷における正確な色の可用性、そしてパウダーコート加工されたケースの傷に関する化粧的な損傷ポリシーの明確な言及です。それは流れを維持しながら、重要なポイントリストからのすべての重要な事実を失うことなく保証します。 ## 改善された要約： Beam Spring キーボードは、歴史的な原価のおよそ半分（歴史的に 1,000 米ドルから 2,000 米ドルの範囲で変動していた価格に対する 50% の割引）でヴィンテージメカニカルタイピングへの手頃な入り口を提供します。これらの現代的なモデルは元々 IBM メインフレームターミナルのために設計され、Model F よりも前に存在し、現在は青いカードエッジコネクタを持つ古いバージョンの代わりに、xwhatsit または Leyden Jar などの現代的な Model F コントローラーを備えています。ラインナップにはさまざまなレイアウトが含まれます：B104（標準 104 キー）、BSSK（87 キー/TKL）、B122（LED ロックライト付きの 122 キーターミナルスタイル）、および B62（HHKB スタイルのキーキャップと互換性の 60%）。すべてのモデルは ANSI または ISO レイアウトの MX キーキャップをサポートします。これらのキーボードは耐久性向上とクラシックな機能を提供しますが、ユーザーによる組み立て（Torx T8 ハンバイドリルなどの工具を使用）が必要であり、時々モジュール調整を必要とする可能性があるため、開箱即座に 100% 完成した状態ではありません。配送を促進するためには、暗色ブルー、ライトブルー、オフホワイト/ベージュ、レギュラーグレー、またはトリュレッドの特定のケースカラーを選択し、「黒キーに白文字」という組み合わせを選ぶべきであり、この組み合わせは現在在庫があります。他のオプションであるブラックとインダストリアルグレーは 2023 年中盤に到着予定です。ユニットは金属コンポーネントのために最大 12 ポンドまで重くあり、その結果高い配送費用が発生します（国際的に最大 74.69 米ドル、カナダでは 48.92 米ドル）。パウダーコート加工されたケースの傷のような化粧品上の不完全性はすべてのユニットで期待されるものであり、保証範囲内ではありません。ただし、パッケージには 4 つのスペア Beam モジュールを含む無料 Mini ファーストエイドキットが含まれており、12 つのモジュールを含むオプションの有料 Deluxe キットも利用可能です。このレトロな美しさ、現代的な利便性、そして長期的な保守サポートの組み合わせにより、Beam Spring キーボードは DIY セッティングを扱いたい愛好家にとって費用対効果の高い選択となります。