ビットネット:ローカルCPU向けの100 Bパラメータ・1ビットモデル

2026/03/11 21:27

ビットネット:ローカルCPU向けの100 Bパラメータ・1ビットモデル

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

BitNet.cpp は、CPU、GPU、および近日中に NPU での 1 ビット低精度言語モデルを高速かつロスレスに実行できるオープンソース推論フレームワークです。最初のリリースは CPU 推論に焦点を当て、ARM プロセッサでは 1.37×–5.07× の速度向上、x86 CPU では 2.37×–6.17× を実現し、電力消費を 55.4%–70.0%(ARM)および 71.9%–82.2%(x86)削減します。約 5〜7 トークン/秒で 100 B BitNet b1.58 モデルを実行でき、これは人間の読み速度に相当し、Apple M2 チップ上でもスムーズに動作する 3 B デモモデルなど、幅広いモデルをサポートします。
フレームワークは llama.cpp をベースにしており、T‑MAC のルックアップテーブル手法を活用しています。また、並列カーネル最適化(追加で 1.15×–2.1× の速度向上)と設定可能なタイル/埋め込み量子化も組み込んでいます。主なマイルストーンは、CPU 最適化(2026年01月15日)、GPU カーネル(2025年05月20日)、Hugging Face 2B パラメータモデルリリース(2025年04月14日)および ternary LLM のエッジ推論効率化(2025年02月18日)です。
今後のアップデートでは NPU 対応、さらなる最適化、CPU カバレッジ拡大、および ternary モデルへのエッジ推論拡張を目指します。ユーザーは Python ≥ 3.9、CMake ≥ 3.22、Clang ≥ 18(Windows では Visual Studio 2022 コンポーネントが必要)をインストールし、リポジトリをクローンして conda 環境を設定し、

models/
にモデルをダウンロードした後、
setup_env.py
run_inference.py
で推論を実行します。ベンチマークユーティリティ(
e2e_benchmark.py
)ではカスタムプロンプト、トークン数、およびスレッド設定が可能です。FAQ は、Windows 上の llama.cpp の
std::chrono
と Visual Studio ツール初期化に関する一般的なビルド問題を扱っています。

この改訂版要約は、主要な定量詳細、マイルストーン日付、モデルサポート情報、および実用的なインストールノートをすべて保持しつつ、メッセージの主旨を明確かつ簡潔に保っています。

本文

bitnet.cpp

デモを試すか、CPUまたはGPUで自分の環境にビルド&実行してみてください。

bitnet.cpp
は 1‑bit LLM(例:BitNet b1.58)の公式推論フレームワークです。
CPU と GPU(NPU サポートは次回予定)で 1.58‑bit モデルを高速かつロスレスに推論するための最適化カーネルセットが用意されています。

  • 初期リリースでは CPU 推論のみ対応しています。
  • スピードアップ:
    • ARM CPU – 1.37× – 5.07×(大きいモデルほど効果大)
    • x86 CPU – 2.37× – 6.17×
  • エネルギー削減:
    • ARM:55.4% – 70.0%
    • x86:71.9% – 82.2%
  • 単一の CPU で BitNet b1.58 の 100B モデルを 5‑7 トークン/秒実行可能。人間の読書速度と同等です。

最新最適化では、並列カーネル実装に加え、タイル設定や埋め込み量子化サポートが追加され、プラットフォーム横断で 1.15× – 2.1× のさらなるスピードアップを実現しています。詳細は技術レポートをご覧ください。


デモ

Apple M2 上で BitNet b1.58 3B モデルを走らせる例:

demo.mp4

新機能・リリースノート

日付リリース
01/15/2026BitNet CPU 推論最適化
05/20/2025BitNet GPU 推論カーネル公式版
04/14/2025Hugging Face 上に BitNet 2B パラメータモデル公開
02/18/2025bitnet.cpp:テッセラリ LLM のエッジ推論を効率化
11/08/2024BitNet a4.8:1‑bit LLM 用 4‑bit 活性化
10/21/20241‑bit AI インフラ:Part 1.1、CPU 上での高速かつロスレス BitNet b1.58 推論
10/17/2024bitnet.cpp 1.0 公開
03/21/20241‑bit LLM の時代 – トレーニングヒント & コード FAQ
02/27/20241‑bit LLM の時代:全ての大規模言語モデルは 1.58 ビットで構成
10/17/2023BitNet: 大規模言語モデル用 1‑bit Transformer のスケーリング

謝辞

本プロジェクトは llama.cpp フレームワークをベースにし、T‑MAC が開発した Lookup Table 手法を採用しています。テッセラリ(3‑ビット)以外の低ビット LLM には T‑MAC の使用を推奨します。


公式モデル

モデルパラメータ数CPU カーネル
BitNet‑b1.58‑2B‑4T2.4 B✅ (x86)
❌ (ARM)

TL1/TL2 は量子化スキームを指します。


対応モデル

モデルパラメータ数CPU カーネル
bitnet_b1_58‑large0.7 B✅ (x86)
❌ (ARM)
bitnet_b1_58‑3B3.3 B❌ (x86)
✅ (ARM)
Llama3‑8B‑1.58‑100B‑tokens8.0 B✅ (x86)
❌ (ARM)
Falcon3 Family (1 B–10 B)1 B–10 B✅ (x86)
❌ (ARM)
Falcon‑E Family (1 B–3 B)1 B–3 B✅ (x86)
❌ (ARM)

インストール

必要条件

  • Python ≥ 3.9
  • CMake ≥ 3.22
  • Clang ≥ 18

Windows

Visual Studio 2022 をインストールし、以下を有効化してください:

Desktop development with C++
C++ CMake Tools for Windows
Git for Windows
C++ Clang Compiler for Windows
MS Build Support for LLVM Toolset (clang)

Debian/Ubuntu

bash -c "$(wget -O - https://apt.llvm.org/llvm.sh)"

Conda(推奨):

conda create -n bitnet-cpp python=3.9
conda activate bitnet-cpp
pip install -r requirements.txt

ソースからビルド

git clone --recursive https://github.com/microsoft/BitNet.git
cd BitNet

Windows での注意点

VS2022 の Developer Command Prompt または PowerShell を必ず使用してください。

# モデルをローカルにダウンロード(例)
huggingface-cli download microsoft/BitNet-b1.58-2B-4T-gguf --local-dir models/BitNet-b1.58-2B-4T

# 環境設定
python setup_env.py -md models/BitNet-b1.58-2B-4T -q i2_s

setup_env.py
のオプション

オプション説明
--hf-repo
モデルリポジトリ(例:1bitLLM/bitnet_b1_58-large 等)
--model-dir
,
-md
モデルを保存/読み込むディレクトリ
--log-dir
,
-ld
ログ用ディレクトリ
--quant-type
,
-q
量子化タイプ(
i2_s
または
tl1
--quant-embd
埋め込みを f16 に量子化
--use-pretuned
,
-p
事前調整済みカーネルパラメータを使用

推論実行

python run_inference.py -m models/BitNet-b1.58-2B-4T/ggml-model-i2_s.gguf \
                        -p "You are a helpful assistant" -cnv

run_inference.py
のオプション

オプション説明
-m
,
--model
モデルファイルへのパス
-n
,
--n-predict
予測するトークン数
-p
,
--prompt
プロンプトテキスト
-t
,
--threads
スレッド数
-c
,
--ctx-size
プロンプトコンテキストサイズ
-temp
,
--temperature
温度(乱数性)
-cnv
,
--conversation
チャットモードを有効化

ベンチマーク

python utils/e2e_benchmark.py -m /path/to/model \
                              -n 200 -p 256 -t 4

引数

  • -m, --model
    :必須。モデルファイルへのパス。
  • -n, --n-token
    :生成するトークン数(デフォルト 128)。
  • -p, --n-prompt
    :使用するプロンプトトークン数(デフォルト 512)。
  • -t, --threads
    :使用するスレッド数(デフォルト 2)。

サポート外のレイアウトの場合はダミーモデルを生成します:

python utils/generate-dummy-bitnet-model.py models/bitnet_b1_58-large \
    --outfile models/dummy-bitnet-125m.tl1.gguf \
    --outtype tl1 --model-size 125M

# ダミーモデルのベンチマーク
python utils/e2e_benchmark.py -m models/dummy-bitnet-125m.tl1.gguf \
                              -p 512 -n 128

.safetensors
を GGUF に変換

# チェックポイントを準備
huggingface-cli download microsoft/bitnet-b1.58-2B-4T-bf16 --local-dir ./models/bitnet-b1.58-2B-4T-bf16

# 変換
python utils/convert-helper-bitnet.py ./models/bitnet-b1.58-2B-4T-bf16

よくある質問(FAQ)

Q1:

std::chrono
が原因で
llama.cpp
のビルドが失敗する場合は?

A: 最近発生した問題です。該当コミットの修正を参照してください。

Q2: Windows 上の Conda で clang を使ってビルドするには?
A: ビルド前に clang と VS ツールが利用可能か確認します:

  • Command Prompt

    "C:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\Tools\VsDevCmd.bat" -startdir=none -arch=x64 -host_arch=x64
    
  • PowerShell

    Import-Module "C:\Program Files\Microsoft Visual Studio\2022\Professional\Common7\Tools\Microsoft.VisualStudio.DevShell.dll"
    Enter-VsDevShell 3f0e31ad -SkipAutomaticLocation -DevCmdArguments "-arch=x64 -host_arch=x64"
    

これにより clang を正しく使用できる環境が整います。

同じ日のほかのニュース

一覧に戻る →

2026/03/12 0:35

**Temporal:JavaScript で時間を直すための9 年間の旅**

## Japanese Translation: > Bloomberg の JavaScript インフラストラクチャチームは、Chromium(ブラウザ用)、Node.js(サーバー用)、SpiderMonkey(埋め込み用途)という統一されたランタイムスタックを提供し、そのエンジニアリングワークフォースを支援しています。 > このチームは TC39 を通じて Temporal の提案を推進する上で重要な役割を果たしており、Igalia と緊密に協力し代表者として活動しています。Promise.allSettled、Arrow Functions、BigInt、Class Fields などへの貢献で知られる Jason Williams がこの取り組みを主導しました。 > Temporal は JavaScript の可変 Date オブジェクトを不可変型(PlainDate、PlainTime、ZonedDateTime、Instant)に置き換え、明示的なタイムゾーンとカレンダーのサポート、およびナノ秒精度を提供します。2024 年 6 月に Stage 4 に達し、現在は ES2026 スペックの一部となっています。 > Bloomberg の金融ユースケースでは、設定可能なタイムゾーン、最新の IANA tzdata、そして高精度のタイムスタンプが必要であり、これが Temporal の開発を推進しました。この提案は Google Internationalization チーム、Boa、Kevin Ness、Manish Goregaokar、Jose Espina によって構築された Rust ライブラリ *temporal_rs* を通じて協力的に実装され、現在約 4,500 件の Test262 テストに合格しています。 > ブラウザサポートのマイルストーンは次のとおりです:Firefox v139(2025 年 5 月)、Chrome v144 & Edge v144(2026 年 1 月);Node.js v26 および TypeScript 6.0 Beta(2026 年 2 月)も近々期待されています。Safari は部分的なプレビューを提供しています。 > 主な実装上の課題には、提案サイズ(ECMA‑402 より大きい)、仕様の揺らぎ、パフォーマンス要求、および大規模テストスイートの必要性が含まれます。 > 今後の作業は Temporal を既存の Web API(デートピッカー、DOMHighResTimeStamp、クッキー有効期限など)と統合し、従来の Date ベースのライブラリとの後方互換性を確保することに焦点を当てています。 > Microsoft、Google、Mozilla、Bloomberg、Igalia、Boa、および独立した貢献者間の協力は、重複を減らし JavaScript エコシステム全体でイノベーションを加速させる共有インフラストラクチャモデルを示しています。 この改訂された概要はすべての主要ポイントを保持し、不当な推論を排除し、明確で曖昧さのない物語を提示します。

2026/03/12 4:29

生成・AI で編集されたコメントを投稿しないでください。HN は人と人との対話の場です。

## 日本語訳: (すべての重要ポイントを含む)** このポリシーは明確な使命を示しています。ハッキング、スタートアップ、および関連技術テーマに関する好奇心駆動型ディスカッションを開催し、政治・犯罪・スポーツ・有名人ゴシップ(新たな現象が明らかでない限り)は厳格に除外します。 この焦点を維持するため、ガイドラインはオントピックとオフトピックのコンテンツを区別し、投稿にはオリジナルソースの使用(再投稿時は引用)を求め、タイトルで宣伝的言語を禁止します。タイトルは大文字・感嘆符・過剰な数字や形容詞を避け、サイト名を含まないようにし、代わりに強調のためにアスタリスクを使用できます。動画またはPDF投稿の場合、タイトルに「[video]」または「[pdf]」を付加します。 コメントは思慮深く実質的であることが期待されます。皮肉・浅い軽蔑・炎上誘発・政治/イデオロギー戦争は排除し、人物ではなく議論に対処すべきです。AI生成または編集されたコメントは禁止されており、全てのディスカッションは人間同士で行われることを意図しています。アップボートやコメントの要請は禁じられており、投票とコメントは真剣な関心から生まれるべきです。 モデレーションは過度に差し控えめな発言をフラグ付けすることに重点を置き、形式ルールを強化し、イデオロギー対立を会話から排除します。その結果、誤情報・センセーション主義・宣伝活動を抑制しつつ、集中した技術的探求を奨励するプラットフォームが実現されます。

2026/03/12 5:56

多くのSWE bench‑passing PR はマージされることがないでしょう。

## Japanese Translation: **概要:** 本研究では、2024年中頃から2025年末までに提出された296件のAI生成プルリクエスト(PR)を、scikit‑learn、Sphinx、および pytest の3つの主要なソフトウェア工学ベンチマークリポジトリで、4名の活発なメンテナーから検証しました。これらの PR の約半分は、メンテナーの判断にノイズを加えてもメインブランチへマージされませんでした。平均して、自動評価者(グレーダー)の合格率はメンテナーのマージ率より 24.2 パーセントポイント高く、統計的に有意であることが示されました。メンテナーの年次改善率はグレーダーのそれを約 9.6 pp/yr 遅れ、弱いながらも統計的に有意な結果でした。 メンテナーは主にコード品質(スタイル不備やリポジトリ標準への非準拠)を理由に PR を拒否しました。他の失敗要因としては既存コードの破損、コア機能の喪失、および自動グレーダーの失格が挙げられます。Claude 3.5 Sonnet から Claude 3.7 Sonnet へのモデルアップグレードにより合格率は上昇しましたが、同時にコア機能拒否も増加し、後続のアップグレードでは主にコード品質の改善が見られました。GPT‑5 は Anthropic モデルと比べてコード品質で顕著に劣り、マージ率を低下させました。 ヒューマン「ゴールデン」パッチは 68 % のメンテナー マージ率と約 90 % のマージ可能性向上率を示し、このベースラインがモデルスコアの正規化に使用されました。PR を再評価して ≥80 % のマージ可能性進捗に達した場合、結果は合格率分析と同様であり、AI パッチの約 50 % が閾値を満たし、ゴールデンパッチでは約 100 % に相当しました。時間軸解析では、自動グレーダーがメンテナー評価に対してモデル能力を約7倍過大評価していることが明らかになりました。 制限点としては、リポジトリカバレッジの限定(検証済みリポジトリ 3/12)、レビュー時の継続的インテグレーションの欠如、および静的評価に留まるパッチ評価が挙げられます。著者は、ベンチマークスコアからの単純な外挿は誤解を招くと結論付けており、メンテナーによるレビューこそがエージェント有用性をより現実的に測定する手段であると示しています。