2026/06/06 1:18

Gemma 4 クオンタ化モデル：モバイルおよびノートブック機器向け最適圧縮の実現

RSS: https://news.ycombinator.com/rss

要約▶

Japanese Translation:

Google は、量化感受性トレーニング（QAT）を採用することで、Gemma 4 モデルをローカルおよびエッジデバイス向けに最適化しています。標準的な手法のようにトレーニング後にモデルを圧縮する方法とは異なり、QAT はこのプロセスを学習段階に直接統合し、品質の著しい低下を防ぎます。このアプローチにより、テキスト専用バージョンのモデルを約 1GB のメモリ使用量でモバイルハードウェア上で動作させることができ、スマートフォンやタブレットにおいて高度な AI が利用可能になります。リリースは広範な互換性を確保するため Hugging Face を介して未量化のチェックポイントを提供すると同時に、llama.cpp などのツールで使用される効率的な GGUF フォーマットもサポートしています。開発者はすぐに Ollama などの人気インターフェースを使用してこれらのモデルをデプロイし、Unsloth などの標準ライブラリでファインチューニングを行うことができます。さらに、新しいフォーマットには、圧縮データを特定のエアクセラタ設計に完全に適合させるために設計されたカスタムスキーマが含まれています。この進歩により、Apple Silicon へのサポートが MLX および Google の LiteRT-LM ランタイムを介して拡張され、高性能 AI と広範なオンデバイスデプロイメントの間に存在するギャップを埋めることができました。これには強力なクラウドインフラストラクチャを必要とせずに行われます。

本文

Gemma 4 新チェックポイント公開：QAT 最適化でエッジデバイスでの動作を実現

Gemma 4 から 2 ヶ月が経過し、能力拡張の取り組みが続々と展開されています。本日、**クアンタライゼーションに敏感な訓練（QAT: Quantization-Aware Training）**で最適化された新しいチェックポイントを公開いたします。これにより、モデルはさらに効率的となり、エッジデバイスや消費者向け GPU でのローカル実行が可能になります。

✅ 最新のリリースと改善点

推論速度向上: マルチトークン予測（MTP）導入により処理速度を強化。
モデルラインナップ: E4B モデルとのギャップを埋める12B モデルも近日リリース予定。
QAT チェックポイント公開: 訓練段階でクアンタライゼーションをシミュレーションし、圧縮時の品質劣化を最小限に抑えました。
対応フォーマット: 広く利用されているQ4_0 フォーマットに加え、モバイルユースケース特化の新たな形式も提供します。

📉 モデルの小型化と品質維持

クアンタライゼーションはメモリ削減とデコード速度向上を実現する重要な技術ですが、標準的な PTQ（訓練後クエンタイゼーション）ではパフォーマンス低下を招く場合があります。そこで、QAT はクエンタイゼーションプロセス自体を訓練に統合し、標準的 PTQ ベースラインと比較しても高い品質を維持します。

すべてのモデル: 広く利用されている Q4_0 フォーマットに QAT レシピを適用し性能最大化を図りました。
エッジ向けモデル（E2B / E4B）: モバイル環境特化のスキーマを見直し、新しいアプローチを採用しました。
- これにより、Gemma 4 E2B モデルのメモリ使用量を 1GB に削減することに成功しています。

💾 VRAM とストレージコストの削減

QAT を採用することで期待される機能と品質を損なうことなく、必要なメモリリソースを劇的に削減できます（詳細なデータ表は省略）。

📱 モバイルデバイスを最適化した技術背景

標準的な圧縮形式はモバイルプロセッサでの処理が困難な場合があるため、独自スキーマを開発しました。

静的アクティベーション
- データリアルタイムスケーリング計算による処理能力の無駄を排除。
- 訓練段階で設定を事前に計算し、モバイルチップ上のワークロード削減と応答速度向上を実現。
チャネル単位クエンタイゼーション
- 圧縮データをモバイルアクセラレーターの設計に合わせて構成。
- スマートフォンがネイティブに演算を実行可能（遅い回避処理不要）。
ターゲット指向の 2 ビットクエンタイゼーション
- トークン生成部分で heavily compress（2 ビット圧縮）しつつ、核心的な推論レイヤーには高精度維持。
- 知能性を損なわずにストレージ使用量削減。
埋め込み行列および KV キャッシュの最適化
- 語彙リストと短期記憶（KV カード）に特に焦点を当てた圧縮。
- アクティブメモリフットプリントの大幅削減により、メモリ不足なしで長時間会話が可能。

メモリのさらなる最適化: 音声や画像エンコーダーが不要なユースケースでは、必要なモダリティのみをデプロイします。例えばテキスト専用モデルである Gemma 4 E2B は 1GB 未満のメモリで動作します。

🚀 今日からすぐにお試しください

Hugging Face の主要開発ツールとの連携により、QAT チェックポイントをシームレスに対応しています。

🔽 ウェイトのダウンロード

Hugging Face で今すぐアクセス可能。
- 対応形式:
```
GGUF
```
  （llama.cpp 互換）、圧縮テンソル形式（vLLM 用）。
- その他用途: Q4_0 をサポートする非クエンタイゼーション済みチェックポイントも共有しています。

💻 ローカル環境での活用方法

デスクトップ:
```
llama.cpp
```
、
```
Ollama
```
、
```
LM Studio
```
などを活用し、ローカルで容易にダウンロード・実行可能。
オンデバイスデプロイ:
- ```
LiteRT-LM
```
  を用いてエッジ環境向け最適化デプロイ。
- ```
Transformers.js
```
  でウェブ上で直接モデルを実行。
開発ツール連携:
- ```
SGLang
```
  、
```
vLLM
```
  : 大規模モデルの効率的な提供。
- ```
MLX
```
  : Apple シリコン向け最適化。
- MTP QAT チェックポイント: MTP の速度向上効果を維持したままクエンタイゼーション可能。
- ファインチューニング:
```
Hugging Face Transformers
```
  や
```
Unsloth
```
  を用いてウェイトを直接学習。

**「文書」**を確認して、最適なデプロイ方法をご確認ください。

Gemna 4 をローカル環境で動かして、どのようなものをご作成されるのか心からお待ちしております！

同じ日のほかのニュース

一覧に戻る →

2026/06/06 9:33

現代カメラレンズ修理の複雑さ（2024年）

## Japanese Translation: ユーザーは、Lumix S5 カメラとのペアリング後に電子制御が停止していたシグマ 45mm f/2.8 I シリーズレンズを正常に復旧させた。修理は、制御用印刷回路基板（PCB）上の破損したヒューズを交換することで達成され、これは TI ブックコンバーター（TI Buck コンバーター）を保護するものである。分解の結果、特定のコマンドが故障していることが明らかになり、それは長い間自動フェーズコンポジション（AFC）オートフォーカスを使用した場合に引き起こされた過電流イベントによる可能性が高い。マルチメータ測定で損傷が確認され、フレックスケーブルや東芝製のマイクロコントローラーを含む他の部品が健全であることも同時に検証された。このプロジェクトは低価格での eBay 購入から始まり、シグマの GrabCAD から入手した無料の 3D プリンティング用治具により高精度な診断プロービングが可能となった。1 時間未満で完了し、現在、園芸写真や電子機器ドキュメンテーションなどの用途に対して完全に機能している。この修理は、高価な電子故障を分解して全体を廃棄するのではなく、ターゲットとした部品交換によって迅速に解決できることを実証している。また、類似のシグマレンズをトラブルシューティングする際に内部電源トレースとヒューズ定格を理解することの重要性も示している。 ## Summary: ユーザーは、Lumix S5 カメラとのペアリング後に電子制御が停止していたシグマ 45mm f/2.8 I シリーズレンズを正常に復旧させた。修理は、制御用印刷回路基板（PCB）上の破損したヒューズを交換することで達成され、これは TI ブックコンバーター（TI Buck コンバーター）を保護するものである。分解の結果、特定のコマンドが故障していることが明らかになり、それは長い間自動フェーズコンポジション（AFC）オートフォーカスを使用した場合に引き起こされた過電流イベントによる可能性が高い。マルチメータ測定で損傷が確認され、フレックスケーブルや東芝製のマイクロコントローラーを含む他の部品が健全であることも同時に検証された。このプロジェクトは低価格での eBay 購入から始まり、シグマの GrabCAD から入手した無料の 3D プリンティング用治具により高精度な診断プロービングが可能となった。1 時間未満で完了し、現在、園芸写真や電子機器ドキュメンテーションなどの用途に対して完全に機能している。この修理は、高価な電子故障を分解して全体を廃棄するのではなく、ターゲットとした部品交換によって迅速に解決できることを実証している。また、類似のシグマレンズをトラブルシューティングする際に内部電源トレースとヒューズ定格を理解することの重要性も示している。

2026/06/06 12:36

ロックダウンモード

## Japanese Translation: マイクロソフトは、「Lockdown Mode」というオプションの高度なセキュリティ設定をロールアウトしています。この機能は、プロンプトインジェクション攻撃から生じるデータ流出リスクを大幅に低減することを目的としており、ライブウェブ閲覧、深層リサーチ、画像分析、エージェント機能へのアクセスを制限することで実現します。本機能は、適格な個人アカウント（Free、Go、Plus、Pro）およびセルフサービス型の ChatGPT ビジネスアカウントで利用可能です。ただし、導入状況は地域やユーザーの状態によって異なります。管理者は、RBAC を通じてユーザーにカスタム「Lockdown Mode」ロールを割り当てることで制限を強制でき、これにより自動的に Developer Mode が無効化され、信頼できないアプリに対するコネクタの書込み操作などの高リスクアクションが制限されます。Lockdown Mode は外部ソースからのリスクを効果的に低下させますが、アップロードされたファイルや有効化されたアプリなどからのものでないすべての攻撃を防ぐ保証は提供せず、明示的に管理されない限り、同期コネクタなどの中リスク項目が活性状態のままになる可能性があります。個人アカウントでは、ライブコネクタへのアクセスがブロックされますが、同期されたデータの使用は許可されます。管理されたワークスペースの管理者は、信頼できるアプリ/アクションを手動で有効化する必要があるため、Lockdown Mode がすべてのアプリ/MCP/コネクタを自動的に無効化するわけではありません。ユーザーは個別のチャットごとに「Manage」オプションまたはメニューを通じて Lockdown Mode からオプトアウトすることができ、これにより他のチャットやメモリ履歴には影響しません。高リスクアクション（例：信頼できないアプリへの読込/書込み）は強く推奨されず、中リスク項目（例：同期コネクタ）については副作用の可能性がありますので注意が必要です。重要なのは、Lockdown Mode は機能性を低下させる点です。ライブインターネットアクセスと完全な画像分析が無効化されますが、手動でのファイルアップロード、メモリの使用、会話の共有、モデル改善データの提供、そしてコンプライアンス API ログプラットフォームによるアプリの使用状況および接続されたソースへの可視性は維持されます。

2026/06/04 5:15

LLM がどのように動作するか

## Japanese Translation: 現代の大規模言語モデルは、非常に標準化されたアーキテクチャ・スタックに収斂しており、これは主要モデル（例：GPT、Claude、LLaMA）間の差異が、根本的な構造革新ではなく、トレーニングデータ、スケーリング、特定の構成、そしてポストトレーニングのプロセスによるものになったことを意味します。このコンセンサスは、2017 年の Transformer の初期設計以来の 5 年にわたる洗練の上に成り立っており、回転位置埋め込み（RoPE）、RMSNorm、SwiGLU、グループクエリアテンション（GQA）、およびエキスパートミックス（MoE）といった主要な構成要素が、安定性と効率性の観点から最適な選択となっています。具体的には、モデルは語彙サイズのバランスと汎化性能を実現するためにサブワードトークン化戦略（例：BPE や SentencePiece）を採用し、RoPE は従来の三角関数型エンコーディングよりも順序情報を効果的に注入します。アーキテクチャは、特異な処理のためにマルチヘッドアテンションを活用し、高密度パラメータを記憶するためにフィードフォワードネットワークを利用し、深層ネットワークにおける安定したトレーニングのためには RMSNorm を使用します。結果として、これらの最適化され共有されたメカニズムを通じて、産業全体はメモリ圧力と推論コストの削減という恩恵を受けています。将来の傾向は、ヘッド数や MoE アクティブ比率などの既存構成を洗練させる方向にあるものであり、破壊的な構造変化ではなく、確立されたパスを通じた継続的な進展を確保します。