Show HN: ニードル(Needle)── Gemini のツール呼出し機能を、2600 万パラメータの軽量モデルに蒸留しました。

2026/05/13 3:03

Show HN: ニードル(Needle)── Gemini のツール呼出し機能を、2600 万パラメータの軽量モデルに蒸留しました。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Needle プロジェクトは、スマートフォン、スマートウォッチ、メガネといったコンシューマー機器でのローカルファインチューニングに設計された、2600 万パラメータを持つ蒸留モデル「Simple Attention Network」を導入する。このモデルはエッジ部品の展開を前提として設計されており、Cactus プラットフォーム上で動作し、プリフィル速度で 6,000 トークン/秒、デコード速度で 1,200 トークン/秒を実現し、強力なサーバーを必要とせずに高い効率性を達成する。モデルは、隠れ次元 d=512、コンテキストウィンドウ 8H/4KV、BPE=8192、ZCRMSNorm ノーマライゼーション、Gated Residual レイヤーを備えたアーキテクチャを採用している。このモデルは、16 個の TPU v6e ユニット上で約 27 時間にわたり 2000 ビリョンのトークンで事前トレーニングされ、その後、Gemini モデルによって生成された 20 億トークンからなるワンショット関数呼び出しデータセットを用いてファインチューニングされ、ポストトレーニングは 45 分で完了した。ベンチマークの結果、Needle は FunctionGemma-270m、Qwen-0.6B、Graninte-350m、LFM2.5-350m よりも大きい代替モデルを含め、個人向け AI アプリケーションのワンショット関数呼び出しタスクで優位性を示している。本プロジェクトはオープンソースであり、重み付けデータセットおよびリポジトリはすべて Cactus-Compute で利用可能である。開発者は Web インターフェース http://127.0.0.1:7860(モデルのテストとカスタムツールのファインチューニング)や

needle playground
needle finetune
needle run
needle train
needle eval
などのコマンドラインユーティリティを通じて機能を探ることができる。論文は「Needle」と題され、Henry Ndubuaku、Jakub Mroz、Karen Mosoyan、Roman Shemet、Parkirat Sandhu、Satyajit Kumar、Noah Cylich、Justin H. Lee によって 2026 年に発表された。

本文

Gemini 3.1 を「シンプル・アテンション・ネットワーキ」(SNA)と呼ばれる、約 2,600 万パラメータ規模に蒸留(ディストイリル)し、ご自身の Mac や PC でローカル環境において簡単にファインチューニング可能なモデルとして提供しています。本番環境では、「カクタス」基板上で動作し、プリフィル速度はトークン/秒あたり 6,000、デコード速度はトークン/秒あたり 1,200 で処理されます。重みとデータセットの生成プロセスもすべてオープンに公開しており、詳細は Cactus-Compute/needle にて確認可能です。

主要なアーキテクチャ仕様(d=512, 8H/4KV, BPE=8192)およびモデル構造図を以下に示します。

                              ┌──────────────┐
                              │  Tool Call   │
                              └──────┬───────┘
                                    ┌┴──────────┐
                                    │  Softmax  │
                                    └─────┬─────┘
                                    ┌─────┴─────┐
                                    │ Linear (T)│  ← パラメータ共有
                                    └─────┬─────┘
                                    ┌─────┴─────┐
                                    │ ZCRMSNorm │
                                    └─────┬─────┘
                                 ┌────────┴────────┐
                                 │ Decoder x 8     │
                                 │┌───────────────┐│
                                 ││ ZCRMSNorm     ││
                                 ││ Masked Self   ││
                                 ││ Attn + RoPE   ││
                                 ││ Gated Residual││
                                 │├───────────────┤│

┌──────────────┐ ││ ZCRMSNorm ││ │ Encoder x 12 │──────────────────────▶Cross Attn ││ │ │ ││ Gated Residual││ │ ┌──────────┐ │ │└───────────────┘│ │ │ZCRMSNorm │ │ └────────┬────────┘ │ │Self Attn │ │ ┌─────┴─────┐ │ │ GQA+RoPE │ │ │ Embedding │ ← パラメータ共有 │ │Gated Res │ │ └─────┬─────┘ │ │ │ │ ┌───────┴───────-┐ │ │ (no FFN) │ │ │[EOS]<tool_call>│ │ └──────────┘ │ │ + answer │ │ │ └───────────────-┘ └──────┬───────┘ │ ┌────┴──────┐ │ Embedding │ └────┬──────┘ │ ┌────┴──────┐ │ Text │ │ query │ └───────────┘

本モデルは、16 個の TPU v6e を使用し、総トークン数 2000 億(学習時間 27 時間)で事前トレーニングされました。その後、単一ショットでの関数呼び出しを対象としたデータセット 20 億トークンを用いて 45 分間ポストトレーニング(ファインチューニング)を実施しました。

「Needle」は、消費用デバイス(スマートフォン、ウェアラブルグラスなど)向け的小型 AI を再定義することを目的としており、実験的なプロジェクト「シンプル・アテンション・ネットワーキ」の一環です。このモデルは、個人利用向けのシングルショット関数呼び出しにおいて FunctionGemma-270m、Qwen-0.6B、Graninte-350m、LFM2.5-350m を凌駕する性能を発揮しますが、これらの大規模モデルにはそれなりのスコープと容量があり、対話型タスクにおいてより優位性を示します。また、小型モデルは場合によっては挙動が不安定になる(finicky)こともありますのでご留意ください。

次のセクションにあるユーザーインターフェースを利用して、ご自身のツール上で試行錯誤いただき、必要に応じてワンクリックでファインチューニングを行ってみてはいかがでしょうか。

クイックスタート

git clone https://github.com/cactus-compute/needle.git
cd needle && source ./setup
needle playground

このコマンドを実行すると、http://127.0.0.1:7860 でウェブベースのユーザーインターフェースが開き、独自のツール上でのテストおよびファインチューニングが可能です。モデル重みは自動的にダウンロードされます。

使用例(Python)

from needle import SimpleAttentionNetwork, load_checkpoint, generate, get_tokenizer

params, config = load_checkpoint("checkpoints/needle.pkl")
model = SimpleAttentionNetwork(config)
tokenizer = get_tokenizer()

result = generate(
    model, params, tokenizer,
    query="What's the weather in San Francisco?",
    tools='[{"name":"get_weather","parameters":{"location":"string"}}]',
    stream=False,
)
print(result)
# [{"name":"get_weather","arguments":{"location":"San Francisco"}}]

ファインチューニング

# プレイグラウンドモード:Gemini を経由してデータを生成し、学習、評価、バンドリングを自動実行
needle playground

# CLI モード:重みがローカルにある場合に自動的にダウンロードされます
needle finetune data.jsonl

コマンドラインインターフェース (CLI)

コマンド説明
needle playground
ウェブ UI を経由してテストおよびファインチューニングを行う
needle finetune <data.jsonl>
ご自身のデータに対するファインチューニング
needle run --query "..." --tools
シングル推論を実行
needle train
完全な学習プロセスの実行
needle pretrain
PleIAs/SYNTH データセットを用いた事前トレーニング
needle eval --checkpoint <path>
チェックポイントの評価
needle tokenize
データセットのトークン化
needle generate-data
Gemini を経由して学習データを合成
needle tpu <action>
TPU の管理(詳細は docs/tpu.md を参照)
@misc{ndubuaku2026needle,
  title={Needle},
  author={Henry Ndubuaku, Jakub Mroz, Karen Mosoyan, Roman Shemet, Parkirat Sandhu, Satyajit Kumar, Noah Cylich, Justin H. Lee},
  year={2026},
  url={https://github.com/cactus-compute/needle}
}

同じ日のほかのニュース

一覧に戻る →

2026/05/13 2:37

グーグル・ブックス(Google Books)

## Japanese Translation: インテルは、高度な Gemini AI を統合し、計算上の知能の提供方法を再定義する軽量型ノートパソコンの新シリーズを発足させます。このパートナーシップでは、Gemini とインテルの最上位ハードウェアを組み合わせながら、軽量化された設計においてパフォーマンスを損なうことなく実現しています。ユーザーは Magic Pointer を通じてコンテンツと直感的に相互作用でき、任意のアイテムを選択して Gemini に質問・比較・作成させることが可能です。また、音声コマンドだけでカスタムウィジェットを作成することもできます。Cast My Apps を活用するとインストールなしでスマートフォンアプリをノートパソコン上で実行でき、Quick Access 機能によりスマートフォンにあるファイルをノートパソコン上に存在するものとして扱えます。これらの機能によってモバイル環境とデスクトップ環境が単一のシームレスな作業空間に統合され、プラットフォーム間の切り替えも容易になり、情報の連続性が保たれます。最初のモデルは今年の秋に発売予定で、製品準備完了時の通知を受け取るために希望者は登録することができます。

2026/05/13 5:16

テキストを手作業で未来風に見せる方法(2016 年)

## Japanese Translation: 本物らしい未来派のタイポグラフィを創造するためには、デザイナーはフォントの選定(特に Eurostile Bold Extended)、斜め処理(イタリックおよび角度)、文字間調整のマニピュレーション(文字を組み合わせているか、あるいは部分を取り除いているか)、テクスチャ・照明効果(ノイズ、鋼板刷毛仕上げ、リライフ加工、スターフィールド)、ならびに「Consummate Vs.」などの具体的なディテールに従うことに厳格に注意を払わねばなりません。伝統的なデザインが可読性を最優先するのに対し、このスタイルは不規則性とムードのある照明によって SF 的な雰囲気を喚起することに頼っています。本フレームワークは、2016 年から予想される 2092 年までの進化を追跡しており、象徴的な映画をベンチマークとして挙げています:『ブレードランナー』が金標準であり、『Battlestar Galactica』(2003)は押し出しタイプの文字を用いてほぼ全てのルールに従い、『トランスフォーマー』は鋼板刷毛仕上げを極限まで押し進め、『ロボコップ』は「Consummate Vs.」と強固なリライフ加工を強調しています。その他の例として、Tithe Kern Police を誘発する機会を逸した『Amazing Spider-Man』、『バック・トゥ・ザ・フューチャー』(ルール 1、2、4)、『スター・ウォーズ』(文字の組み合わせ)、『Alien vs. Predator』(極端なイタリックと金属仕上げ)、『G.I. Joe: Retaliation』(カーニングを除く全てのトリック)、『キャプテン・アメリカ/冬兵』、『WALL·E』があります。『スタートレック:下一代』は、スターフィールドの背景を特徴とする更新された教科書的な例として引用されています。この美学を実践するために求めている専門家は、新たな評価指標としての「Tithe Kern Police」に加え、具体的なフレームワークが存在する現在を把握できます。このガイダンスは、未来派のタイポグラフィに対する明確な軌道確立を行い、ブランディングおよびメディアプロジェクトがこれら称賛された視覚スタイルを遠い未来まで一貫して複製することを保証します。この記事の拡張版は、「Typeset in the Future」と題した書籍に収録されており、2018 年 12 月 11 日に発売予定で、Amazon よりも予約購入が可能です。

2026/05/13 3:12

CERT は、dnsmasq に影響する重大なセキュリティ脆弱性に係る 6 の CVE を公표しました。

CERT から、広く利用されている DNS フォワーダー**dnsmasq**の 6 つの重大なセキュリティ脆弱性情報に関する緊急アラートが発出されました。これは、概ね「古代」とは言えないバージョンに影響を及ぼしています。Simon Kelley は、従来の embargo(秘密保持)期間を待つことなく、利用者自身がこれらの欠陥を修正できるよう、速やかにパッチを自身のウェブサイトに提供しました。これは、AI が生成したバグ報告や重複報告の流入により、従来の処理プロセスがあまりに遅れることから取った措置です。影響を受けた組織は、潜在的な悪用からインフラを保護するため、直ちにアップデートをダウンロードする必要があります。主要開発者は「dnsmasq-2.92rel2」向けにこれらの修正を backport しており、開発ツリーには包括的なリファクタリングを含む追加コミットが含まれており、近日中に利用可能になります。安定した 2.93 リリースは約 1 週間以内の予定であり、現在のリリースサイクルではタイムリーな対応が最優先されており、必要に応じてさらに修正が行われる可能性があります。コミュニティメンバーは、最終化前にメーリングリスト上でリリース кандидатをテストするよう推奨されています。詳細情報とパッチは https://thekelleys.org.uk/dnsmasq/CVE/ でご確認いただけます。

Show HN: ニードル(Needle)── Gemini のツール呼出し機能を、2600 万パラメータの軽量モデルに蒸留しました。 | そっか~ニュース