秀 HN:Forge(フォージ)—— ガーディレール技術により、80 億パラメータ規模のモデルを代理系タスクで 53% から 99% の性能へと向上させます。

2026/05/19 21:23

秀 HN:Forge(フォージ)—— ガーディレール技術により、80 億パラメータ規模のモデルを代理系タスクで 53% から 99% の性能へと向上させます。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Forge は、標準的な 80 億パラメータのローカル大規模言語モデル(LLM)を、複雑な多ステップワークフローを実行できる堅牢なエージェントに変換するための信頼性層として設計されています。それらは、回復パースリングや再試行プッシュ、ステップ強制などといったガードレールを透明性の高い方法で注入し、VRAM 感度のある予算を通じてコンテキストを管理することでこの目標を実現します。本システムでは、合成された

respond
ツールがより小さなモデル(〜8B)を効果的な動作モードへと導くという専門的な技術メカニズムを採用しており、出力応答からツール呼び出しは除去することで自然なユーザー体験を保っています。

Forge は Ollama、llama-server(推奨)、Llamafile、Anthropic API を含む多様なバックエンドをサポートし、Python 3.12+ の必要性があります。

pip install forge-guardrails
でインストールするか、GitHub リポジトリから直接クローンして開発用として利用できます。本ソリューションは、スタンドアロンの
WorkflowRunner
として、共有推論スロット用の優先制約された
SlotWorker
として、検証のための統合可能なミドルウェアとして、またはクライアントとローカルモデルサーバーの間に安全性のガードレールを適用する OpenAI 互換プロキシサーバーとしてドロップインで利用できる柔軟なデプロイメントモードを提供します。

パフォーマンスについては、推奨構成(Ministral-3 8B Instruct Q8)は、Forge の厳格な 26 シナリオ評価スイートにおいて 86.5% のスコアを達成し、高度な推論タスクにおいても強いパフォーマンスを維持しています。そのモジュラー構造により、将来の新しいクライアントやコンテキスト戦略への適応性が保証され、企業が共有推論スロットを用いて安全を高しつつ、高信頼性のマルチエージェントアーキテクチャを効率的にデプロイすることを可能にします。Antoine Zambelli によって IEEE に公表された本プロジェクトは、MIT ライセンスの下で公開されています。

本文

Forge: 自己ホスト LLM のツールコール向け信頼性レイヤー

Forge は、ガードレール(救援パース、リトライ誘導、ステップ強制)およびコンテキスト管理(VRAM 対応予算、階層圧縮)により、8B パラメータのローカルモデルをマルチステップエージェントワークフローにおいて同クラスの頂点へと引き上げます。現在の上位自己ホスト構成(llama-server を介した Ministral-3 8B Instruct Q8)は、Forge の 26 スケナリオからなる評価スイート全体で**86.5%のスコアを記録し、特に難易度が高いティアでは76%**という成績を出しています。

利用方法

  • WorkflowRunner ツールを定義し、バックエンドを選択して構造化されたエージェントループを実行します。Forge はシステムプロンプト、ツール実行、コンテキスト圧縮、およびガードレールのライフサイクル全体を管理します。SlotWorker は、専用ワークフローが共有推論スロットを優先順位付けされたアクセス権を得るためのオートプリエメプション機能を提供し、専門領域のワークフローが GPU スロットを共有するマルチエージェントアーキテクチャにおいて特に最適です。Forge を直接構築する場合に最も適しています。
  • Guardrails Middleware 独自のオーケストレーションループ内で Forge の信頼性スタック(合成可能ミドルウェア)を使用します。ループの制御はユーザー自身が行いますが、Forge がレスポンスを検証し、不適切なツールコールを救援し、必須のステップを強制します。
  • Proxy Server 任意のクライアント(opencode、Continue、aider など)とローカルモデルサーバーの間で動作する OpenAI 互換のプラグアンドプレイプロキシです(
    python -m forge.proxy
    )。これは透明にガードレールを適用し、クライアントはより賢いモデルと話しているかのように錯覚させます。

サポートされているバックエンド

  • Ollama
  • llama-server (llama.cpp)
  • Llamafile
  • Anthropic

要件

  • Python 3.12 以上
  • 動作する LLM バックエンド(下記参照)

インストール

# コア機能のみ
pip install forge-guardrails

# Anthropic クライアントを含む
pip install "forge-guardrails[anthropic]"

開発環境用

git clone https://github.com/antoinezambelli/forge.git
cd forge
pip install -e ".[dev]"

バックエンドのセットアップ(いずれかを選択)

1. llama-server(推奨) 上位 10 の評価構成はすべて llama-server で動作します。 https://github.com/ggml-org/llama.cpp/releases よりインストールしてください。

llama-server -m path/to/Ministral-3-8B-Instruct-2512-Q8_0.gguf --jinja -ngl 999 --port 8080

2. Ollama(代替) セットアップが容易ですが、ハードなワークロードではやや性能が劣ります。 https://ollama.com/download よりインストールしてください。

ollama pull ministral-3:8b-instruct-2512-q4_K_M

3. Anthropic(API) ローカル GPU が不要です。 完全な手順とモデルガイドについては Backend Setup を参照してください。

pip install -e ".[anthropic]"
export ANTHROPIC_API_KEY=sk-...

クイックスタート

import asyncio
from pydantic import BaseModel, Field
from forge import (
    Workflow, ToolDef, ToolSpec,
    WorkflowRunner, OllamaClient,
    ContextManager, TieredCompact,
)

def get_weather(city: str) -> str:
    return f"72°F and sunny in {city}"

class GetWeatherParams(BaseModel):
    city: str = Field(description="City name")

workflow = Workflow(
    name="weather",
    description="都市の天気を見付ける。",
    tools={
        "get_weather": ToolDef(
            spec=ToolSpec(
                name="get_weather",
                description="現在の天気を取得する",
                parameters=GetWeatherParams,
            ),
            callable=get_weather,
        ),
    },
    required_steps=[],
    terminal_tool="get_weather",
    system_prompt_template="あなたは親切なアシスタントです。利用可能なツールを使用してユーザーの質問に答えましょう。",
)

async def main():
    client = OllamaClient(
        model="ministral-3:8b-instruct-2512-q4_K_M", 
        recommended_sampling=True
    )
    ctx = ContextManager(strategy=TieredCompact(keep_recent=2), budget_tokens=8192)
    runner = WorkflowRunner(client=client, context_manager=ctx)
    await runner.run(workflow, "パリではどのような天気ですか?")

asyncio.run(main())
  • マルチステップワークフロー、複数ターン会話: ユーザーガイドをご覧ください。
  • 長時間稼働セッション (CLI、チャットサーバー、音声アシスタント): トランジェントなメッセージのフィルタリングに関する指針については、長時間稼働セッションのアドバイスをご覧ください。

プロキシサーバー

ローカルモデルサーバーのドロップイン代替品です。任意の OpenAI 互換クライアントをこのプロキシに指向するだけで、Forge のガードレールが無料で提供されます。

外部モード

llama-server
をご自身で管理し、Forge がそれをプロキシします。

python -m forge.proxy --backend-url http://localhost:8080 --port 8081

マネージドモード

Forge が

llama-server
とプロキシを同時に起動します。

python -m forge.proxy --backend llamaserver --gguf path/to/model.gguf --port 8081

設定: クライアントの設定で API ベース URL を

http://localhost:8081/v1
に設定してください。

合成レスポンスツールに関する注意: リクエストにツールが存在する場合、プロキシは自動的に人工的な

respond
ツールを注入します。モデルが素のテキストではなく
respond(message="...")
を呼び出すため、Forge の完全なガードレールスタックが適用されるツールコールモードに維持されます。アウトバウンドレスポンスから
respond
呼び出しはstripped(除去)され、クライアントには通常のテキストレスポンス(
finish_reason: "stop"
)が表示され、ツールの存在は決して知りません。これは小規模なローカルモデル(~8B パラメータ)に対して不可欠であり、これらのモデルはテキストとツールコールの選択に完全に信頼できないためです。それらをツールへ導くことは必須です。詳細な分析については ADR-013 を参照してください。


バックエンド比較表

バックエンド最適な用途ネイティブ FC?
Ollama最も簡単なセットアップ、モデル管理内蔵はい
llama-server最高の性能、フルコントロールはい(
--jinja
を使用時)
Llamafileシングルバイナリ、ゼロ依存関係いいえ (プロンプト注入方式)
Anthropicフロンティアベースライン、ハイブリッドワークフローはい

インストールとモデルの選定については、Backend Setup と Model Guide を参照してください。


テストの実行

python -m pytest tests/ -v --tb=short
python -m pytest tests/ --cov=forge --cov-report=term-missing

評価ハネス

モデルとバックエンドの組み合わせが、マルチステップツールコールワークフローをどの程度信頼性を持ってナビゲートできるかを測定する 26 のシナリオ。これを OG-18 ベースラインティアと、上位分離用の 8 シナリオからなる advanced_reasoning ティアに分けています。完全な CLI リファレンスについては Eval Guide を参照してください。

単一実行

python -m tests.eval.eval_runner \
  --backend llamafile \
  --llamafile-mode prompt \
  --gguf "path/to/Ministral-3-8B-Instruct-2512-Q8_0.gguf" \
  --runs 10 \
  --stream \
  --verbose

バッチ評価(JSONL 出力、自動再開)

python -m tests.eval.batch_eval --config all --runs 50

レポート(ASCII テーブル、HTML ダッシュボード、Markdown ビュー)

python -m tests.eval.report eval_results.jsonl

プロジェクト構造

  • src/forge/
    • __init__.py
      : パブリック API エクスポート
    • errors.py
      : ForgeError 階層
    • server.py
      :
      setup_backend()
      ServerManager
      BudgetMode
    • core/
      • messages.py
        : Message, MessageRole, MessageType, MessageMeta
      • workflow.py
        : ToolSpec, ToolDef, ToolCall, TextResponse, Workflow
      • inference.py
        :
        run_inference()
        — 共通の前半部分(圧縮、フォールド、検証、リトライ)
      • runner.py
        :
        WorkflowRunner
        — エージェントループ
      • slot_worker.py
        :
        SlotWorker
        — 優先順位付けされたスロットアクセス
      • steps.py
        : StepTracker
    • guardrails/
      • nudge.py
        : Nudge dataclass
      • response_validator.py
        : ResponseValidator, ValidationResult
      • step_enforcer.py
        : StepEnforcer, StepCheck
      • error_tracker.py
        : ErrorTracker
    • clients/
      • base.py
        : ChunkType, StreamChunk, LLMClient プロトコル
      • ollama.py
        : OllamaClient (ネイティブ FC)
      • llamafile.py
        : LlamafileClient (ネイティブ FC またはプロンプト注入方式)
      • anthropic.py
        : AnthropicClient (フロンティアベースライン)
    • context/
      • manager.py
        : ContextManager, CompactEvent
      • strategies.py
        : CompactStrategy, NoCompact, TieredCompact, SlidingWindowCompact
      • hardware.py
        : HardwareProfile,
        detect_hardware()
    • prompts/
      • templates.py
        : ツールプロンプトビルダー(プロンプト注入経路)
      • nudges.py
        : リトライおよびステップ強制用のナudge テンプレート
    • tools/
      • respond.py
        : 人工的なレスポンスツール (
        respond_tool()
        respond_spec()
        )
    • proxy/
      • proxy.py
        : ProxyServer — プログラマティックな起動/停止 API
      • server.py
        : ラフ asyncio HTTP サーバー、SSE ストリーミング
      • handler.py
        : リクエストハンドラ — HTTP と
        run_inference
        の間のブリッジ
      • convert.py
        : OpenAI メッセージ ↔ Forge メッセージの変換
  • tests/
    • unit/
      : 865 つの決定論的テスト — LLM バックエンドなしで実行可能
    • eval/
      : 評価ハネス — 実際のバックエンドに対するモデル資格確認

ドキュメント

  • ユーザーガイド: 使用パターン、複数ターン、コンテキスト管理、ガードレール、スロットワーカー、長時間稼働セッションアドバイス。
  • モデルガイド: ハードウェアに最適なモデルとバックエンド。
  • バックエンドセットアップ: バックエンドインストールとサーバーセットアップ。
  • 評価ガイド: 評価ハネス CLI リファレンス、バッチ評価。
  • アーキテクチャ: 完全な設計ドキュメント。
  • ワークフロー内部機構: ワークフロー設計およびランナー内部機構。
  • コントリビュート: セットアップ方法、テスト実行、新規バックエンドまたはシナリオの追加方法。

論文

Forge ガードレールフレームワークとアブレーションスタディは、以下の通り発表されました:

Zambelli, A. Forge: A Reliability Layer for Self-Hosted LLM Tool-Calling. https://doi.org/10.1145/3786335.3813193

事前公開のプリプリント版も

docs/forge_ieee_preprint.pdf
で利用可能です — これは歴史的アーティファクトとして保持されています。上記の公開バージョンを引用してください;DOI リンクは、出版社のリリースタイミングによっては直ちに解決しない場合があります。


ライセンス

MIT — Copyright (c) 2025-2026 Antoine Zambelli

同じ日のほかのニュース

一覧に戻る →

2026/05/20 2:43

Gemini 3.5 フラッシュ

## Japanese Translation: Google は、最先端の知能と自律的なアクションを組み合わせて複雑なワークフローに対応する高速度 AI モデル Gemini 3.5 Flash を発表した。本モデルは今日から Google アプリ、Google Search AI Mode、Android Studio や Gemini API のようなエンタープライズプラットフォームを通じて地球規模で数十億人のユーザーに利用可能であり、処理速度では他の最先端モデルの最大 4 倍を誇り、コーディングおよびエージェントベンチマークにおいてはフラッグシップ級の能力と拮抗する。本モデルは特定タスクにおいて優れ、Terminal-Bench 2.1 で 76.2%、MCP Atlas で 83.6% のスコアを獲得し、CharXiv Reasoning では 84.2% のマルチモーダル理解力を示して業界をリードしている。更新された Antigravity ハネスを使用することで、研究論文の迅速な統合やコードベース全体の変形を 6 時間で実現するとともに、より豊かなインタラクティブな Web インターフェースとグラフィックスの生成が可能になる。Shopify、Macquarie Bank、Salesforce、Ramp、Xero、Databricks のような実世界パートナーはすでに、この技術を利用して商取引予測、顧客オンボーディング、税務フォーム処理、データ診断といった重要なプロセスの自動化を進めている。さらに、Google は今日から信頼されるテストユーザー向けに、本モデルを活用した新しいパーソナル AI エージェント「Gemini Spark」を展開しており、間もなくより広範な利用が可能になるという。Frontier Safety フレームワークを遵守し、強化されたサイバー保護機能や内部の推論ロジックを明らかにする高度な説明可能性ツールを搭載している。また、本モデルの内部バージョン"Pro"が現在使用されており、来月には公開予定で、極致の速度と堅牢な信頼性の両立という新たな業界ベンチマークを確立することになる。

2026/05/20 3:34

グーグルが検索ボックスを変更しました。

## Japanese Translation: Google は本日、AI モードのグローバルなデフォルトモデルとして Gemini 3.5 Flash をリリースし、検索体験を根本的に変革しています。この動きは、25 年以上にわたり最も重要な Google 検索インターフェースのリデザインであり、テキスト、画像、ファイル、動画、Chrome タブを動的に受け入れるように再設計された AI 搭載の検索ボックスを導入します。インターフェースの大規模な刷新に加えて、このアップグレードは予約サービスを利用するなどの自律的なツールや、Agentic コーディングを通じて独自のカスタム生成型 UI を構築するための強力な「エージェンティック」機能を含みます。これらのエージェントは、金融やスポーツ、マンション探しやスニーカーコラボレーションなど、ニッチな関心分野に至るまでリアルタイムデータストリームを監視するバックグラウンドプロセスとして 24 時間年中無休で動作し、実質的に常時稼働するアシスタントとして機能します。 今年の夏以降、これら先進的な機能(独自ダッシュボード、トラッカー、「ミニアプリ」など)は Google AI Pro & Ultra サブスクリプションのユーザー向けに初リリースされ、その後世界中の約 200 カ国、98 ヵ国語に対応し拡大します。いずれすべてのユーザーへ無料で提供されます。ユーザーは Gmail や Google Photos など個人データを安全に接続することで、個別最適化されたソリューションを可能にし、Google が汎用的な検索結果を超えて、日常業務や複雑なタスクに対するエージェント駆動型のパーソナライズ体験において、ユーザーデータと直接相互作用することを可能にすることに大きく転換します。

2026/05/20 0:53

思い浮かぶほぼ全てのオペレーティングシステムを展示した仮想美術館を作成しました。

## Japanese Translation: Virtual OS Museum は、Linux ベースのプロジェクトであり、独自のエミュレータとスナップショット機能によって一般的なインストール問題を回避し、20 年以上にわたるコンピューティング史へのアクセスを提供します。QEMU、VirtualBox、または UTM を通じて実行され、エミュレータに依存しないランチャーをサポートし、フルオフラインエディション(すべて事前にダウンロード済み)と初回実行時にイメージをダウンロードする軽量バージョンの 2 つの形態に対応します。両方のエディションとも自動更新および手動更新をサポートします。コレクションには、1948 年のマンチェスターベビーから現代の PC およびモバイル・埋め込みデバイスまでが含まれ、メインフレーム、ミニコンピュータ、ワークステーション、ホームコンピュータ、クラシック Mac OS(X 10.5 PPC まで)、初期の Unix の祖先、Xerox Star に代表されるデスクトップメタファー型 GUI、Plan 9 や Smalltalk などのおさらいな研究システム、および歴史的使用シナリオを再現するための追加アプリケーション、開発ツール、ゲームを網羅しています。各ゲスト VM の項目には、HP-UX CDE、Mac OS Finder、Amiga UNIX OpenLook といった時代特有の環境を反映させる具体的なソフトウェア構成が含まれています。Patreon、Ko-fi、Discord/Fluxer、GitLab、およびソーシャルメディアによって支援されている同博物館は、コンピューティングの進化を保存し、特殊な機器や複雑なパッチングプロセスなしに、開発者や歴史家がレガシー GUI や研究システムを安全に研究することを可能にします。

秀 HN:Forge(フォージ)—— ガーディレール技術により、80 億パラメータ規模のモデルを代理系タスクで 53% から 99% の性能へと向上させます。 | そっか~ニュース