Show HN: 私が開発したオープンソース(OSS)エージェントが、Gemini-3-flash-previewにおいて TerminalBench で最高成績を収めました。

2026/04/27 21:35

Show HN: 私が開発したオープンソース(OSS)エージェントが、Gemini-3-flash-previewにおいて TerminalBench で最高成績を収めました。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Dirac は、Max Trivedi によって開発され Apache 2.0 ライセンスで公開されているオープンソースの AI コーディングエージェントであり、モデルコンテキストプロトコル(MCP)を採用せずネイティブなツールコールを代わりに用いることで開発の新基準を設定しています。複雑なセットアップに依存しない代わりに、Dirac はハッシュアンカーされたエディットや AST マニピュレーションといった高度な技術を活用し、ファイル編集における極めて高い精度を実現しています。具体的には、関数の抽出など構造的操作を含むターゲット安定性と構造操作を 100% の精度で可能にします。効率的なマルチファイルバッチ処理を通じて複数のファイルを単一のリクエストで処理することで、エージェントはレイテンシと API コストの両方を大幅に削減します。Terminal-Bench-2 での厳格なテストにおいて gemini-3-flash-preview モデルを使用した場合、Dirac は Google のベースライン(47.6%)および Junie CLI(64.3%)と比較して優れており、スコアは 65.2% を記録しました。特に、タスク 1(transformers)およびタスク 7(vscode)といった複雑なリファクタリング作業において完全スコア(8/8)を取得しています。親リポジトリに存在する報告上のバグによりコストがわずかに過小報告されたことを考慮しても、Dirac は $0.03 ミリオントークンあたりに対して Google の $0.05 よりも著しくコスト効率が高いままであり、既存のソリューションのオーバーヘッドの一部ながら信頼性の高いコマンド実行とファイル管理を、優れたパフォーマンスで提供しています。

本文

Dirac:高精度かつ極めてトークン効率的なオープンソース AI エージェント

Dirac は、

gemini-3-flash-preview
を使用し、Terminal-Bench-2 のリーダーボードで 65.2% という最高得点を記録して首位に立ちました!

あるモデルの推論能力がコンテキスト長とともに低下する現象は広く研究されており確立されています。コンテキストをきめ細かく選別・管理することができれば、正確性とコストの双方を改善しつつ、大規模な変更も単一のタスク内で実現可能になります。

Dirac は、この考えに基づいて構築されたオープンソースコーディングエージェントです。ハッシュアンカー付けされた並列編集、AST(抽象構文木)操作、そして一連の高度な最適化手法を採用することで、平均 API コストを 64.8%削減しながら、より質が高く高速な作業成果物を生み出します。さらに、MCP(Model Context Protocol)には一切依存していません。

当社の目標: 安価なツール選定による「コストパフォーマンス」の最大化を目指し、単に機能を削ぎ落していく極限ミニマリズムへの道ではなく、最小限のプロンプティングで最大限の効果を引き出すアプローチです。


📊 評価結果(Evals)

Dirac は、複雑かつ現実世界のリファクタリングタスクにおいて、他の主要なオープンソースエージェントと比較されています。Dirac は、極めて低いコストの中で一貫して 100% の正確性 を達成しています。これらの評価は公開されている GitHub リポジトリ上で行われており、誰でも再現可能です。

🏆 TerminalBench 2.0 リーダーボード

gemini-3-flash-preview
を使用し、Dirac は Terminal-Bench-2 のリーダーボードで 65.2% という得点を記録して首位に立ちました。これは以下の両方を凌駕しています:

  • Google の公式ベースライン (47.6%)
  • トップクラスのクローズドソースエージェントである Junie CLI (64.3%)

この結果は、ベンチマーク固有の情報を一切使用せず、かつ

AGENTS.md
ファイルを挿入することなく達成されました。

⚠️ コスト表に関する注意

これらの評価を実行した後に、Cline(親プロジェクト)においてバグが検出されました(問題 #10314)。この修正は PR #10315 として提出済みです。当該バグにより、Dirac および Cline の評価結果におけるコスト報告がわずかに低めに記録されていました(キャッシュの読み取りあたりのトークン単価:$0.03 vs $0.05)。大きな差にはなりませんが、近い将来に評価結果を更新する予定です。

モデル設定: すべてのタスクおよびモデルにおいて、

gemini-3-flash-preview
を使用し、「思考」モードを「高」に設定して実行しました。

パフォーマンスとコスト比較表

タスク (リポジトリ)対象ファイル数*ClineKiloOhmypiOpencodePimonoRooDirac
タスク 1 (transformers)8🟢 (差分) [$0.37]🔴 (差分) [N/A]🟡 (差分) [$0.24]🟢 (差分) [$0.20]🟢 (差分) [$0.34]🟢 (差分) [$0.49]🟢 (差分) [$0.13]
タスク 2 (vscode)21🟢 (差分) [$0.67]🟡 (差分) [$0.78]🟢 (差分) [$0.63]🟢 (差分) [$0.40]🟢 (差分) [$0.48]🟡 (差分) [$0.58]🟢 (差分) [$0.23]
タスク 3 (vscode)12🟡 (差分) [$0.42]🟢 (差分) [$0.70]🟢 (差分) [$0.64]🟢 (差分) [$0.32]🟢 (差分) [$0.25]🟡 (差分) [$0.45]🟢 (差分) [$0.16]
タスク 4 (django)14🟢 (差分) [$0.36]🟢 (差分) [$0.42]🟡 (差分) [$0.32]🟢 (差分) [$0.24]🟡 (差分) [$0.24]🟢 (差分) [$0.17]🟢 (差分) [$0.08]
タスク 5 (vscode)3🔴 (差分) [N/A]🟢 (差分) [$0.71]🟢 (差分) [$0.43]🟢 (差分) [$0.53]🟢 (差分) [$0.50]🟢 (差分) [$0.36]🟢 (差分) [$0.17]
タスク 6 (transformers)25🟢 (差分) [$0.87]🟡 (差分) [$1.51]🟢 (差分) [$0.94]🟢 (差分) [$0.90]🟢 (差分) [$0.52]🟢 (差分) [$1.44]🟢 (差分) [$0.34]
タスク 7 (vscode)13🟡 (差分) [$0.51]🟢 (差分) [$0.77]🟢 (差分) [$0.74]🟢 (差分) [$0.67]🟡 (差分) [$0.45]🟢 (差分) [$1.05]🟢 (差分) [$0.25]
タスク 8 (transformers)3🟢 (差分) [$0.25]🟢 (差分) [$0.19]🟢 (差分) [$0.17]🟢 (差分) [$0.26]🟢 (差分) [$0.23]🟢 (差分) [$0.29]🟢 (差分) [$0.12]
正解数5/85/86/88/86/86/88/88/8
平均コスト-$0.49$0.73$0.51$0.44$0.38$0.60$0.18

🟢 成功 | 🟡 不十分 | 🔴 失敗

  • コスト比較: Dirac は競合他社と比較して 64.8% コスト削減(2.8 倍のコスト低減)を実現しています。
  • 対象ファイル数*: タスク完了のために修正または作成 expected なファイル数の予估值です。
  • タスクの詳細な説明と方法論については、evals/README.md を参照してください。

🚀 主な特徴

  • ハッシュアンカー付き編集: Dirac は安定した行のハッシュ値を用いて編集対象を極めて高い精度で特定するため、従来の行番号ベースの編集における「翻訳時の情報喪失」問題を回避します。
  • AST ネイティブな高精度性: 言語構文(TypeScript, Python, C++ など)に対する内蔵理解により、関数の抽出やクラスのリファクタリングといった構造的変更を 100% の精度 で実行できます。
  • 複数ファイルのバッチ処理: Dirac は単一の LLM アウトバウンド/インバウンド(LLM 呼び出し一回)で複数のファイルを処理・編集でき、遅延と API コストを大幅に削減します。
  • 高帯域コンテキスト選別: 最適化されたコンテキストの選別により、エージェントは軽量かつ高速に動作し、トークンの無駄遣いなく LLM が常に最も関連性の高い情報を持てるよう確保されます。
  • 自律的なツールの使用: Dirac はファイルの読み書き、ターミナルコマンドの実行、ヘッドレスブラウザの利用などを実行でき、すべてをあなたの管理下において承認ベースのワークフローで実現します。
  • スキルと AGENTS.md:
    AGENTS.md
    ファイルを使用してプロジェクト固有の指示で Dirac の動作をカスタマイズできます。また、
    .ai
    ,
    .claude
    ,
    .agents
    ディレクトリから自動的に情報を読み取り、Claude のスキルもシームレスに継承します。
  • ネイティブツール呼び出しのみ: 最大の信頼性とパフォーマンスを確保するため、Dirac はネイティブのツール呼び出し機能を備えたモデルのみに限定して対応しています。(注:MCP はサポートされていません)

📦 インストール方法

VS Code 拡張機能

Dirac を VS Code Marketplace からインストールしてください。

CLI (ターミナル)

npm を使用して Dirac CLI をグローバルにインストールします:

npm install -g @dirac-ai/cli

🚀 CLI クイックスタート

認証:

# 通常認証
dirac auth

# または、このステップをスキップするために環境変数を使用する
export ANTHROPIC_API_KEY=your_key_here

最初のタスクの実行:

dirac "このプロジェクトのアーキテクチャを分析してください"

設定(環境変数)

API キーを環境変数として提供することで、

dirac auth
のステップをスキップできます。これは CI/CD や非永続的な環境において最適です:

  • ANTHROPIC_API_KEY
  • OPENAI_API_KEY
  • OPENROUTER_API_KEY
  • GEMINI_API_KEY
  • GROQ_API_KEY
  • MISTRAL_API_KEY
  • XAI_API_KEY
    (x.ai)
  • HF_TOKEN
    (HuggingFace)
  • ... など(詳細なリストについては
    src/shared/storage/env-config.ts
    を参照してください)。

一般的なコマンド

  • dirac "プロンプト"
    :対話型のタスクを開始します。
  • dirac -p "プロンプト"
    プランモードで実行し、実行前の戦略を確認できます。
  • dirac -y "プロンプト"
    Yolo モード(すべての操作を自動承認、単純な修正に向いています)。
  • git diff | dirac "これらの変更をレビューしてください"
    :コンテキストを直接 Dirac に渡します。
  • dirac history
    :過去のタスクを表示および再開します。

🛠️ 使い始め方

  1. VS Code で Dirac サイドバーを開きます。
  2. お好みの AI プロバイダー(Anthropic, OpenAI, OpenRouter など)を設定します。
  3. ビルドまたは修正したい内容を記述して新しいタスクを開始します。
  4. Dirac の動きをご覧になってください!

📈 スター履歴

[このリポジトリのスター履歴]

📄 ライセンス

Dirac はオープンソースで、Apache License 2.0 の下でライセンスされています。

🤝 リンク集・謝辞

Dirac は、素晴らしい Cline プロジェクト のフォーク版です。基礎的な貢献に感謝し、Cline チームおよびコントリビューターに心より敬意を表します。

❤️ 愛を込めて作成: Max Trivedi (Dirac Delta Labs)

同じ日のほかのニュース

一覧に戻る →

2026/04/28 6:26

NPM ウェブサイトがダウンしています。 (注:ご提示いただいたテキストは、元の改行・余白・記号なしの状態を維持したまま整理済みです。特定の状況(例:障害報告時の注意喚起など)を想定している場合は、以下のような形式もご参照ください。) **NPM ウェブサイトがアクセス不能になっています**

## Japanese Translation: 2026 年 4 月 27 日にウェブサイトの障害が解消されていないものの、npm エコシステムは機能上正常に動作し続けています。`www.npmjs.com` の利用ができなかった一方で、パッケージのインストール、公開、検索、セキュリティ監査、およびレプリケーションフィードといった重要なサービスは現在「Operational(運用中)」の状態です。過去 90 日間の稼働メトリクスは堅牢なパフォーマンスを示しており、ウェブサイト以外のサービスでは稼働率が 100%、ウェブサイトでは 99.92% であり、これは 4 月 13 日から 26 日の間にはインシデントが起きていなかった安定期と対照的です。本件は、これが軽微な不具合なのかより深く対応が必要なのかを調査しており、npm に依存している企業が主要なワークフローが影響を受けていないため自信を持って進めることができます。

2026/04/28 5:44

トロントでの逮捕:3人の男性が、SMS ブラスト関連の事件で容疑から 44 の起訴罪状に直面している

## Japanese Translation: 「Project Lighthouse」のもと、トロント警察は、RCMP およびその他の機関と連携し、SMS ブラスターを関与した画期的なサイバー犯罪の捜査を進めています。これは、カナダでこの特定の攻撃ベクトルの初例となります。捜査は 2025 年 11 月に、セキュリティパートナーがトロント市中心部で稼働していたデバイスの存在を当局に通報したことから開始されました。このモバイル脅威は数か月の間にグレート・トロント・エリアの複数の車両から実行され、1300 万件を超える接続を妨害し、端末を正当なネットワークから切断して、銀行クレデンシャルを奪おうと設計された偽サイトへと誘導しました。準副頭長の Rob Johnson 氏は、この攻撃が 9-1-1 などの緊急サービスに影響を与える恐れがあり、なりすましや盗難の重大なリスクをもたらすと警告しました。3 月 31 日、警察はマークハムとハミルトンで捜索令状を実行し、2 人の容疑者から複数のブラスターを没収した一方、3 目の容疑者は 4 月 21 日に自首しました。この 3 人は現在、44 の告訴に直面しています。当局は、カナダではこの技術が新しいものの、犯罪者の個人データを収集しようとする意図自体は古いものであると強調しています。

2026/04/28 2:45

Easyduino:KiCAD 用のオープンソース PCBA 開発ボード

## Japanese Translation: The Easyduino プロジェクトは、マイコン開発基板における歴史的な断片化に対処するため、Arduino(Uno/Nano)、ESP32/ESP32 S3、Raspberry Pi Pico、STM32 Bluepill といった一般的な MCU 向けにオープンソースかつ KiCad ベースの設計を提供する。Eagle や Altium といった地域固有のツールに依存していた以前のバージョンとは異なり、Easyduino は標準化された 4 レイヤ銅スタックアップ(JLC04161H-7628)を通じてプラットフォーム間でソフトウェア、言語、慣習を統一し、配線の簡素化を実現する。部品は市場での入手可能性とコストに適応され、例えばオリジナルの UNO の USB シリアル変換チップの代わりに ATmega16U2 を使用したり、高価な 01005 パッシブ部品を避けるなどの対応が取られている。各プロジェクトフォルダには、メインの KiCad ファイル、README、必要に応じて非標準フットプリントライブラリ、および BOM(JLCPB が読み取れる Centroid ファイルを含む)や主要部品のデータシート、Gerbers、PDF スケーマ/PCB、写真が含まれる ProductionFiles ディレクトリが用意されている。開発は KiCad v8.0.0 で行われ、更新とテストは KiCad v10 で実施された。Jobsets は生産データの生成を簡素化する。ユーザーは最新版の KiCad をインストールし、ZIP ファイルをダウンロードするか Git を経由してクローンし、変更を行う際は「git add」で全体を追加する必要があることに注意せよ(KiCad v10 の Git ツールには制限があるため)。すべてのボードは CERN Open Hardware Licence Version 2 – Permissive の下で公開されており、ライセンスのコピーを含めれば必須のソースコード開示なしに商用利用が可能である。今後の作業としては、v1.1 RP2040 および ESP32S3 ボードの注文とテストならびに nRF52840 および RP2350A ドングルを開発する予定がある。クレジットは、KiCad に関するヒントを提供し、地上から v1.1 RP2040 ボードを新規設計した winsrrow に贈られる。ハードウェアの作成を全球でよりアクセス可能で一貫性のあるものにするという使命を継続する。