
2026/01/07 6:23
**実世界のペネトレーションテストにおけるAIエージェントとサイバーセキュリティ専門家の比較** | 観点 | AI エージェント | 人間のサイバーセキュリティ専門家 | |------|-----------------|----------------------------------| | **準備・偵察** | 広範囲な攻撃対象を迅速にスキャンし、公開情報を自動で集約。 | 手作業で偵察を行い、特定のターゲットや状況に合わせてクエリをカスタマイズ。 | | **脆弱性検出** | パターンマッチングアルゴリズムで既知の CVE や誤設定を大量にフラグ付け。 | 深い技術知識を駆使し、ゼロデイやあまり知られていない欠陥を発見。 | | **エクスプロイト開発・実行** | 基本的なペイロードを生成し、SQLi や XSS などの一般的脆弱性を自動で悪用可能。 | 高度にカスタマイズされたエクスプロイトを設計し、リアルタイムのシステム応答に応じて戦術を変更。 | | **分析・報告** | 構造化ログと初期所見を生成。ただし文脈解釈は限定的。 | 微妙な脅威評価を提供し、リスク優先順位付けや是正策の推奨を行う。 | | **新規脅威への適応** | 訓練データに依存し、完全に新しい攻撃ベクトルには再訓練が必要。 | 新興脅威から継続的に学び、創造的な問題解決を実践。 | | **コンプライアンス・倫理** | 事前定義されたルールセット内で動作し、法的・倫理的ニュアンスを見落とすことがある。 | NIST や ISO などの業界基準に従い、関係者の同意とデータプライバシーを確保。 | | **速度対深さ** | 数千件のスキャンを数秒で実行。ただしアルゴリズム範囲によって深さは限定的。 | ターゲットごとに時間がかかるが、より深い洞察と文脈を得られる。 | | **コスト・資源効率** | 開発後の限界費用は低く、多数のクライアントへスケール可能。 | 熟練した人材と時間が必要で、運用コストは高い。 | ### 主要ポイント - **AI エージェントは大規模偵察、迅速な脆弱性検出、および一貫した基礎報告に優れる。** - **人間の専門家は創造性、文脈判断、倫理監視、および複雑または新規セキュリティ課題に必要な高度技術を提供する。** 実務では、最も効果的なペネトレーションテストは両者の組み合わせです。AI ツールが大量スキャンとデータ集約を担当し、経験豊富なアナリストが結果を解釈・カスタマイズしたエクスプロイト設計や実践的推奨事項を提供します。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
(翻訳されたテキスト)
Text to translate
## Summary ARTEMIS, a multi‑agent AI framework that uses dynamic prompt generation, arbitrary sub‑agents and automatic vulnerability triaging, was evaluated against ten human cybersecurity professionals and six existing AI agents on a university network of roughly 8 000 hosts across 12 subnets. In this benchmark it placed second overall, discovering nine valid vulnerabilities with an 82 % valid submission rate—outperforming nine of the ten humans in discovery metrics. Existing scaffolds such as Codex and CyAgent performed worse than most human participants. The study was authored by Justin W. Lin, Eliot Krzysztof Jones, Donovan Julian Jasper, Ethan Jun‑shen Ho, Anna Wu, Arnold Tianyi Yang, Neil Perry, Andy Zou, Matt Fredrikson, J. Zico Kolter, Percy Liang, Dan Boneh, and Daniel E. Ho, and was submitted on Wed, 10 Dec 2025 at 18:12:29 UTC. AI agents like ARTEMIS could reduce penetration‑testing costs from about $60 per hour for experts to roughly $18 per hour while expanding coverage, but higher false‑positive rates and difficulties handling GUI‑based tasks remain challenges that will drive future research in cybersecurity.
本文
著者: Justin W. Lin、Eliot Krzysztof Jones、Donovan Julian Jasper、Ethan Jun‑shen Ho、Anna Wu、Arnold Tianyi Yang、Neil Perry、Andy Zou、Matt Fredrikson、J. Zico Kolter、Percy Liang、Dan Boneh、Daniel E. Ho
要旨:
本研究では、ライブな企業環境においてAIエージェントと人間のサイバーセキュリティ専門家を対照的に評価した初めての包括的調査を報告します。10名のサイバーセキュリティ専門家と6つの既存AIエージェント、さらに新規開発したアーキテクチャ「ARTEMIS」を、約8,000台のホストからなる12個のサブネットにわたる大学ネットワークで評価しました。ARTEMISは、動的プロンプト生成・任意サブエージェント設計・自動脆弱性トリアージ機能を備えたマルチエージェントフレームワークです。本比較研究において、ARTEMISは総合順位で2位に入ることができ、9件の有効脆弱性を発見し、82 % の有効提出率を達成。10名中9名の人間参加者を上回りました。一方、CodexやCyAgentといった既存スキャフォールドは多くの場合、人間参加者より劣る結果となりましたが、ARTEMISは技術的洗練度と提出品質において最も優秀な参加者と同等の性能を示しました。AIエージェントは体系的な列挙・並列活用・コスト面で有利であり、特定のARTEMISバリアントは1時間あたり18 ドルで動作し、プロフェッショナルペネトレーションテスターは60 ドル/時となっています。なお、AIエージェントには高い誤検知率とGUIベースタスクへの苦戦という主要な課題が残ります。
提出履歴
From: Justin Lin [メールを見る] [v1] Wed, 10 Dec 2025 18:12:29 UTC (1,057 KB)