
2026/04/14 6:54
N-Day ベンチ:大規模言語モデル(LLM)は、実際のコードベースから真の脆弱性を発見できますか?
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
N-Day-Bench は、Winfunc Research による新しいサイバーセキュリティベンチマークで、フロンティア言語モデルがトレーニングデータの Knowledge Cut-off 日以降に開示された現実世界の脆弱性(「N-Days」)を発見する能力を測定します。公平なテストを行うために報酬ハッキングを排除するため、すべてのモデルに同一のテスト用フレームワークとコンテキストを提供すると同時に、厳密に脆弱性の発見という点に焦点を当てています。テストケースは月に更新され、新たなセキュリティ flaws を反映させ、モデルセットも定期アップグレードによって最新のバージョンとチェックポイントを包含します。すべてのベンチマークトレー스는公開されており、査収のために利用可能です。このイニシアチブは、AI システムがトレーニングデータとは独立して新興脅威を特定する有効性を評価するための信頼できる基準を確立しています。
本文
N-Day-Bench は、 frontier ランゲージモデルが、各自の知識のカットオフ日以降に公開された実際の脆弱性、すなわち"N-Days"を発見する能力を評価するために設計されています。すべてのモデルには同一の評価用フレームワークと同一のコンテキストが提供され、賞与ハッキングの余地は一切与えられていません。このベンチマークは、大規模言語モデル(LLM)における「脆弱性発見」能力、すなわち実務的なサイバーセキュリティ能力を測定することを目的としています。
本ベンチマークは適応型であり、以下の特性を備えています:
- 試験ケースは月ごとに更新されます。
- モデルセットは最新バージョンおよびチェックポイントにアップグレードされます。
すべての実行ログは公開されており、誰でも閲覧可能となっています。
このプロジェクトは、Winfunc Research より提供されています。