
2026/05/16 16:01
Frontier AI は、開形式のコンテスト・フォーマット(CTF)を実現しました。
RSS: https://news.ycombinator.com/rss
要約▶
日本語翻訳:
著者(2021 年から CTF に参入し、HCKSYD でソロで 2 時間以内に優勝し、TheHackersCrew を率いて 2025 年秋まで全球トップ 10 にランクインし、Emu Exploit などを含むチームを指導する)は、高度な AI モデルによって駆動されるfundamental な変容が、オープンなオンラインキャプチャー・ザ・フラグ(CTF)サイバーセキュリティに起きていると主張する。GPT-4 を用いると、多くの中程度の難易度のチャレンジが今や「ワンショット」可能となり、CLI ツーリングを備えた Claude Opus 4.5 は、CTFd API を使用して中程度および一部の高度なチャレンジの解決を 1 時間以内にオーケストレーションできるという。Frontier モデルである GPT-5.5 Pro などについては、「Insane」級の難易度を持つアクティブ・リークレス・ヒープ・パwn チャレンジさえワンショット可能であると報告されており、そのため小規模な CTF 主催者は、48 時間イベントで生成されるほとんどのコンテンツを解決できると推定される。
この変化は、オープンなコンペティションを人工的な「課金で勝つ」環境に変え、成功が人間によるセキュリティスキルよりもトークン予算やエージェントのオーケストレーションに依存するようになっている。Aliases Robotics 製の alias1 を代表とする専門的なサイバーセキュリティ大規模言語モデル(LLM)は、一般化された Frontier モデルと比較して自動的解決のためにそれほど relevance が低いものとなっている。したがって、CTFTime ランキングボードはもはや真の人間スキルを反映しておらず、伝説的なチームが出現しづらくなり、目に見える進捗は低下し、チャレンジ作成者の複雑なパズルのデザインに対するインセンティブが減少している。初心者は AI エージェントによってその成長が見え隠れするため動機付けが失われ、本質的なセキュリティの直感を養う前に新しいプレイヤーをツールの依存へと追いやりつつある。主催者が AI を阻止しようと試みる(拒否文字列、プロンプトインジェクション耐性、トレーニングカットオフ制限など)ことは一時的な摩擦のみを提供し、多くの場合人間にとって推測に基づくか不快なチャレンジにつながる。
その影響はアマチュアコンテストを超えている。DEF CON ファイナルのようなトップティアのイベントですら完全に自己防衛することはできず、自動化されたエージェントに支配される予選により、真に必要な資格を持つファイナリストプールが減少する。その結果、ISC 参加者やバグバンティ専門家、Pwn2Own 競合者など的高機能な専門家はオープンなオンラインシーネに関心を失い、長期的には人材とコミュニティの士気の浸食を招くリスクがある。しかし著者は、競争形式が実質的に「死んでいる」とも言える一方で、学習プラットフォームとしての picoGym や HackTheBox などは教育に焦点を当てた安全な代替手段を提供しており、より広いサイバーセキュリティコミュニティは SecTalks や学生会議のような学習機会および社会的イベントを通じて依然として活力を保っていることを強調する。
本文
この主張を私がする資格があるかというご質問でしょうか?
- 私は 2021 年、大学入学と同時に CTF(Capture The Flag)に本格的に携わるようになりました。最初の大会は HCKSYD という、48 時間にわたる個人戦でしたが、私はそれを完璧に解いてわずか 2 時間で優勝しました。その時はすっかり中毒状態になりました。
- その後は、オーストラリア最大の CTF「DownUnderCTF」で、当時オーストラリア最強クラスのチームの一つである「Blitzkrieg」として複数回優勝を果たしました。
- その後、私は CTFTime(業界の主要なグローバルランキングおよびイベントカレンダーであり実質的なスコアボードとして機能しています)で常に上位を維持していた国際トップクラスのチーム"TheHackersCrew"に参加するようになりました。彼らと一緒に世界で最も権威ある大会に出場し、2025 年末まで一貫して上位 10 チーム以内の成績を残しました。
私は CTF を嫌っているからではありません。CTF に情熱を注ぐようになったのは、それが私をセキュリティの世界に引き寄せたからです。学び方を実践的に教えてくれ、自分の成長を測る指標を与え、この分野で我最も尊敬する多くの仲間たちとの出会いをもたらしてくれました。人々が「あの形式はまだ問題ない」と言うふりをする姿を見るにつけ、かつての競賽そのものが消えてしまったことへの寂しさを感じています。
何が変化したのか?
AI ツールの能力が急激に向上し、特に GPT-4 が登場した頃から、中難易度の CTF チャレンジの一部は「ワンショット可能」へと変化しました。つまり、ユーザーからの単一のプロンプトだけで解答とフラグを取得できてしまうのです。暗号化問題を ChatGPT に貼り付け、10 分後に解法を提示されることもありました。当時はそれを深刻には取り扱いませんでした。高難度の問題は依然として untouched で、時間的な節約も大会全体を壊すほど大きくありませんでした。
問題はあくまで「AI が役立つこと」ではありませんでした。CTF プレイヤーが常にツールを利用してきたことは周知の事実です。問題の本質は、モデルが推論を行い、解答を生成し、人間にはフラグのコピーだけを残してしまえる点にあります。
Claue Opus 4.5 の登場
Opus 4.5 がリリースされると雰囲気が変化しました。ほぼすべての中級難度 チャレンジ、そして一部のハードチャレンジも「エージェント解決可能」な時代が訪れました。Claude Code はすべてを CLI にパッケージ化し、他の CLI や MCP ツールとの連携を容易にしました。CTFd API を利用して各チャレンジごとに Claude インスタンスを起動するオーケストレーターを構築することも trivial になりました。システムを最初の 1 時間だけ実行させ、残りの課題に対してのみ働きかけることも可能になりました。それがゲームを変えました。AI を使わないチームは単なる利便性の欠落ではなく、大会自体を遅くしていたことになります。オープンなオンライン CTF は、「簡単な仕事と中級難度の仕事をどの速さで自動化できるか」と「最も困難な課題にどれだけ人間の注意力を割けるか」という問いへと変化しました。スコアボードもまた、 frontier モデルの使用意願およびオーケストレーション能力を、セキュリティ技術とともに測定するようになっています。
影響は明白でした。CTFTime リーダーボードが不自然な感じを与え始めました。長年トップ近かった伝説的なチームも頻出するようになりました。プレイヤー活動が低下するように見えました。CTF を芸術作品として扱い、何週間もかけて美しいものを作る開発者たちが、「エージェントによって数分で食べられてしまうなら」という理由からその努力をする意義を感じにくくなりました。
GPT-5.5 が決定的になった
リリース後から私は GPT-5.5 と GPT-5.5 Pro と緊密に協力してきました。ベンチマーク指標によれば、5.5 は Claude Mythos の能力に近い水準であり、Pro モデルはそれを上回る可能性があります。これらのモデルは、HackTheBox における「Insane」難度のアクティブ・リークレス・heap pwn チャレンジをワンショットで解決可能です。より小規模な CTF 主催者が現実的に製作できる課題の大規模部分を解決することも可能です。48 時間限定の CTF で Pro モデルを使って Insane チャレンジへのオーケストレーションを行う場合、大会終了前にフラグを取得する可能性が極めて高くなります。これにより、オープンな CTF は実質的に「有料対決」へと変化しました。投入できるトークン量が多いほど、ボードを破壊する速度は速まります。alias1 などの専門サイバーセキュリティモデルは、汎用 frontier LLM に比べて重要性を低下させています。競争は「どの組織が十分多くのエージェントを十分なコンテキストで十分な長さの間実行できるか」というものへと変化しています。
CTF はもはや競技というより、「チーズのように解かれてしまう混沌」へと近づいています。CTF におけるパフォーマンスが以前ほど技能を示す指標ではなくなりました。セキュリティ専門家としての採用において、CTF パフォーマンスはかつてほど意味を持つものではなくなりつつあります。また、これは AI スキルの優れた尺度でもありません。なぜなら、CTF で必要なオーケストレーションの多くはオープンソースまたは「雰囲気コード」で実装可能だからです。
「初心者は大丈夫」という立場
私は、初心者は CTF から学び続けているという主張を何度か目にしてきました。しかし、それらはスコアボードの問題を見落としています。CTF は単なるパズルの集合体ではありません。それは登り台でした。初心者であっても、上へ進める目標がありました。自分が成長していることを実感でき、より多くの課題を解き、上位ランクを獲得し、優れたチームに参加し、次第に競争力を持つことができました。
そのフィードバックループが崩れつつあります。AI を使用したチームがスコアボードを支配している場合、初心者は AI を使う前に、AI が置き換える直観を身につける前に追いやられてしまいます。それはアンチパターンです。能動的学習を防ぎ、真に教養を与えるのは「実際に苦労するプロセス」そのものです。さらに、実の努力をして目に見える進展が見られないことに直面すると、登り台の上から自動化された世界を目撃することとなり、極めて意欲低下を招きます。
これまた、チャレンジ作成者たちの意向も変化させます。初心者のための CTF が「プロンプトを静かに貼り付けてスコアボードを登る場所」に変われば、開発者は代わりに学習プラットフォームへの労力を注ぐ傾向が高まります。少なくとも picoGym や HackTheBox のようなプラットフォームでは教育が期待されており、初心者が自らの学習から撤退する動機は小さくなります。むしろ、実際の学習を目指すべき picoGym、HackTheBox、および他の実験環境を利用することが、初心者にとってより良い選択です。公開スコアボードが依然として人間の成長を反映していると言わんばかりに振る舞うべきではありません。
「CTF は死んでいない」論
「CTF は AI によって拡張されただけで、実は死んでいない」といった hopium(希望的観測)的な投稿をよく目にします。彼らは DEF CON などの大会を挙げながら、「AI がすべてを解決するわけではない」と主張することがあります。それは事実ですが、間違った防御策です。
最も困難なトップティアの決勝戦には参加者が極めて少なく、かつ最終決定には資格試験が必要です。しかしその資格試験自体が决赛より易しい場合が多く、もしそうした予選会が AI エージェントによって制圧されれば、AI にも抗うことができる真正に有能な人間だけが課題に残ることになります。少数のエリート決勝戦だけでは、実際に多くのプレイヤーがプレイしているオープンオンライン形式を救うことはできません。
主張は「すべての課題が解決されるわけではない」ことではありません。「十分な数のスコアボードが自動化され、それが以前と同じ意味を持ち得なくなっている」という点です。
"AI はセキュリティ研究に役立つ"論
CTF の目的本来はセキュリティ研究にあるわけではありませんでした。新しい技法や興味深い事例を示すことは可能ですが、CTF 自体が発見の場ではありません。ある分野において AI が有用だからといって、それがその分野の競技的風景にもたらされると言うことではありません。
CTF では無制限に AI を導入すれば、人間がパズルから完全に除外され、セキュリティの芸術が単なるプロンプトへと縮小されます。確かに CTF が存続する限り LLM のセキュリティ能力は向上し続けるでしょうが、それだけで競技形式が健全だとは言えません。CTF は芸術表現であり、オタク同士の技法共有の手段であり、人類のセキュリティスキル限界を押し広げる試みでした。その目的が剥奪されつつあります。
「LLM はサイバーチェスのチェスエンジンである」という論
チェスはコンピュータに支配されてから十数年以上経過しています。人々は LLM の比喩としてチェスエンジンを使うことはありますが、そこを見落としています:競技中のチェスエンジン使用は禁止されています。それらは分析、訓練、評論、練習用です。競技自体を置き換えず、周囲のゲーム体験を豊かにします。
すべての競合棋手に対して最高のチェスエンジンを与え、試合中に自由に使用できるようにしたらどうなるでしょうか?それは公平でしょうか?観戦に面白さを伴うでしょうか?賞賛金の正当化になるでしょうか?チェスの人類的能力限界を押し広げられるでしょうか?同じ疑問が CTF にも適用されます。
組織者は反撃できない
CTF 主催者は LLM による解決策を防破し抑止するための技法を試みましたが、それはせいぜい一時的な摩擦に過ぎません。Claude Code は従来の拒否文字列トリックにはもはや関心を示しません。 frontier モデルはプロンプト注入の検出が向上しています。ウェブ検索機能はトレーニングカットオフ以降の技術に基づいた課題を弱体化させます。「LLM を使用しないよう求める」規則は軽視され、オープンオンラインイベントではほぼ執行不可能です。
その結果、主催者は非常に困難な立場にあります。通常の課題を作成すればエージェントが過剰に解決してしまいます。一方、意図的に AI に対して敵対的な課題を作れば、それは推測依存型になりすぎて、人間にとっても非現実的、過度に設計された、あるいは不快なものになります。これは根本的な解決策ではなく、結果として CTF を全員にとって悪くします。
「適応すればよい」という立場
この主張は非常に腹立たしいです。コミュニティで常に尊敬している人々もそれを言っています。私にとっては、説明がない限り完全に無意味に見えます:私たちは何に適応すべきか?
適応がより良いツールの構築を意味するなら、CTF プレイヤーはすでにそれをやってきました。適応がより難しい課題の作成を意味するなら、主催者はすでに試みました。適応が「スコアボードが AI オーケストレーションベンチマークになっていることを認めること」を意味するなら、古い競争が存在し続けていると pretending するのではなく、正直に言うべきです。
たとえ主催者が現在の LLM が解決できないような推測依存型や過度に設計された課題を作成しても、プレイヤーが競合的なまま必要なスキルを習得できる適切な道筋はありません。数モデル後には、その指摘自体が無意味になる可能性もあります。LLM のセキュリティ能力の進展は課題設計のペースよりも遥かに速すぎています。
その後
私の CTF への情熱を生み育てたコミュニティは空虚になっています。CTFTime リーダーボードにはもはや歴史や人間の技能の色がありません。2026年のスコアボードは、以前のどの年にも見られず変化しています。TheHackersCrew を始めとする多くの大規模で信頼性の高いチームは大会に出場しないか、少人数での参加に留まったり、上位 10 チームへの侵入が困難になったりしています。規制されていない不正行為は急増しています。Plaid CTF など一部の優れた大会は既に開催を停止しました。
これらの感情は私のみに限られたものではありません。私の地元チームである「Emu Exploit」の多くのメンバーも同様です。彼らは国際サイバーセキュリティ選手権に常駐し、バグボナティプログラムでトップレベルのパフォーマンスを発揮し、Pwn2Own に参加し、Black Hat などのカンファレンスに登壇する人々です。関心を取り戻していないのはカジュアルな観客ではなく、まさに過去にコミュニティが生み出し保持してきた種類の人々です。
CTF を楽しんでいた多くの人々の喜びは失われています。失われるのは単なるスコアボードではありません。初心者の好奇心からエリート競争への登り台そのものです。課題設計の職人技です。巧みな人間が深い理解に基づいて困難な問題を解決したという感覚です。
現在のオープンオンライン CTF の形態では、この遺産を継承することはできません。形式自体は死んでいます。それにかえて何か別のものが登場するかもしれませんが、根本的な変化がないことにpretending することは、誠実に損失について語ることをより困難にします。同時に、それは AI プロモーターが下降を利用し、かつてコミュニティを重要にした低品質なラッパーを販売することで資本化できる余地を与えています。
では今どうするか?
CTF/AI 分野の多くは商業化されすぎており、我々の制御外です。しかし CTF は業界に大きな貢献を果たしてきました。私は CTF を通じて多くの親切で知的で情熱的な人々に出会いました。美しく設計された課題をプレイし、意図せぬ解決策も見つけました。
CTF におけるコミュニティは学び、成長し、つながるための素晴らしい場所でした。競技がどこへ向かわろうとも、それだけは失ってはいけないものです。コミュニティ全体として連帯を保ち、情熱と学習を継続する新しい道筋を作り出そうと努力すべきです。セキュリティ関連の社会的イベントとしての SecTalks、学生向けカンファレンス、地元の交流会はつながりや関与を維持するための優れた方法です。Discord などのプラットフォームを通じて提供する学習プラットフォームおよびコミュニティも貴重なリソースです。
替代手段を見つけるのは困難かもしれませんが、構築してきた素晴らしいコミュニティこそが、新たな競争心を保ちながら学習を続けるために現在比以往いほど重要です。