現在、サイバーセキュリティ分野において「証明作業」のような性質を帯びているようです。

2026/04/15 3:08

現在、サイバーセキュリティ分野において「証明作業」のような性質を帯びているようです。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Anthropic の Mythos は、重要なソフトウェアメーカーがその能力に対してシステムを強化するまで非公開に保たれた高度な AI モデルであり、「低温くじ(low temperature lottery)」機構を通じてモデルが複雑な企業ネットワーク攻撃を実行できることを示している。この機構では、クリプトカレンシーのプルーフ・オブ・ワークのように、高額なトークン予算によってまれな成功が生じる。AI セキュリティ研究所(AISI)は、Mythos が 10 の試みのうち 3 でシミュレーションされた 32 ステップの企業ネットワーク攻撃を完了したことを確認したが、同様の条件下では Opus 4.6 と GPT-5.4 は失敗した。このタスクは「ラスト・ワンの」シミュレーションとして知られ、人間の完了には約 20 時間が必要と推定されている。特に注目すべきは、Mythos のパフォーマンスは、ランごとのトークン予算を 1 億トークンまで増加させた場合でも低下しなかったことだ。これは、1 つの試行あたり 12,500 ドル、完全な 10 回のラン基準テストスイート全体では 125,000 ドルのコストに対応している。この発見は、まれなセキュリティ監査から、市場価格で取引されるエクスプロイト価値に駆動される継続的なプロセスへの重要な移行を浮き彫りにしている。オープンソースソフトウェアは依然として重要であり、広く使用されているパッケージをクラッキングする方がワンオフの実装よりも攻撃者に高い投資対効果をもたらすためである。したがって、開発者は、専用ハードニングフェーズと常にレビューを行うことを含む新しい 3 フェージサイクルを採用することが推奨される。潜在的には Anthropic の新製品であるコードレビュー製品の活用も可能であり、その価格は 1 つのレビューあたり 15〜20 ドルである。企業は今や、資金が尽きるまで自律的なエクスプロイト特定を制限するトークン予算に対して大規模なリソースを割り当てるという現実と直面している。これとは対照的に、以前はまれで不整合だった慣行は存在しなかった。

本文

セキュリティ対策のために使用するトークン数、攻撃者が使うそれより多く支出していますか?

先週、Anthropic の Mythos という新世代の LLM(大規模言語モデル)について学びました。このモデルは「コンピューターセキュリティタスクにおいて驚くほど実力がある」と評価されていますが、Anthropic はそれを公開せず、代わりに重要なソフトウェアメーカーのみアクセス権を付与し、システムを強化する時間を設けたそうです。

私たちはすぐに、大規模 AI の主張に対する標準的な処理段階──驚き、存在への不安、 hype(過剰な期待)、懐疑心、批判、そして(最終的に)次の話題へ移るという流れを駆け足で通過しました。私は人々に「様子を見る」という姿勢を取るように勧めました。なぜなら、セキュリティ能力は印象的なデモに最適化されており、実際に脆弱性を発見することは定義が明確で検証可能な検索問題だからです。複雑なシステムを構築するのではなく、既に存在するシステムに対して手当たり次第に試行錯誤を行うことであり、数百万のトークンを投入するというアプローチに向いている問題なのです。

昨日、最初の第三者による分析レポートが AI セキュリティ研究所(AISI)から発表されました。このレポートは Anthropic の主張を大筋で支持しており、「Mythos は非常に優れている。サイバー領域のパフォーマンスは既に急速に改善されつつある中で、前世代の最先端モデルよりも一歩上を行っている」と評価されています。

entirety レポート全体を読む価値はありますが、ここでは主に以下のチャートに焦点を当てたいと思います。これは、異なるモデルがシミュレーションされた複雑な企業ネットワーク攻撃を成功させられる能力を示しています:

「最後のひとたち(The Last Ones)」とは、「初期のリコンノートからフルなネットワークの乗っ取りに至るまでを含む、32 ステップにわたる企業ネットワーク攻撃シミュレーション」であり、AISI はこれを完了するには人間が約 20 時間必要だと推定しています。图中的線は複数回の試行(Mythos、Opus 4.6、GPT-5.4 それぞれ 10 回)における平均性能を表し、「max」という線は各バッチ中最も優れた結果を示しています。Mythos は 10 の試みの中で 3 回のみでこのタスクを完了しました。

このチャートは興味深いセキュリティ経済学を示唆しています:システムを強化するためには、攻撃者が脆弱性を悪用するのに費やすトークン数よりも、研究者側が脆弱性を発見するために投入するトークン数が多くなければなりません。

AISI は各試行に 1 億トークンを割り当てていました。つまり、Mythos の 1 回あたり 12,500 ドル、そして 10 回の試行全体で 125,000 ドルです。心配すべきは、与えられたすべてのモデルが 1 億トークンの予算を与えられても、リターンの減少を示す兆候は全く見られなかったことです。「テストされたトークン予算の範囲において、モデルは増加するトークン予算とともに引き続き進歩を遂げています」と AISI は指摘しています。

Mythos が資金を投下し続ける限り脆弱性を発見し続けた場合、セキュリティは残酷にも単純な方程式に還元されます:システムを強化するためには、攻撃者が悪用するために費やすトークン数よりも多く、研究者側が脆弱性を発見するために支出しなければなりません。

知的であることだけで加点されるわけではありません。勝つのはより多くの資金を支払えた方です。これは、成功が生々しい計算量と結びついた暗号通貨の「プルーフ・オブ・ワーク」システムに似た構造を持っています。低温度(low temperature)のもとで行われる一種の宝くじです:トークンを購入し、幸運にも脆弱性を見つけることを願うのみです。できるだけ長く試行継続できれば、攻撃者よりも長く耐えられるかもしれません。

この計算にはいくつかの即座の示唆があります:

まず、オープンソースソフトウェアは依然として極めて重要です。 AI 至上主義者への曝露がない方々にとって、この発言は不自然に感じるかもしれません。しかし、最近では LiteLLM や Axios をめぐるサプライチェーンへの懸念から、依存関係の機能をコーディングエージェントによって再実装する必要性を主張する人々が増えています。

ここ数週間前に以下のように述べていた Karpathy 氏も同様です:

クラシックなソフトウェアエンジニアリングでは、依存関係は良いものだと思わされます(レンガからピラミッドを構築しているように)。しかし私の意見では、これは見直されるべきであり、それが私は次第に依存関係に対して嫌気になり、代わりに LLM を使って機能的な部分を「yoink」するようにするようになっている理由です。

セキュリティがトークンをシステムに投下するという問題なら、Linus の法則、「十分な目を持つ者いれば、すべてのバグは浅い」もトークンを含んだ概念へと拡張されます。OSS ライブラリに依存している企業がこれらのライブラリをトークンで守るための支出を行う場合、そのセキュリティレベルはおそらく予算が許す範囲を超えている可能性が高いです。もちろん複雑性もあります:広く利用されている OSS パッケージの解明は、一度限りの実装に対するハッキングよりも本質的に価値が高く、攻撃者を OSS ターゲットへの支出増を動機づけます。

第二に、システム強化はエージェント型コーディングにおける追加フェーズとなるでしょう。 すでに開発者がプロセスを「開発」と「コードレビュー」の二つの段階に分けている姿が見られます。それぞれのフェーズで異なるモデルを使用することも一般的です。これが成熟するにつれて、このパターンに対応した専用ツールが開発されています。Anthropic もコードレビュー製品をローンチし、レビュー 1 つあたり 15〜20 ドルという価格設定を行いました。

上記の Mythos の主張が真である場合、私たちはおそらく三段階のサイクルを観察することになるでしょう:開発、レビュー、そして強化です。

  • 開発: 機能を実装し、人間の直感やユーザーフィードバックに導かれながら迅速に反復します。
  • レビュー: ドキュメント化、リファクタリング、その他の管理作業を行い、非同期で各 PR にベストプラクティスを適用します。
  • 強化: 自主的かつ自動化された形で脆弱性を特定し、予算が尽きるまで続けます。

重要なのは、最初の段階では人間の投入量が制約であり、最後の段階では資金が制約となることです。この質的な違いは、これらを独立した段階にすることを本質的に促しています(何かある前に強化のために支出する理由は?)。以前はセキュリティ監査は稀で、断片的かつ一貫性のないものでした。今や私たちは、最適な(希望的には!)予算内でこれを常時適用できます。

コード自体は安価ですが、セキュリティを必要とする場合を除きそうではありません。推論最適化に伴ってコストが低下しても、モデルがセキュリティリターンの逓減点に到達するまでには時間がかかります。それでも依然として、攻撃者が使用するトークン数よりも多くのトークンを購入する必要があります。そのコストは市場における脆弱性の価値によって固定されます。

同じ日のほかのニュース

一覧に戻る →

2026/04/16 7:27

ターミナル用のページャーを作成しました。

## Japanese Translation: 著者は、ターミナルユーザーインターフェース(TUI)構築の中核エンジンとなる再利用可能な Go のビューポートコンポーネントを開発した。このモジュール化されたシステムは、Kubernetes ログを表示するための **kl** や、Nomad を表示するための **wander**、および `$PAGER` 環境変数を尊重して複数ページの内容を処理するdaily utility **lore**といったツールを稼働させている。アーキテクチャは、リサイズ、スクロール、検索(ショートカット `/`、`r`、`i` に正規表現対応付き)、水平方向のパニング、アイテム選択を含む必須機能をサポートしている。システムは、文字の折り返しおよびセル幅の計算(バイトをグリフに正確にマッピング)を行う `Item` インターフェース、表示向けの `Viewport`、検索機能向けの `FilterableViewport` の 3 つの主要モジュールを通じて、複数行および動的コンテンツを管理する。`MultiItem`のような高度な変種は、行番号などの動的プレフィックスをサポートしており、実装では特殊文字および絵文字の堅牢な描画が保証されている。開発者は、これらのユーティリティをテストまたは実行するために Go または Docker を使用でき、堅牢なコマンドラインアプリケーションの作成を容易にしている。今後の作業には、**libghostty**との統合およびエコシステムのさらなる改善が焦点となる。

2026/04/16 6:21

Excel 向けの ChatGPT

## Japanese Translation: Microsoft は、形式を整えたスプレッドシートや数式を用いた作成・更新を、ゼロから作業を開始する代わりに自然言語で行えるようにするための ChatGPT for Excel のベータ版を発売しました。このアドインは、ユーザーにデータの質問への明確な要約、タブ間での理解とデバッグ、パターン発見、そしてデータを実行可能な洞察への変換などを可能にし、かつ自らの行動を説明し、答えを特定のセルに関連付け、形式を整え、変更を行う前に許可を求めることができます。 このツールは ChatGPT Business、Enterprise、Edu、Teachers および K-12 ユーザー向けに世界中で提供されており、EU 外のプロとプラスユーザーにも利用可能です。インストールはホームからアドインを検索して「ChatGPT」を探し、Excel リボンに追加することで行うことができ、有効化には OpenAI アカウントを使用して ChatGPT Plus、Pro、Business、または Enterprise プランを持つ必要があります。 主要なユースケースとしては、アンケート分析、割引キャッシュフローモデル、ビジネス計画提案、財務諸表の数秒での分析などが挙げられます。将来のアップデートでは一般公開範囲の拡大、数理論理の改善、Slack、GitHub、Google Drive などの外部プラットフォームとのより深い連携が予定されています。この進化は、Excel 内での完全に対話的なデータ操作への重要なステップとなります。

2026/04/16 2:44

グーグルは私の望みに対し破約を果たし、今やICE(米国国土安全保障省移民・難民管理局)が私のデータを入手しました。

## 日本語翻訳: 2025 年 4 月、米国の法務・移民担当官(ICE)が、英国とトリニダード国籍を有し、親巴勒斯坦デモで保護された政治的言論を行った博士課程の候補者で元記者のアンドラ・トマス=ジョンソンに関するデータを求める行政命令状を発令しました。モモドゥ・タールのような友人らの事例とは異なり、当社は事前に通知され、利用者が要求に異議を唱える機会を得た上で処理が行われましたが、この命令状ではトマス=ジョンソンに警告なし、異議申立ての機会も提供せずに発令され、10 年間にわたる透明性の保証を実質的に破綻させました。同社は要求された利用者情報(IP アドレス、実在する住所、セッション時間など)を即時に提供しました。トマス=ジョンソンは既にナイアガラフォールズを経由してカナダへ渡っており、その時点で米国から離れていたにもかかわらずです。その後数週間後のスイス・ジュネーヴァにて、彼のデータが国土安全保障省に引き渡されたことが通知されました。エレクトロニックフロンティア財団(EFF)はこうした矛盾を指摘し、カリフォルニア州およびニューヨーク州の attorney general に提出した申し立てで、不正競争行為の調査を進めるよう Google に対して求めています。刑事告発を受けていないにもかかわらず、トマス=ジョンソンは今や旅行活動や報道活動に対する更なる監視のリスクに直面しており、企業責任、ユーザープライバシー、そしてテクノロジー企業が法的要求と侵入的な政府監視に対するユーザー権利の保護をどう均衡させるかという切迫した問いを提起しています。

現在、サイバーセキュリティ分野において「証明作業」のような性質を帯びているようです。 | そっか~ニュース