Anthropic の新言語モデル「Fable」に対する規制策に対し、サイバーセキュリティ研究者たちが不満を示している

2026/06/11 1:42

Anthropic の新言語モデル「Fable」に対する規制策に対し、サイバーセキュリティ研究者たちが不満を示している

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

火曜日に、Anthropic はセキュリティ専門のモデル「Mythos」の公開版かつ制限付き版である「Fable」を、プロジェクト・グラスウィングベータ(2025年4月限定)から15カ国に跨る数百家の組織へと拡大されたアクセスプログラムを通じてリリースしました。研究者によると、マルウェアの開発やソフトウェアへの侵害、生物学的兵器の作成といった悪用を防ぐことを目的とした Fable のガードレール(制限措置)は過度に積極的であり、ブログ記事の閲覧や標準的なコードレビューなど無害なタスクを含むサイバー関連活動と間接的に関連する正当なリクエストさえブロックします。トリガーされると、モデルは「セキュリティまたは生物学トピックに関するメッセージが安全性の措置によってフラグされた」というメッセージと共に会話を一時停止し、そのプロンプトに対しては Claude Opus 4.8 にフォールバックします。サイバーセキュリティ専門家であるマット・シュイチェ(Tolmo)は、Fable がキーワードベースの制限によりソフトウェアエンジニアリングタスクを頻繁に「安全なコードを書く」という書き換えに変換していると指摘し、「安全なコードを書く」や「コードレビュー」といったリクエストを誤って解釈していると述べました。業界アナリストからはこうしたキーワードフィルタリングが時間経過とともに改善されるとの見方がありますが、IBM X-Force のヴァレンティナ・パルミオッティ(Chompie)ら専門家は、現在の過度に制限的な展開を批判しています。Anthropic はこれらの懸念に対して直ちにコメントしていません。関連として、Anthropic もサイバーセキュリティ専門家に対して、Claude を使用する際にかかる制限を少なくするための「Cyber Verification Program」への別途申請を義務付けており、これは OpenAI の「Trusted Access for Cyber」に類似しています。

本文

Anthropic 新モデル「Fable」、過度な制限でセキュリティ界隈から批判殺到

金曜日に、Anthropic は最新 AI モデル**「Fable」を発表しました。同社はこれを、高性能ながら話題を集めていたサイバーセキュリティ専門モデル「Mythos」**の公開版かつ限定版として位置づけていますが、その適用する制限条件に多くの専門家が不満を寄せています。

過剰な Guardrail が招く機能低下と拒否

Fable は、間接的に関係する可能性のあるサイバー関連のあらゆるリクエストを一律で拒否します。 この制限により、以下の影響が生じています。

  • 無害なタスクもブロックされる: ブログ記事を読み上げるなどの単純なタスクであっても例外ではありません。
  • エラーメッセージの表示: プロンプトが guardrail(防衛装置)をトリガーするとチャットが一時停止し、「安全性対策により、このメッセージはサイバーセキュリティまたは生物学の分野としてフラグ付けされました」と表示されます。
  • 機能の強制切り替え (フォールバック): Guardrail にぶつかると、高機能なClaude Opus 4.8に自動的にフォールバックします。

これらは、悪意のあるソフトウエア開発やソフトウェアへの侵害、そして生物学的兵器の開発リスクを制限するためのもので、Anthropic 内部の長年の懸念事項に基づいています。

「ハザードナチュア」と呼ばれる不適切な制限

多くのサイバーセキュリティ専門家は、こうした制限が**適当に行われた(ハザードナチュア)**と批判しています。

  • 誤認識による応答品質低下: 技術チームのベテランであるマット・スイーチェ氏は TechCrunch にこう述べています。

    「セキュアなコードを書くよう頼めば、Fable はそれを『サイバーセキュリティ関連の仕事』と誤認してしまい、ソフトウェア工学におけるベストプラクティスとしての応答ではなく、グレードダウンした回答が返ってくるように見える」

  • キーワードベースの過剰警戒: 同じスイーチェ氏は、「
    cybersecurity
    という語彙圏にある何でも guardrail をトリガーしそうだ」と指摘しています。
  • 日常業務への支障: 他の研究者は X(旧 Twitter)上で「コードレビューの依頼さえしても guardrail がトリガーされてしまう」と不満を訴えています。

背景:Mythos から Fable への展開と拡大

Anthropic は 4 月に**「プロジェクト・グラスウィング」として Mythos を発表し、当初は限られた数社にのみアクセスを制限していましたが、先週これを15 カ国の数百機関へ拡大**しました。

スイーチェ氏によれば、過剰な制限を設けておき時間をかけて guardrail を緩和していくのが賢明であると分析されています。

「漏れを防ぐために網羅性を保ちながら、後に柔軟性を高めることができるからです」

緩和策と対応状況

Anthropic 側からコメント要請に対する即時回答はありませんでした。

Guardrail の問題に加え、以下の条件も設けられています。

  • 義務付けられた審査: サイバーセキュリティ専門家は、モデル利用申請をCyber Verification Programを通じて提出することを必須とされています。
    • 承認を得た場合のみ、Claude をサイバーセキュリティ業務に使用するための制限が緩和されます。
  • 類似プログラム: OpenAI でも同様の「Trusted Access for Cyber」プログラムの運用を行っています。

これらの対応は、初期段階であるため guardrail の調整が続けられており、時間経過とともに対策が進化する見込みですが、現状の過剰制限には依然として強い批判が指向されています。

同じ日のほかのニュース

一覧に戻る →

2026/06/11 3:54

ΠFS

## Japanese Translation: πfs は、物理的なストレージを節約するためにユーザーデータを π(円周率)の無限数列に埋め込むことを目的とした実験的なファイルシステムを導入する。この革新的なアプローチは、「π が『正規数』である」という数学的仮説に基づいており、これは π の数列の中にあらゆる可能な有限の情報シーケンスがどこかに含まれていることを意味する。従来のドライブ上にファイルを保存するのではなく、システムはこの定数内に隠された任意のファイルコンテンツを特定するために特定のインデックスを計算する。この方法は、既存の数学的定数を新規にストレージスペースを生成することなく使用することで、歴史的なデータ保存の制限と潜在的な著作権問題を解決する。現在では遅いプロトタイプとして動作しているが、ハードウェアが進歩するにつれて並列処理、算術符号化、クラウドベースの計算などの技術を通じて、将来的には劇的な速度向上が約束されている。最終的に、πfs は極めてストレージ制約の高い環境向けにユニークなソリューションを提供し、場所に関するメタデータが失われても実際のデータは π そのものの不変の数列内に永久に埋め込まれていることを保証する。

2026/06/11 2:30

JPL が 13 歳のキュリオシティ探査機をどう科学活動に導いているか

## 日本語翻訳: # ルール - 元の意味を正確に保ってください(追加も省略も行わないでください)。 - ドキュメントの構造(見出し、箇条書きなど)を維持してください。 - 技術用語は正確に扱いください(API、LLM、zero-trust は自然な日本語が存在しない限りそのままにしてください)。 - トーンと確信度を保ってください。 - まとめたり、説明したり、再書き換えを行わないでください — ただ翻訳のみ行ってください。 ## 翻訳すべきテキスト: # ルール - 元の意味を正確に保ってください(追加も省略も行わないでください)。 - ドキュメントの構造(見出し、箇条書きなど)を維持してください。 - 技術用語は正確に扱いください(API、LLM、zero-trust は自然な日本語が存在しない限りそのままにしてください)。 - トーンと確信度を保ってください。 - まとめたり、説明したり、再書き換えを行わないでください — ただ翻訳のみ行ってください。 # 出力形式 ## 日本語翻訳: (ここに日本語の翻訳を書きます) ## 翻訳すべきテキスト: (必要に応じて;そうでない場合は元のテキストを繰り返します)

2026/06/10 23:47

『リーン・スタートアップ』の著者で新刊『Incorruptible』を手掛けるエリック・ライスによるAMA

## Japanese Translation: ナサ、ATT、IBM、HP、Amazon、Google などの企業で勤務してきた Eric Ries は、創設者が去った後、ほぼ全ての組織が「継承のテスト」に失敗し、当初のミッションから外れてしまうことを指摘している。Ries は、これを避けられない自然法則の原因ではなく、長期的な価値よりも短期的な株価を優先するシステム的な財政的インセンティブおよびインセンティブ設計に由来すると論じる。彼の著作『Incorruptible』では、「金融重力」に対する抵抗力を持つ組織を構築するためのガバナンスツールとリーダーシップ実践の「ブループリント」を導入している。彼は、「腐敗」という症状と、それを引き起こす根本的な力を見極め、価値観のみでは不十分で構造的な保護が必要であると強調している。Costco(ウォール街の圧力に 40 年間耐え抜いた)や Patagonia、Novo Nordisk、Google など、持続的なミッションとの整合性が可能な成功事例を提示している。Ries は、組織のエントロピーに対抗する「積極的なメンテナンス」の概念を取り上げ、企業統治のパッシブなシェルではなく、常に努力を要する城砦のように扱うことを主張している。また、壊滅的な四半期報告サイクルを、持続的な価値創造に焦点を当てたメカニズムで置き換えるなどした構造的変化、創設者が制御を保持することでプリンシパル・エージェント問題を回避できるブートストラップやコーポラティブモデル(例:Mondragon)などの代替案、そして AI ツールがリーダーに意思決定をする代わりに組織との整合性を評価するのを支援し価値観を増幅させる点を指摘している。最終的に、Ries は「営利企業」という従来の定義を明確に人間の繁栄を長期的な価値創造の核心要素として含むように提唱し、ベンチャーキャピタルや公開市場が持続的な組織的健康を支える方法を再定義する可能性を示唆している。