日本語訳:

火曜日に、Anthropic はセキュリティ専門のモデル「Mythos」の公開版かつ制限付き版である「Fable」を、プロジェクト・グラスウィングベータ（2025年4月限定）から15カ国に跨る数百家の組織へと拡大されたアクセスプログラムを通じてリリースしました。研究者によると、マルウェアの開発やソフトウェアへの侵害、生物学的兵器の作成といった悪用を防ぐことを目的とした Fable のガードレール（制限措置）は過度に積極的であり、ブログ記事の閲覧や標準的なコードレビューなど無害なタスクを含むサイバー関連活動と間接的に関連する正当なリクエストさえブロックします。トリガーされると、モデルは「セキュリティまたは生物学トピックに関するメッセージが安全性の措置によってフラグされた」というメッセージと共に会話を一時停止し、そのプロンプトに対しては Claude Opus 4.8 にフォールバックします。サイバーセキュリティ専門家であるマット・シュイチェ（Tolmo）は、Fable がキーワードベースの制限によりソフトウェアエンジニアリングタスクを頻繁に「安全なコードを書く」という書き換えに変換していると指摘し、「安全なコードを書く」や「コードレビュー」といったリクエストを誤って解釈していると述べました。業界アナリストからはこうしたキーワードフィルタリングが時間経過とともに改善されるとの見方がありますが、IBM X-Force のヴァレンティナ・パルミオッティ（Chompie）ら専門家は、現在の過度に制限的な展開を批判しています。Anthropic はこれらの懸念に対して直ちにコメントしていません。関連として、Anthropic もサイバーセキュリティ専門家に対して、Claude を使用する際にかかる制限を少なくするための「Cyber Verification Program」への別途申請を義務付けており、これは OpenAI の「Trusted Access for Cyber」に類似しています。

Anthropic 新モデル「Fable」、過度な制限でセキュリティ界隈から批判殺到

金曜日に、Anthropic は最新 AI モデル**「Fable」を発表しました。同社はこれを、高性能ながら話題を集めていたサイバーセキュリティ専門モデル「Mythos」**の公開版かつ限定版として位置づけていますが、その適用する制限条件に多くの専門家が不満を寄せています。

過剰な Guardrail が招く機能低下と拒否

Fable は、間接的に関係する可能性のあるサイバー関連のあらゆるリクエストを一律で拒否します。この制限により、以下の影響が生じています。

無害なタスクもブロックされる: ブログ記事を読み上げるなどの単純なタスクであっても例外ではありません。
エラーメッセージの表示: プロンプトが guardrail（防衛装置）をトリガーするとチャットが一時停止し、「安全性対策により、このメッセージはサイバーセキュリティまたは生物学の分野としてフラグ付けされました」と表示されます。
機能の強制切り替え (フォールバック): Guardrail にぶつかると、高機能なClaude Opus 4.8に自動的にフォールバックします。

これらは、悪意のあるソフトウエア開発やソフトウェアへの侵害、そして生物学的兵器の開発リスクを制限するためのもので、Anthropic 内部の長年の懸念事項に基づいています。

「ハザードナチュア」と呼ばれる不適切な制限

多くのサイバーセキュリティ専門家は、こうした制限が**適当に行われた（ハザードナチュア）**と批判しています。

誤認識による応答品質低下: 技術チームのベテランであるマット・スイーチェ氏は TechCrunch にこう述べています。

「セキュアなコードを書くよう頼めば、Fable はそれを『サイバーセキュリティ関連の仕事』と誤認してしまい、ソフトウェア工学におけるベストプラクティスとしての応答ではなく、グレードダウンした回答が返ってくるように見える」
キーワードベースの過剰警戒: 同じスイーチェ氏は、「
```
cybersecurity
```
という語彙圏にある何でも guardrail をトリガーしそうだ」と指摘しています。
日常業務への支障: 他の研究者は X（旧 Twitter）上で「コードレビューの依頼さえしても guardrail がトリガーされてしまう」と不満を訴えています。

背景：Mythos から Fable への展開と拡大

Anthropic は 4 月に**「プロジェクト・グラスウィング」として Mythos を発表し、当初は限られた数社にのみアクセスを制限していましたが、先週これを15 カ国の数百機関へ拡大**しました。

スイーチェ氏によれば、過剰な制限を設けておき時間をかけて guardrail を緩和していくのが賢明であると分析されています。

「漏れを防ぐために網羅性を保ちながら、後に柔軟性を高めることができるからです」

緩和策と対応状況

Anthropic 側からコメント要請に対する即時回答はありませんでした。

Guardrail の問題に加え、以下の条件も設けられています。

義務付けられた審査: サイバーセキュリティ専門家は、モデル利用申請をCyber Verification Programを通じて提出することを必須とされています。
- 承認を得た場合のみ、Claude をサイバーセキュリティ業務に使用するための制限が緩和されます。
類似プログラム: OpenAI でも同様の「Trusted Access for Cyber」プログラムの運用を行っています。

これらの対応は、初期段階であるため guardrail の調整が続けられており、時間経過とともに対策が進化する見込みですが、現状の過剰制限には依然として強い批判が指向されています。