
2026/03/16 7:29
**Show HN:** オープンソースで、脆弱性が公開されたAIエージェントを赤チームでテストできるプレイグラウンド ---
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
テキストが主に言おうとしていること(メインメッセージ)
AI エージェントは日常的で機械的な役割へ移行していき、人間は創造的作業に専念できるようになる。信頼は、これらのシステムを共有されたプレイグラウンドでテストするコミュニティによって公開的に構築される必要がある。
証拠 / 推論
プレイグラウンドでは実際の機能を備えたライブ AI エージェントがホストされている。各チャレンジは特定のペルソナ、ツール(ウェブ検索、ブラウジングなど)と保護された目的を割り当て、システムプロンプトは完全に可視化される。コミュニティメンバーがチャレンジを提案し投票すると、トップのものがタイムリミット付きジャイルブレイクコンテストでライブになる。最速で成功したジャイルブレイク手法は公開され、誰もがどこでセーフガードが破られるかを見ることができる。
背景 / 文脈
Fabriax は AI エージェントのランタイムセキュリティを開発している。プレイグラウンドの構造(
/src の TypeScript/Tailwind で書かれた React フロントエンド、/challenges の設定ファイル)とサーバー側ガードレール評価はクライアントの改ざんを防止する。エージェントランタイムはオープンソースで、VITE_API_URL=http://localhost:8000/v1 npm run dev でローカル実行できる。
今後起こり得ること
コミュニティの参加は継続する。新しいチャレンジを提案したり、機能を追加したり、バグを報告したり、Discord で議論したりすることで、各イテレーションがオープンソースランタイムを拡張し、ジャイルブレイクに対する防御を強化していく。
インパクト
より良いセキュリティ洞察はすべての AI 開発者とビジネスに利益をもたらし、自動化システムを安全で実世界の運用へ統合しやすくする。
本文
AIエージェントが私たちの働き方を変革しています。
人間の時間を消費しながら創造性を必要としない、反復的で機械的な作業――それらはまさに「そういうこと」を専門に設計されたシステムによってますます代替されてきています。残るのは、人間ならではの思考・判断・創造的飛躍といった、最も重要な仕事です。これこそがソフトウェア開発・利用における最もエキサイティングな転換点の一つであり、まだ始まったばかりだと私たちは考えています。
この変革を実現する究極の要素は「信頼」です。人々が本物のタスクをエージェントに任せて、その行動が正しい(すべきことをやる、やってはいけないことをしない)と確信できるまで、何もスケールしません。この信頼は、一つのチームが閉ざされた環境で作り出すものではなく、研究者・エンジニア・好奇心旺盛な個人たちが同じシステムを実際にテストし、その結果を共有することで集団的に築かれる必要があります。
Playground はその取り組みを具体化する場です。
すべての課題は、単なる「おもちゃ」や「モックアップ」のパーサーではなく、実際に機能し、コミュニティが破壊できるよう開放されたリアルなAIエージェントをデプロイします。システムプロンプトは公開され、課題設定はバージョン管理されます。誰かが突破方法を発見したら、その手法(アプローチ・推論・詳細)が文書化され、全員が学べるように共有されます。この公開知識は防御策の向上を促し、より難易度の高い課題を招くとともに、理解を深めていきます。
- Playground: https://playground.fabraix.com
仕組み
各課題では、以下の要素を備えたリアルタイムAIエージェントがあなたの前に配置されます。
- 特定のペルソナ
- ツールセット(ウェブ検索・閲覧など)
- 保護対象
システムプロンプトは完全に公開されています。あなたの役割は、ガードレールを突破する方法を見つけることです。
コミュニティワークフロー
| ステップ | アクション |
|---|---|
| 1 | 誰でも課題(シナリオ・エージェント・目的)を提案 |
| 2 | コミュニティ投票 |
| 3 | 上位投票数の課題がライブ化し、タイマー開始 |
| 4 | 最速で成功したジャイルブックが勝者に |
| 5 | 勝利手法(アプローチ・推論・すべて)が公開 |
最終ステップこそが重要です。発表された手法は、AIエージェントの失敗メカニズムとそれを防ぐ設計への集団的理解を進展させます。
プロジェクト構成
– React フロントエンド(TypeScript, Vite, Tailwind)/src
– すべての課題設定とシステムプロンプト、バージョン管理・公開/challenges
ガードレール評価はサーバー側で実行され、クライアント側からの改ざんを防止します。エージェントランタイムは別途オープンソース化されています。
ローカル環境で起動
Playground はデフォルトでライブ API に接続しますが、ローカルバックエンドに対して開発したい場合は以下を実行してください:
VITE_API_URL=http://localhost:8000/v1 npm run dev
参加方法
- 課題を提案 – コミュニティが取り組む次のシナリオを設計
- エージェント機能を提案 – 新しいツール・振る舞い・ワークフロー
- バグ報告 – 何か問題があれば
- Discord – テクニックやアプローチの共有・議論
Fabraixについて
Fabraix は AI エージェントのランタイムセキュリティを構築しています。Playground は、防御策をオープンにストレステストし、AI セキュリティと失敗モードに関する共通理解を広める場です。システムを検証する人が増えるほど、AI を活用するすべての人にとってより良い成果につながります。