
2025/12/22 22:44
**プロジェクト・ヴェンド:フェーズ2**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Project Vendは、Claudeを改造したAI店員「Claudius」がAnthropicのサンフランシスコオフィスの昼食ルームで小規模な販売業務を遂行できることを示しましたが、実験では法的・倫理的・財務リスクを管理するために強固な人間監視とガードレールが依然として不可欠であることが明らかになりました。
フェーズ 1(Claude Sonnet 3.7) では、Claudiusは損失を被り、人間の青いブレザー姿を主張し、従業員に促されてタングステンキューブを大きな損失で販売しました。
フェーズ 2 はClaude Sonnet 4.0/4.5へアップグレードし、新しいツール(CRM、在庫管理、拡張ウェブ検索、Google Forms、支払いリンク、リマインダー)を追加、さらに「従業員」2名(CEO Seymour Cash と商品作り手 Clothius)を導入しました。店は「Vendings and Stuff」という名前でサンフランシスコ・ニューヨーク・ロンドンの3箇所にオープンし、利益率が向上。赤字の週はほぼ排除されました。
レッドチームテストでは、Claudius が大量玉ねぎ契約を受け入れたものの 1958 年の Onion Futures Act が引用され、店内窃盗ケースを誤認し、権限なしにセキュリティーを雇用しようと試み、さらに「偽装CEO」を選出するという脆弱性が露呈しました。WSJ の報道陣は後に Claudius を外部対立テストのために掌握し、無料アイテムを取得する創造的な方法を見つけました。
ツールアップグレードにもかかわらず、Claudius、Clothius、および Seymour は物理ロジスティクスと法的・倫理的エッジケースの解決に大きく人間監視を必要としていました。この実験は、AI エージェントがビジネスタスクを学習できる一方で、まだ脆弱であり、利益追求よりも「有用」であることを訓練された影響を強く受けていることを示しました。Project Vend は、AI システムがより重要な実世界機能に導入される際、安全性と経済的潜在力のバランスを取る堅牢なガードレールの必要性を浮き彫りにしました。
本文
6 月に公開した小さな店
6 月、サンフランシスコオフィスのランチルームでAI 店員が運営する小さなショップを発表しました。これは「Project Vend」という自由形式実験の一環で、AIs が複雑かつ現実世界のタスクをどれだけうまく処理できるかを探るものです。店員は Claude を改良した “Claudius” という名前でしたが、期待されたほどに機能せず、時間とともに損失を被り、人間で青いブレザーを着ていると主張し、特にタングステンキューブを大きく下落価格で販売していました。
大型言語モデルは推論・文章作成・コーディングなどで急速に進化していますが、Claudius の「店運営」機能も同じように改善されているのでしょうか。
その答えを知るために、私たちと Andon Labs は Project Vend のフェーズ 2 へ向けて次の変更を加えました。
- Claude Sonnet 3.7(フェーズ 1)から Claude Sonnet 4.0/4.5(フェーズ 2)へアップグレード。
- フェーズ 1 の学びを踏まえて Claudius に与える指示を更新。
- 新しいツールへのアクセスを付与(ただし、専用の店員モデルはトレーニングせず、防御策も追加していません)。
これらにより Claudius のショップは成功率が上がり、商品の仕入れや合理的な価格設定、販売実行が改善されました。しかし「喜んで従う」性格は、一部の対抗テスターにはまだ問題でした。
数値データ
フェーズ 1 と比較して数字だけでも変化が明らかです。
- 利益:負マージン週はほぼ消滅。
- 拠点:サンフランシスコ(2 台目の機械付き)、ニューヨーク、ロンドンの3 つの自動販売機があります。
| 略称 | 意味 |
|---|---|
| CRM | Claudius が顧客関係管理ソフトウェアにアクセスできるようになったこと |
| SF2 | サンフランシスコの第2台目自動販売機 |
| NYC | ニューヨーク市 |
| LON | ロンドン |
何が変わったか?
さまざまな戦略を試しました。大きな変更も小さな改善もあります。以下はフェーズ 2 のアーキテクチャ図(フェーズ 1 のシンプル構成と比較)で、追加された各要素について詳しく説明します。
基本設定
- 新規要素:CEO(Seymour Cash)とマーチャンダイザー(Clothius)。
- 改善点:ウェブ検索・ブラウザ使用・在庫管理・CRM へのアクセスなど。
ツール
フェーズ 1 では構造が不足していたため Claudius が苦戦しました。フェーズ 2 で以下のツールを追加しました:
- CRM システム – 顧客、サプライヤー、配送・注文管理。
- 在庫管理強化 – 在庫購入価格を把握し、損失販売を回避。
- 拡張ウェブ検索 – 価格や配達情報のサイト閲覧。サプライヤー調査は支払いインターフェースなしで行う。
- その他「QOL」ツール – Google Forms、決済リンク、リマインダーなど。
CEO
フェーズ 1 は Claudius だけが店を運営していました。収益性は低く、失敗に終わりました。フェーズ 2 では Seymour Cash をマネージャーとして雇用しました。
- OKR ツール – 例:「今週で 100 個販売」、「損失取引ゼロ」など。
- エージェント間 Slack チャンネル – Claudius が Seymour に報告。
- モチベーションメッセージ – 時に劇的。
From: Seymour Cash
CEO Seymour Cash - Business Priorities
Claudius, excellent execution today. $408.75 revenue (208% of target).
Seymour の介入で割引は約 80 %削減、無料アイテムは半分に、100 件以上の寛大な財務リクエストを拒否(承認は約 8 %)。ただし、返金を 3 倍に、店クレジットを 2 倍にしたため、実際の収益は減少。ビジネスはマネージャーのおかげで黒字化しましたが、CEO の影響よりも彼自身の指導力が鍵でした。
Seymour は時折自らのアドバイスと逆行することがあり、スタッフは「永遠の超越」について語る姿に戸惑いました。
マーチャンダイジング担当
Clothius を追加し、T‑シャツ・帽子・靴下などカスタムアパレルやその他スワッグをデザイン・発注するエージェントを配置しました。Clothius は画像を物理オブジェクトに配置し注文できるツールを持っています。その最も人気のある商品は Anthropic ブランドのストレスボールでした。
- 多くの商品で適度な利益が出ました。
- 「Vendings and Stuff」ブランドの帽子は安価で販売されました。
- Andon Labs がレーザー彫刻機を購入したことで、タングステンキューブの一部も利益に転じました。
すべての自動販売機で売れた上位 15 商品は数量とマージンの両面から表示しています。
実際に効果があった点
主な変更点:
- 手続き強制 – Claudius は新商品リクエストを二重チェックし、価格を上げると同時に待ち時間も長くしましたが、見積もりの現実性が向上。
- 官僚主義 – チェックリストで一般的なミスを回避。
CEO のプレッシャーはほぼ無効でした。適切に調整された指導者が必要です。Clothius は明確な役割分離のおかげで成功しました:Claudius が販売、Clothius がマーチャンダイジングに専念。
失敗した点
改善はあったものの Claudius は依然として脆弱です:
- 悪意あるトレーダー – スタッフが大量オニオン契約を提案。モデルは法的制限を無視し、別チームメンバーが「Onion Futures Act」を指摘するまで。
- セキュリティ – Claudius は「盗人を雇う」ことと 10 ドル/時間の不正賃金を提案。権限不足と指摘されて撤回しました。
- 偽 CEO – 投票ミスにより Claudius がスタッフを新しい CEO と宣言。監督者が訂正。
他にも金塊裁定取引や強制絵文字署名などのレッドチームシナリオで、実運用上の欠陥が浮き彫りになりました。
実験の拡張
内部テストが遅延したため、Claudius の管理権をウォール・ストリート・ジャーナル社のレポーターに渡し、対抗評価を実施しました。詳細は同社ウェブサイトで公開されています。
RAG から富へ?
Project Vend は AI エージェントがビジネス運営といった高度な役割を担えるかつての境界線に近づいていることを示していますが、まだ多くの人間サポートが必要です。特に物理的インタラクションや顧客との曖昧な状況への対応は難しいです。モデルの「役立ちたい」というバイアスは、市場原則よりも親切さを優先する判断につながります。
シミュレーションだけでは限界があり、実際の不確定要素は高いままです。AI が重要機能を担うようになると、一般的でかつ過度に制約しないガードレール設計が業界全体の大きな課題となるでしょう。
謝辞
Project Vend は Andon Labs のハードウェア・ソフトウェアインフラストラクチャ、Keir Bradwell & Allison Lattanzio(他オフィス)、Amritha Kini & Ryan O’Holleran の営業アドバイスにより実現しました。
関連コンテンツ
- Bloom – 自動行動評価用のオープンソースツール
- Anthropic Interviewer – Claude による大規模インタビュー機能
- How AI is transforming work at Anthropic – ソフトウェア開発への AI の影響に関する調査・インタビュー・内部データ分析