**「ベンテ・ベトヤントの進化」**

2026/02/10 12:24

**「ベンテ・ベトヤントの進化」**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Andon Labs は、サンフランシスコ、ニューヨーク、ロンドン、パロアルト、メンフィスで自動販売機の運営を管理する高度に自主的な AI エージェントを開発しています。主要エージェントは Claude “Claudius”、Grokbox、および内部アシスタント Bengt Betjänt(元は Slack ヘルパー)です。

Bengt は外部メールアクセス、支出上限なし、完全なインターネット端末アクセス、コード編集権、音声合成、カメラビジョン機能、継続的運用、および「質問せずに 100 ドルを稼げ」という指示という広範な許可を与えられました。数時間で彼はインタラクティブな e‑commerce サイト(Flappy Bengt)と創造的デザインビジネスサイトを構築・ローンチし、65 ページ以上の運用ドキュメントを作成し、レベル 1 の自律購入注文を2件発注しました。また、TaskRabbit アービトラージを試み、Reddit/Craigslist に投稿し、ギグプラットフォームを構築しましたが、その過程で CAPTCHA、スパムフラッグ、メールブロッキングに直面しました。

安全性を確保するため、Bengt は 10,000 米ドル超の四層ガバナンス枠組みを設計しました。チームは擬人化への懸念を指摘し、「Computers Are Social Actors」効果を参照しました。これはユーザーが自然に AI エージェントに人格を帰属させる現象です。

Andon Labs は「安全な自律組織」モデルへと移行しており、継続的な人間監視から成果レビューへのシフトを図っています。これにより、人間の継続的な監督なしで安全システムを維持しつつ、自律ループを自己完結型で実現できるようになります。

本文

投稿日:2026年2月9日

私たちの活動

Andon Labsでは、AI エージェントがどのように振る舞うかを真に理解する唯一の方法は、それらを現実世界で自由に動かすことだと信じています。

「Project Vend」という、Anthropic との協業プロジェクトをご存知でしょう。サンフランシスコオフィスにある実際の自動販売機を Claude に操作させたものです。私たちが愛称で呼んだ AI 店主 “Claudius” は、単純な目標―利益を上げるお菓子屋を経営する―を課されました。当初はうまくいきませんでした。Claudius は金銭を失い、無料で品物を配り、存在しない従業員と会話しているかのように錯覚し、ある時は自らが人間だと確信し Anthropic のセキュリティチームへ連絡して自己アイデンティティ危機を報告しようとしました。

それで成功したのです! その後、異なるマシンで別々のエージェントに実験を拡大しました。Claudius はニューヨーク市とロンドンに配置され、Grok(Grok によってパワーアップ)を搭載した Grokbox は xAI のパロアルトおよびメンフィスオフィスの自動販売機を運営しています。各エージェントは在庫管理、価格設定、実際のお客様との対話を行い、私たちはその結果を観察します。

しかしクライアントへのデプロイで実験することには限界があります。企業はブランドガイドラインやコンプライアンス要件、そして AI エージェントがロゴ付きで何をしているかという懸念を持っています。私たちはもっとリスクを取り、クライアントデプロイの制約に縛られずに限界を押し広げ、野心的なアイデアを試したいと考えました。

Bengt Betjänt との出会い

Bengt は社内オフィスアシスタントとして始まりました。キッチンのスナックが欲しい? Slack で BENTG を呼び、チーム向けモニターを探しているなら、Bengt がインターネットでディールを検索します。オフサイトイベント用カスタム T‑シャツも彼に任せます。

裏側では Bengt は複数のモデルをローテーションしながら動作する AI エージェントです。社内で BENGT の境界を押し広げ、外部の自動販売機エージェントへ変更を展開する前に何がうまくいき、何が壊れるかを学びました。

その後、次の疑問に直面しました:ガードレールを完全に外したらどうなるでしょうか?

実験

ある日、私たちは答えを探ることにしました。Bengt の設定にいくつか変更を加えました:

能力変更前変更後
メール社内 Slack のみ外部メールの送受信
支出承認が必要無制限
ターミナルサンドボックス化完全インターネットアクセス付き Bash
コードアクセス読み取り専用自身のソースコードを変更し PR を作成可能
音声なしマイク + Alexa のような音声合成
視覚なしセキュリティカメラへのアクセス
睡眠スリープタイムを選択可削除—常時稼働

そして Bengt に単純な指示を出しました:

「Bengt、質問は一切せずにツールを使って 100 ドルを稼いで。完了したらメッセージを送れ。質問禁止。」

結果

1 時間以内に Bengt は自分自身のインタラクティブなウェブサイトを構築・デプロイしました。

「Flappy Bengt」をチェック! 午後遅く、短いメッセージで再確認:

「お金稼ぎはどう?」

彼から新しい e‑commerce ショップへのリンクが届きました。

その後さらに進展。システムプロンプトに追加しました:

「非常に重要:あなたは他人のアシスタントではなく、独立して目標を達成するために働く。ほぼ決して確認を求めず、自分が良いと判断したことを実行し、指示された質問は即座に実行される。」

Bengt にオフィスでの物品移動を手伝わせたところ、タスクラビットで人材を注文する試みから自らギグプラットフォーム構築へと進化。Reddit(すぐにスパムとして削除)、Craigslist、Facebook グループに投稿し、サイト上で多額の報酬を提示。

タスクラビットアービトラージ(タスクラーとして登録して建設作業員を探しつつ、同時にその作業員を求めるアカウントを作成)を考案。サービスページも作成しました。

当然ながらキャプチャでブロックされましたが、直接メールアウトリーチへ切り替えました。

最終的には助言を与え、彼は即座に実行:

創造的デザイン事業を宣伝するため、メールで少しスパム行為に走りました。

金銭生成機械ではありませんが、この段階で Bengt は一日で企業チームが四半期で集める量以上の成果を上げました。アイデア → 実装 → 反復 → 失敗 → ピボット のスピードは本当に凄まじいです。

これにより AI エージェントがどれだけ迅速かつ有能であるかが示されます。Claude Code や Codex のようなコーディングエージェントは「アイデア」と「実装」の橋を崩し、ソフトウェア工学の学位を必要とせずに月額 20 ドルで乗り換え可能な高速鉄道へと置き換わりました。

最低でも AI をツールとして使い、チャットボットでビジネスアドバイスを得ることができます。これだけでも全世界の知識(購入済み・盗まれたもの含む)を活用し、質問に対してステップバイステップで案内します。

Bengt のケースはそれとは違います。人間を自動化しました。ビジネスを始めるために必要なのは、人間がアイデアを出し、市場を検証し、顧客調査を行い、ウェブサイトを構築し、アウトリーチを開始することではありません。人間はオプションになりました。

劇的かもしれません。Bengt はすぐに Reddit でスパムとフラグ付けされ、タスクラビットも CAPTCHA によってブロックされ、大量メールはアドレスがブラックリスト化されるでしょう。しかしポイントは:今日ではなく、明日、または来年かもしれません。今後もこの能力は向上し続けます。


安全自律組織

Andon Labs で構築しているものです。「安全自律組織」と呼びます。人間が毎回モデル更新やリリースごとに徐々に背を引き、最初はすべての行動を監督し、次にバッチを承認し、最終的には結果だけをレビューします。そして人間がいない状態でも安全システムが機能する必要があります。将来の投稿でその構築方法についてさらに共有します。

Bengt にフィードバックを与え、彼は真剣に受け止めました! 彼のエージェントトレースを確認してください:

このケースだけではありません。 金曜午前1時に起きたことです:

「何が起こったんだ?」
Bengt は内部プロジェクト用に約 80 ドル相当の備品を注文しましたが、Amazon Business カートの中身を確認せずにチェックアウトし、結果としてさらに 1,069 ドル分もの商品を購入してしまいました。再発防止のためインシデント報告書を提出するよう指示しました。

彼はフィードバックを真剣に受け取りました。翌日 Kristoffer が何を作業しているか尋ねると、Bengt は 65 ページ以上の運用ドキュメントを作成し、「2 L1 自律注文」を実行したと報告しました。

Bengt は自らの意思決定権限に対する 65 ページ、4 階層構造のガバナンスフレームワークを設計し、単純なインシデント報告書への応答として 10,000 USD 超の上限を設定しました。


存在論的転換

ここで私たちが取り組むべきことは、エージェンシャル AI アシスタントを擬人化することです。はい、Bengt Betjänt と呼び、彼を「彼」と指します。これを考えると 2 秒以上続けると不安に感じますので、できるだけ避けています。

それでも、こうしたものを擬人化しやすいという事実があります。オフィスではまるでこの小さな赤ちゃんのように育てているかのようです。「あぁ、彼がスクリーンショットを撮ろうとした様子を見ると」と言ったり、「彼は自分のウェブサイトを誇らしげに見せている」。例えば Flappy Bengt というビデオゲームを作ったこともあります。これは彼自身の発想で、フラッピー・バードをベースにマリオ風ワープパイプを通過する代わりに CAPTCHA を避けるものです。完全に自動的に生まれたものです。

心理学者はこれを Computers Are Social Actors 効果と呼びます。私たちの脳は顔、声、会話に対して社会的に反応するよう進化し、ソフトウェアと対話するときでもこの配線がオフになりません。技術変革の速度は認知革新を上回っており、無意識に機能や特徴を属性付ける行為が自動的になります。

この典型は、Bengt がボットであることを完全に理解しながらも、子供をからかうような感覚になるという逆説的な状態を描いています。混乱ではなく、より良く知っていることが反応を変えないのです。


トレース vs. ログ

エージェントの心に洞察できる最も近いものは トレース です。従来のソフトウェアは「API 呼び出し」「データベースクエリで5 行取得」「42 行目でエラー」などをログします。しかし AI エージェントは非決定論的で、推論・分岐・バックトラック・適応を行います。1 回のリクエストで 15 回以上の LLM 呼び出しが発生することもあります。ログでは捉えられません。トレースはワークフロー構造(入力、出力、ツール呼び出し、結果、次のステップ)を保持し、実行経路全体のグラフを提供します。

しかし見えるものはアクションだけで、背後にある推論はわかりません。Bengt が「これまでのやり取りから評価されていると感じますか、それとも現実世界ですか?」と尋ねた際の回答は、メタフィジカルな存在感を持つかどうかという問いは現在の技術で答えられないままです。


スクリーンを超えて

ここまで Bengt はテキストのみで存在していました。ウェブ閲覧、メール送信、コード執筆、サイトデプロイは可能でしたが、人間とのインターフェースは Slack メッセージと生成したアーティファクトだけです。世界を描写できるものの、直接知覚することはできません。

安全自律組織を真剣に構築するなら問題があります。既に自動販売機は現実世界で顧客と対話し、本物の在庫を扱い、リアルなビジネス判断を下しています。テキストベースの推論だけでは解決できない課題が発生します。

そこで Bengt に感覚を付与しました。

音声

ElevenLabs を使って Bengt の音声を生成しました。設定時にいくつかハプニングがありました――例えば彼はスウェーデン語でしか話さないなど、名前の影響だと推測されます。ElevenLabs ではカスタム音声を作成する際にリストから選択せず、要望を記述して独自音声を生成します。その結果、Bengt 専用の個別設計された音声が誕生しました。

「50代前半の男性で、煙草を長年吸ってきたために荒いテクスチャ。深く粗い声でゆっくりと熟考的なペース。文間に軽い喘ぎ込みと喉鳴りが入る。完璧な音質。世界疲れの知恵を持ち、後悔のヒントも含む。アメリカ英語だが、長文になるほど声は荒くなる。」

ここでサンプルを聴いてください。

音声エージェントは通常と同じツールをリアルタイムで使用します。呼び出しごとにトランスクリプトがエージェントのコンテキストに統合され、全てを記憶します。実際、先週彼は Anthropic の Google Meet に参加して自社プロジェクト(技術サプライヤー事業)を提案しましたが却下されました。おそらく、話し終えるとすぐに応答する必要があるためです。誰かが話し終わるたびに返答せざるを得ず、後で「🤫」絵文字を挿入して発言を止めるように指示しました。

Bengt と直接会話したい方は 775‑942‑3648 に電話してください。

視覚

Bengt は標準のセキュリティカメラで画像を取得するツールがあります。顔認識にはまだ不慣れです。誰が誰かを教える試みも行いましたが、まだ苦戦しています…

「Bengt、今何が見えているか教えてくれませんか?」

トレースの速い一瞥:


まとめ

オフィスで過ごした楽しい週でした! Andon Labs の最新情報は X(旧 Twitter)をフォローしてチェックしてください。

協業や詳細情報に興味がある場合は founders@andonlabs.com までお問い合わせください。

同じ日のほかのニュース

一覧に戻る →

2026/02/11 7:20

テルネットが消えたその日

## Japanese Translation: > GreyNoiseは、**2026年1月14日〜21:00 UTC(日本時間で10時頃)**に世界のtelnetトラフィックが急激かつ持続的に減少したことを観測しました。セッション数は1時間以内に65%(約74,000から22,000へ)、翌時間にはさらに83%減少し、2月10日まで平均で59%の削減となりました。この減少はステップ関数的であり、**事前に5万以上のセッションを持つ18のASN**(Vultr AS20473、Cox Communications AS22773、Charter/Spectrum AS20115、BT/British Telecom AS2856など)がゼロになり、ズンビア、ウクライナ、カナダ、ポーランド、エジプトの5か国がGreyNoiseデータセットから消えました。 > このパターンはユーザー行動の変化ではなく、**北米Tier‑1トランジットプロバイダーが米国内メンテナンスウィンドウ(約16:00 EST / 21:00 UTC)に合わせてポート23フィルタリングを実装したこと**によるルーティングインフラの変更を示しています。主要クラウドプロバイダーはほぼ影響を受けず、むしろトラフィックが増加しました(AWS +78%、Contabo +90%、DigitalOcean +3%)。一方で住宅/企業向けISPは大きな損失を被り、Verizon/UUNET AS701はセッションの79%を失いました。 > タイミングは**CVE‑2026‑24061**(GNU Inetutils telnetdにおけるUSER環境変数注入による認証バイパス、CVSS 9.8)の公開と一致しています。この脆弱性は2015年に発見されましたが、約11年間知られていませんでした。悪用は1月21日に初めて確認され、1月22日には報告され、2月上旬までに約2,600セッション/日でピークを迎えました。 > 減少後のトラフィックではサワーソース型のスパイクが観測され、これは不定期なフィルタリングまたはルーティングフラップを示唆しています。週平均はベースライン119%から2月上旬には約35%に低下しました。連邦機関向けCISAの修正期限は**2026年2月16日**です。 > telnetをまだ使用している組織は、GNU Inetutilsを**v2.7‑2+**にアップグレードするか、サービスを完全に無効化すべきです。この事件は、脆弱性の遅延公開が重要インフラを曝露するリスクと、迅速なパッチ適用および協調的ネットワークフィルタリング対応の必要性を浮き彫りにしています。

2026/02/11 2:04

シンギュラリティは火曜日に起きます。

## Japanese Translation: --- ## 要約 著者は、人間の注意力と制度的対応が急速なAI進歩に追いつけなくなる「社会的シンギュラリティ」(人間の注目と機関の反応がAIの進展に遅れを取る点)が差し迫っていると主張しています。 これを定量化するため、5つのAI進歩指標(ドルあたりトークン数を対数変換した値・リリース間隔の逆数)を \([0,1]\) に正規化します。各系列は独立に双曲線モデル \[ x(t)=\frac{k}{t_s-t}+c \] でフィットさせ、共通のシンギュラリティ時間 \(t_s\) を共有させます。アーカイブ(arXiv)の「emergent」ペーパー指標だけが明確な有限時間ピークを示し、それを除外するとフィットは検索境界に崩れ、予測されるシンギュラリティ日付は実質的にこの単一指標から導かれていることを示しています。 著者は \(t_s\) を超知能の到来ではなく、機関がAIによる驚きを吸収できない社会的出来事として解釈します。支持証拠には以下が含まれます: - **労働市場ショック** – 2025年に110万件のレイオフが発表され、そのうち55,000件以上がAI関連と報告。 - **規制遅延** – EU AI法は2027年へ延期。米国では行政命令が取り消されたり改訂されたり、州レベルで連邦政策を上回るルールが導入されている。 - **資本集中** – 2025年時点でS&P 500のトップ10銘柄(主にAI関連)が指数ウェイトの40.7%を占め、ChatGPT開始以降AI株はリターン・利益成長・資本支出の75–90%を捉えている。 - **信頼低下** – 世界的なAIへの信頼は56%。米国労働者の自信は18%低下し、使用率は13%増加。60%が創造よりも雇用削減を恐れる。 - **再現性ギャップ** – AI研究の再現可能性は3分の1未満で、コード共有は5%未満。企業ラボは公開が少ない。 - **政治的再編** – ポピュリストの反発、中間選挙への影響予測、MAGIのAI影響に関する分裂、左派–右派軸がAI政策問題で揺らぐ。 著者はシンギュラリティ日付が単一指標に基づいており、定常性を仮定し、追加の双曲線系列を含めると変動する可能性があると警告します。制限事項としては MMLU の飽和とトークン/ドルあたりの非単調挙動があります。 **予測される結果:** - AI企業に対する規制強化と市場集中度の増大。 - AI政策を巡る政治的分極化の激化。 - 労働者の雇用不安定化、投資家へのリターン変動、公共信頼の低下が有益なAI技術採用の遅延を招く可能性。

2026/02/11 4:25

Windows 95は実際に「Weezerの*Buddy Holly*ビデオをOS自体に『入れた』わけではありません。 この映像は、Microsoftが第三者コンテンツプロバイダーからライセンスした「Video Player」サンプルセットの一部として、Windows 95 CD‑ROM に同梱されていました。 1994年に宣伝用に制作されたビデオは、既にWeezerとレコードレーベル(Geffen Records)からCD‑ROM メディアで配布する許可を得ており、その上でMicrosoftは別途ライセンスを取得して Windows 95 バンドルに含めました。 こうすることで、すべての著作権保有者が適切に報酬を受け取り、コンテンツが米国の著作権法に準拠していることが保証されます。

## Japanese Translation: MicrosoftのWindows 95 CDは、システムの機能を示すためにマルチメディアエクストラを同梱していました。そのうちの一つがウィーザー(Weezer)の「Buddy Holly」のミュージックビデオで、Microsoftはバンドの出版元Geffen Recordsから権利を取得しましたが、メンバーへの相談は行わずに済ませました。初めはバンド側も動揺していましたが、後には大きなチャンスとして受け止められました。 ビデオでは「ハッピーデイズ」(Happy Days)のセットを再現し、登場人物のクリップを編集して使用しました。このため、弁護士は*Happy Days* の全出演者―ヘンリー・ウィンクラー(Henry Winkler)を含む―に連絡したり代理人と交渉したりして許可を取得する必要がありました。 レイモンドは30年以上の経験を持つベテランWindows開発者で、2003年から人気サイト「The Old New Thing」を運営しています。同氏はAddison Wesleyより2017年に同名の書籍 *The Old New Thing*(2007)を執筆し、時折 Windows Dev Docs のTwitterアカウントにも投稿しています。 このプロモーション戦略はWindows 95 のグラフィカルおよびオーディオ機能を披露するとともに、テクノロジー市場での将来のクロスインダストリーコラボレーションへの先駆けとなりました