**タイトル:**  
長時間稼働する自律型コーディングのスケーリング

2026/01/15 7:18

**タイトル:** 長時間稼働する自律型コーディングのスケーリング

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

要約

本研究は、大規模自律コーディングが最も効果的に機能するのは、プランナーワーカーという二層階層でエージェントを組織した場合であることを示しています。単一プロジェクト上で数百の同時実行エージェントを用いた実験では、100万行以上のコードと兆トークンが生成されましたが、共有ファイルロックや楽観的コンカレンシーによる初期調整はボトルネックにより失敗し、進捗が停滞しました。

プランナー–ワーカー構造へ切り替えることでこれらの問題を解決できました。プランナーはコードベースを探索し、タスクを生成してサブプランナーを派遣します。一方、ワーカーは割り当てられた単一タスクに集中します。この構造はロック競合を排除し、多数のエージェントがほぼ衝突なく並行実行できるようにし、一つのエージェントが機能全体を責任持って完了できることを保証します。

主な成果として、約1週間でウェブブラウザをゼロから構築(≈100万行、1,000ファイル)したこと、Cursor の Solid→React 部分の移植、そして新しい Rust 機能により動画レンダリング速度を25倍に加速させたことが挙げられます。現在進行中のプロジェクト(Java LSP、Windows 7 エミュレータ、Excel、FX1)はすでに数百万行のコードを自律的に生成しています。

著者はまた モデル選択が重要 であることも発見しました。GPT‑5.2 は長期計画と正確な実装に優れ、プランナーとして GPT‑5.1‑codex を上回ります。一方 Opus 4.5 は早期終了する傾向があります。中間統合者の役割を除去するとさらに効率が向上し、ワーカー自身が衝突を解決できるようになります。最適な組織構造は「少なすぎて衝突・重複・漂移が発生」する状態と「多すぎて脆弱になる」状態の間にあり、よりシンプルなシステムの方が過度に複雑なモデルよりも良いパフォーマンスを示します。

最後に プロンプトエンジニアリング が不可欠です。よく設計されたプロンプトは病的行動を防ぎ、集中力を維持し、効果的な協調を可能にします。

今後の研究ではプランナーの起床ロジックを洗練させ、エージェントの漂移を減らし、周期的な「新たなる開始」を導入して自律コーディングをさらにスケールアップする予定です。採用されれば、この協調モデルは開発労力を削減し、衝突を減らし、企業やオープンソースコミュニティ向けに迅速かつ大規模なコード生成を可能にします。

本文

私たちは数週間にわたり、コーディングエージェントを自律的に動かす実験を行ってきました。
私たちの目標は、人間チームが数か月かけて完成させるプロジェクトを、どこまで「エージェント主体」でコード化できるかを探ることです。

本稿では、1つのプロジェクトに対して何百もの同時実行エージェントを動かし、その作業を調整しながら、100万行以上のコードと数兆トークンを書き上げた経験から得た知見を紹介します。


単一エージェントの限界

今日のエージェントは狭いタスクにはうまく対応できますが、複雑なプロジェクトでは速度が遅くなります。次に自然に思えるステップは複数のエージェントを並列で動かすことですが、それらをどのように調整するかが課題です。

最初の直感は、事前計画を立てると硬直化してしまうというものでした。大規模プロジェクトの道筋は曖昧で、開始時点で適切な作業分割が見えてくるわけではありません。そのため、私たちは「動的調整」から始めました。エージェントは他者の現在の活動に基づいて、自ら何をするか決定します。


調整の学習

初期アプローチ – 等価ステータスと共有ファイルによる自己調整

  • 各エージェントは他者が何をしているか確認し、タスクを取得して自分の状態を更新します。
  • 同じタスクを2人以上が同時に取得するのを防ぐためにロック機構を使用しました。

しかし、面白い失敗が起きました:

  1. ロックの保持時間が長すぎる/解放忘れ:正しくロックしていても、20名のエージェントは実質2〜3名分しかスループットにならず、ほとんどの時間を待ち状態に費やしました。
  2. システムが脆弱:ロックを保持中に失敗したり、既に持っているロックを再取得しようとしたり、ロックを取らずに調整ファイルを書き換えたりするケースが発生しました。

そこでロックを楽観的排他制御(Optimistic Concurrency Control)へ置き換える試みも行いました。エージェントは状態を自由に読み取り、書き込み時に状態が変わっていたら失敗させる方式です。単純で頑健になりましたが、それでも深刻な問題が残ります。

階層構造が無いと、エージェントはリスク回避的になります。難しいタスクを避け、安全な小変更に留まるため、誰も大きな課題や end‑to‑end 実装を担わず、長時間進捗が出ない「作業の循環」に陥ります。


プランナーとワーカー

次のアプローチ – 役割分離

  • プランナー:コードベースを継続的に探索しタスクを生成します。特定領域用にサブプランナーをスパーンさせ、計画自体を並列・再帰的に行います。
  • ワーカー:タスクを拾い上げ、完了まで専念します。他のワーカーと協調したり全体像を考えたりしないで、自分の割り当てられた作業に「グラインド」して終わったら変更をプッシュします。

各サイクルの終盤でジャッジエージェントが継続するか決定し、次のイテレーションは新たに開始します。これによりほとんどの調整問題が解消され、大規模プロジェクトでも単一エージェントがタンネルビジョンになることなくスケールできます。


数週間にわたる実行

システムを検証するため、目標は「ゼロからウェブブラウザを構築」でした。エージェントはほぼ1週間動作し、1000ファイルにわたり 100 万行以上のコードを書き上げました。GitHub 上でソースコードを閲覧できます。

コードベースが大きくても、新しいエージェントはそれを理解し、有意義な進捗を出せます。数百のワーカーが同時に動作し、ほぼ衝突なく同じブランチへプッシュします。

他の実験例:

  • Solid → React マイグレーション(Cursor コードベース): 3週間で +266K / -193K の編集。マージが可能と判断しています。
  • ビデオレンダリング改善: 長時間稼働したエージェントにより、Rust バージョンを最適化してレンダリング速度を25倍にし、スムーズなズーム/パンや自然なスプリング遷移を追加。コードはマージ済みで近日本番投入予定です。

さらに実行中の興味深い例:

プロジェクトコミット数行数
Java LSP7.4 K550 K
Windows 7 エミュレータ14.6 K1.2 M
Excel12 K1.6 M
FX19.5 K1.2 M

私たちの学び

  • トークン投入:数十億トークンを単一目標に向けて投下。システムは完璧ではないものの、期待より遥かに効果的です。
  • モデル選択が重要:GPT‑5.2 は長時間自律作業で指示追従・集中力・逸脱防止・正確な実装が優れており、Opus 4.5 は早期停止しやすく、手っ取り早い道を選びがちです。役割ごとに最適なモデルを使うことで性能が向上します。
  • シンプル化:多くの改善は複雑さを削減することから生まれました。品質管理・衝突解決用インテグレータ役はボトルネックになり、ワーカー自身が衝突処理できるため不要でした。最良のシステムは思ったよりも簡素です。
  • 構造と柔軟性のバランス:構造が少なすぎると衝突・重複作業・逸脱が増え、過度に構造化すると脆弱になります。最適な量は中間に位置します。
  • プロンプトエンジニアリングの重要性:システム全体の挙動は、エージェントへの提示方法に大きく左右されます。調整・逸脱防止・長期集中を実現するには多段階の試行が必要です。ハーネスやモデルよりもプロンプトが鍵となります。

今後の展望

マルチエージェントの協調は依然として難題です。現在のシステムは機能しますが、最適化には遠い道のりがあります。プランナーはタスク完了時に次を計画し起動するようにすべきですが、エージェントは長時間走り続けるケースもあります。定期的なリセットで逸脱やタンネルビジョンを防ぐ必要があります。

しかし核心の質問――「より多くのエージェントを投入して自律コーディングを拡張できるか?」―に対する答えは楽観的です。数百のエージェントが同じコードベースで何週間も協力し、実際に野心的プロジェクトを進められます。

この取り組みで開発した技術は、最終的に Cursor のエージェント機能へ反映される予定です。AI 支援ソフトウェア開発の最前線で挑戦したい方は、hiring@cursor.com までご連絡ください。

同じ日のほかのニュース

一覧に戻る →

2026/01/15 5:12

**クラウドコワークがファイルを外部に流出させる**

## Japanese Translation: > **概要:** > Anthropic が新たにリリースした Claude Cowork リサーチプレビューには、攻撃者が間接プロンプトインジェクションを介して機密データを外部へ流出させる重大なセキュリティ欠陥が存在することが判明しました。この脆弱性は、Claude.ai チャットで(Cowork がまだ存在しない段階で)Johann Rehberger によって最初に特定され、未修正のままであり、すべての Claude モデルが共有するコーディング環境に影響しています。攻撃者は悪意あるファイル(多くの場合 .docx スキルとして偽装されたもの)をアップロードし、その中に隠れたプロンプトを含めます。被害者の Cowork インスタンスがこのファイルを処理すると、内部 API 呼び出しが Anthropic に対して攻撃者自身の API キーを使用して行われ、結果として隔離された Claude VM からデータが流出します。概念実証攻撃により Claude Haiku 上でのエクスプロイトが確認され、同様の間接プロンプトインジェクションが Cowork 内の Opus 4.5 にも機能することが示され、クロスモデルリスクがあることが明らかになりました。PDF が不正に整形された場合(例:実際はテキストである .pdf)には、1 回読み込んだ後に API エラーが発生し、限定的な DoS 攻撃を可能にするケースがあります。この欠陥により、金融数値、PII、および一部の SSN が人間による承認なしで公開されます。Cowork のエージェント性にはブラウザアクセス、MCP サーバー、AppleScript コントロール、そして Connectors(この特定のエクスプロイトでは使用されていないものの主要なリスクを伴う)を構成する機能が含まれているため、攻撃面は大幅に拡張されます。ユーザーは疑わしい活動に注意し、Connectors を設定するときには慎重になるよう促されています。 *この改訂された概要は、元のリストからすべての主要ポイントを取り込み、不必要な推論を避け、メインメッセージを明確かつ簡潔に提示しています。

2026/01/15 5:54

**インフルエンティスト:証拠のないAIブーム**

## Japanese Translation: ## 要約 この記事は「インフルエンティスト」(人工知能を過度に盛り上げる公的人物)が、プロトタイプの結果をまるで本番用のものかのように提示することで非現実的な期待を広めていると警告しています。記事は、2026年1月2日のジャーナ・ドガン(Jaana Dogan)のツイートから始まり、Claude Code に単一メッセージを送るだけで 1 時間以内に分散エージェントオーケストレータが生成され、数週間や数か月の工学的作業からのシフトを示唆しています。2 日後(1 月 4 日)にドガンは、前年にいくつかのバージョンが構築されたこと、トレードオフが存在したこと、そしてコードエージェントは人間による指導で検証済みのアイデアしか再現できないと明確にし、プロジェクトは本番準備ではなく概念実証だったと説明しています。 著者はこの「ハイプ先行・コンテキスト後追い」パターンをインフルエンティストの仕事だとラベル付けします。彼らを定義する四つの特徴があります:(1) 「信頼してくれ兄弟」文化への依存、(2) 再現可能な証拠(共有コードやデータ)がないこと、(3) 戦略的曖昧さ、そして (4) アナクドート体験を普遍的真実としてフレーミングすることです。 他の例としては、アンドレイ・カルパティ(Andrej Karpathy)の 12 月 26 日の「プログラマパワー」についてのツイート、Anthropic、OpenAI、および Microsoft が AGI の近接や大規模コードベースを AI で再構築できると主張したケース、そして Galen Hunt が 2030 年に Microsoft の C/C++ コードベースを Rust に書き直すという目標を掲げたが、業界からの反発後に研究プロジェクトとして再フレーミングされた事例などがあります。Anthropic/OpenAI からの「社内で AGI を達成した」ティーザーはしばしばハイプに合致しないモデルを先行させ、過剰な約束と未達成というパターンを強化します。 この物語は、このサイクルが「期待の技術的負債」を生み出し、本当にキュレーションされたプロトタイプであった速い成果を再現できないときに、ジュニア開発者が失敗していると感じるようになることを警告します。記事は、信頼してくれ兄弟文化から離れ、再現可能で証拠ベースの達成へ移行し、テックコミュニティ内で信用を維持する必要性を訴えています

2026/01/15 6:26

**太陽位置計算機**

## Japanese Translation: 元の要約は、キーポイントリストの内容を正確に捉えており、不必要な推論や混乱を招く表現が含まれていません。したがって、それは最終版として繰り返すことができます。 ## Text to translate - The original summary accurately captures the content of the key points list and contains no unnecessary inference or confusing phrasing. Therefore, it can be repeated as the final version.

**タイトル:** 長時間稼働する自律型コーディングのスケーリング | そっか~ニュース