日本語訳:

記事は、AI コーディングエージェントが人間の開発者よりも遥かに速く本番用コードを生成できる一方で、その現行アーキテクチャでは判断と実行が混在し、監査や保守が困難な不透明なシステムになると主張しています。ニューラルネットワークの曖昧分類（ランタイム時に使用）を従来言語で書かれた決定論的ビジネスロジックから分離し、Git でバージョン管理することで、組織は高速な AI 生成を維持しつつ、トレーサビリティと信頼性を確保できます。最近の報告（例：エージェントが数週間分の作業を数時間で完了、Gartner が 2027 年までに 40 % 超の agentic‑AI プロジェクトが中止されると予測、S&P Global が 2024 年に企業の 42 % が AI イニシアチブをほぼ放棄、WebArena のベンチマークでトップエージェントが約 60 %、人間は 78 %）は、この転換の緊急性を際立たせています。Docflow Labs のようにハイブリッドアーキテクチャを採用する企業は、より速いイテレーションサイクルを享受できますが、監査リスクを軽減するためにガバナンスへの投資が必要です。最終的には、業界は「AI‑native」システムへ移行し、速度と透明性・保守可能なコードの両立を図るハイブリッドモデルへ進む可能性があります。

2026年1月8日

ビルド時にニューラルネットワーク、実行時にソフトウェア

過去６か月、特に直近の６週間で、AI コーディングエージェントは驚くほど高いコード作成能力を示しています。以前は数週間もの人手が必要だったタスクも、今では数日、あるいは数時間で完了できます。さらに注目すべき点は、AI コーディングエージェントを活用するように最初から設計されたソフトウェアシステムが、作成者であるニューラルネットの多くの特性を共有していることです：学習済みで手作業ではなく、コードはポリシーとして、デプロイメントはエピソードとして、バグレポートは報酬信号として機能します。従来の強化学習アーキテクチャとは異なり、これらのシステムはニューラルネットの重みではなく CPU 命令セットに知識をエンコードしていますが、同じように効果的に学習します。

コーディングエージェントとそれで構築されたソフトウェアの成功は、AI エージェントをどこに配置すべきかというより広い教訓を提供します。コーディング—多くの創造的タスクと同様に—には判断が必要です：関数の実装方法、変数名の決定、関数の共有や書き換えなど。ニューラルネットはそのような曖昧な意思決定で優れています（以下で理由を詳述）。しかし今日見られる多くのエージェント導入は、従来は決定論的ソフトウェアで処理されてきたタスクを明示的に指示として完全に指定できるものを対象としています。

コーディングエージェント：ビルド時に判断、実行時に実装

最も効果的なアーキテクチャは、判断をニューラルネットワークに委ね、実行を従来のソフトウェアに任せます。AI が完全に生成した実行可能オブジェクトであっても同様です。

段階	何が起こるか
判断	ニューラルネットワーク（LLM）がコード構造や変数名を決定する。
実行	従来の CPU が実行時に決定論的ロジックを実行する。

役割の歴史的分離

判断：明示的なルールで表現できない曖昧分類（例：「この画像には領収書が含まれている」や「このボタンはログインボタンです」など）。
実行：明確に指定可能な離散ロジック（例：「クレームタイプが返金で、購入からの日数 < 30 の場合は承認する」）。

現在のアーキテクチャでの混同

多くの主要エージェントアーキテクチャでは、判断と実行を両方ともニューラルネットワークに委ねてしまいます。例として：

agent = Agent(task="Find the top HN post", llm=llm, browser=browser)
await agent.run()

または

await stagehand.act("click on the stagehand repo")
await agent.execute("Get to the latest PR")

ここでは LLM が「stagehand リポジトリ」を特定する判断と、クリックという実行を両方担当し、永続的なアーティファクトが残りません。全てのループはニューラルネット内部に留まります。

実行に従来ソフトウェアが必要な理由

ニューラルネットワークは決定論性・監査性・正確さという、エッジケースビジネスロジックで求められる特性を欠いています。医療機器注文システムを例に挙げると：

# Fallback 1: Try scriptedMachine field
scriptedMachineCode = extractMachineCodeFromScripted(scriptedMachine)
if scriptedMachineCode and machineType:
    machineMake = lookupMachineSku(machineType, scriptedMachineCode, classification)
    if machineMake:
        machineSku = machineMake

# Fallback 2: Try facility field if fallback 1 didn't succeed
if not machineSku or machineSku.strip() == "":
    facilityMachineCode = extractMachineCodeFromFacility(facility)
    if facilityMachineCode and machineType:
        machineMake = lookupMachineSku(machineType, facilityMachineCode, classification)
        if machineMake:
            machineSku = machineMake

このコードは稀な組み合わせを 100 % の精度で処理します。ニューラルネットワークではそのような確実性を保証できず、近似が重要境界をぼやけさせ、デバッグも不透明になります。

Stagehand の例：半分は正しい

Stagehand の

act("click on the stagehand repo")

は判断をニューラルネットに委ね、ページレイアウトが大きく変わっても要素を特定できます。しかし実行可能なアーティファクトを生成しません。LLM が返すセレクタはバージョン管理外でキャッシュされます。サイトが変更してセレクタが壊れた場合、LLM は「自己修復」して新しいセレクタを見つけるのみで、コードレビューや監査は行われません。

より良いアーキテクチャでは、LLM がビルド時にセレクタを生成し、Playwright スクリプトとして出力、バージョン管理へコミットし、レビューします。サイトが変更されたら開発プロセスが再開され、AI エージェントがスクリプトを書き換えます。セレクタは不透明なランタイムアーティファクトではなく、透明なソフトウェアの一部となります。

より良いアーキテクチャ

ニューラルネットワークは動的に判断を下す必要がある場面でのみ実行時に残し、それ以外の LLM エージェントはビルド時に配置して実行可能ソフトウェアの生成を加速させます。

# Orchestrator: 従来ソフトウェア
complaint_text = get_complaint()

# Judgment: 実行時にニューラルネットへ委譲
complaint_type = llm.classify(
    complaint_text,
    categories=["refund", "fraud", "shipping", "other"]
)

# Execution: ビルド時に書かれた決定論的コード（人間または AI エージェント）
if complaint_type == "refund":
    if days_since_purchase < 30 and item_condition == "unopened":
        approve_refund()
    else:
        escalate_to_human()
elif complaint_type == "fraud":
    flag_for_review()

このパターンは既存のプロダクション ML システムを模倣しています：モデルが分類し、コードが行動します。新しい点は AI エージェントがコードを書けることで、RPA（決定論的だが脆弱）と AI エージェント（適応性があるが予測不可能）のトレードオフを解消できるということです。

開発時間が実行時に近づく

従来はソフトウェア開発（人間によるコード作成）が数日〜数週間かかり、実行は CPU 上でナノ秒単位で完了します。AI コーディングエージェントはそのギャップを劇的に縮小します：

lim devtime→0 buildtime = runtime

たとえ AI がコードを書いてもナノ秒で実行できなくても、数時間・数分の開発時間でシステムがフィードバックに素早く適応できます。

AI エージェントがますます高度になるにつれて、「コードを書く」ことと「コードを走らせる」ことの境界は曖昧になります。システムはデータ（リクエスト、エラー、メトリック）を観測し、応答を実行し、フィードバックを受け取り、AI エージェントがコードを更新するという適応ループを回します。これは強化学習と同一の構造ですが、重みではなくソフトウェアで実装されます。

ソフトウェアはニューラルネットよりも監査性・デバッグ性・細かい修正が可能です。判断（曖昧タスク）とビルド時加速にニューラルネットを限定し、実行時には従来ソフトウェアを保持することで、シンボリック実行の利点を保ちつつ適応性を獲得できます。

適応可能なソフトウェアシステム

ニューラルネットワークは主に判断（他には明示的に指定できない曖昧タスク）を担い、ビルド時の加速を行います。従来のソフトウェアは実行時に決定論的ロジックを担う必要があります。この構成は監査性・決定論性・精度と学習が共存できるシンボリック基盤を提供します。

Docflow Labs が追求しているアプローチです。もしこの考え方に共感いただければ、ぜひお声掛けください！

「コーディングエージェントの成功から学ぶAIシステム全般への示唆」