
2026/04/16 22:17
クラウドフラアード AI プラットフォーム:エージェント用に設計された推論層
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Cloudflare AI Gateway は、単一の API エンドポイントを通じて 12 つ以上の提供者から提供される 70 以上のモデルへのアクセスを統合し、企業の AI 導入を大幅に推進します。開発者は、Cloudflare ホストのモデルと OpenAI や Anthropic など外部プロバイダーのモデルの間で、コードの変更が最小限(
env.AI.run() を使用するだけで 1 行程度の調整で可能となる場合もある)でシームレスに切り替えることができます。330 の都市にまたがる Cloudflare のグローバルネットワークを活用することで、プラットフォームはライブエージェント型アプリへの対応時間を最小化するため、障害のあるプロバイダーからのトラフィックを自動的に迂回させ、カスタムのフェイルオーバーロジックなしで高可用性を確保します。ゲートウェイは、ユーザータイプやワークフローのようなカスタムメタデータ属性を用いた一元化されたコスト管理および使用量モニタリングを提供し、中断中の_billing_問題を防ぐためにストリーミング応答をバッファリングします。現在主要プレイヤーとの統合を進めており、近く Replicate との統合によりファインチューニング済みモデルを Cloudflare インフラストラクチャへ持ち込み、「Bring Your Own Model」機能を可能化すると見込まれています。この進化により、組織は画像、ビデオ、音声を含む堅牢なマルチモーダルアプリケーションを開発しつつ、アップタイムを損なうことなく AI 支出の可視性を明確に獲得できます。今後の機能には、Workers のない環境向けの REST API サポート、パブリック Workers AI カタログからの大規模オープンソースエージェントモデルおよびリアルタイムボイスモデルへのアクセス、刷新されたダッシュボード、セットアップ不要デフォルトゲートウェイ、自動再試行、そして粒度の細かいログ制御が含まれます。本文
2026 年 4 月 16 日 | 5 分で読める
AI モデルは急速に進化しており、今日最も優秀な「エイジェント向けコード生成」モデルであったものが、たった 3 ヶ月後に全く異なるベンダーのモデルに代わることが十分考えられます。さらに、実際の業務活用ではしばしば複数のモデルを連携させる必要があります。例えば、カスタマーサポートエージェントの場合、ユーザーのメッセージ分類には高速で低コストなモデルを使い、アクション計画には大規模な推論能力を持つモデルを、個々のタスクの実行には軽量なモデルを使用するなど、目的に応じて最適なモデルを選択することが求められます。
つまり、すべてのモデルへのアクセス権を持ちつつ、特定のベンダーに経済的・運用面で縛られることなく柔軟に対応できることが不可欠です。また、複数のベンダー横断でのコスト管理、ある一方のサービスで障害が発生した際の信頼性の確保、そしてユーザーが世界中どこにいるにも関わらず一貫したレイテンシ性能を維持するためのシステム整備も求められます。
これらの課題は AI 開発全般において存在しますが、特に「エージェント」を構築する際にはさらに深刻化します。単純なチャットボットであればユーザーの各プロンプトに対して 1 回の推論呼び出しを行います。一方、エージェントは単一のタスクの完了に際して 10 回の呼び出しを連鎖させる場合もあり、その瞬間に「遅いベンダーが 50ms の遅延をもたらすだけ」ではなく、「全体的に 500ms という大遅延」として影響し、また単一のリクエストの失敗が再試行で済むものではなく、直後の一系列の障害連鎖を引き起こす可能性があります。
AI Gateway および Workers AI をリリースして以来、Cloudflare 上で AI 機能を搭載したアプリケーションを開発する開発者からの驚異的な採用状況を確認できており、それに伴い迅速に機能強化を続けています。最近数ヶ月間には、ダッシュボードの刷新、ゼロセットアップデフォルトゲートウェイの追加、上流障害に対する自動再試行機能の提供など、より詳細なログ制御などの機能を新たに導入してきました。本日は、Cloudflare を「単一の推論レイヤー」として確立し、あらゆるベンダーからあらゆる AI モデルへのアクセスを 1 つの API で実現し、かつ高速性と信頼性を備えたプラットフォームへと進化させることを発表します。
单一カタログ、統一エンドポイント
本日より、Workers AI 用の
env.AI.run() バインディングと同様の方法でサードパーティ製のモデルへの呼び出しを行うことができます。Workers をご利用の場合、Cloudflare ホストのモデルから OpenAI や Anthropic など他のプロバイダーのモデルへの変更は 1 ラインコードのみで完結します。
const response = await env.AI.run('anthropic/claude-opus-4-6', { input: 'What is Cloudflare?', }, { gateway: { id: "default" }, });
Workers をご利用でない方のためにも、来週中に REST API のサポートを提供する予定であり、あらゆる環境から完全なモデルカタログにアクセス可能となります。
また、今すぐにご報告できる exciting なことは、1 つの API で統括され、プロバイダー間の切り替えも 1 ラインコードで完結し、かつすべてのモデルへの課金も行える「統一されたクレジット(クレジット)体系」により、12 プロバイダー以上から 70 コマ以上のモデルにアクセス可能になることです。この範囲は急速に拡大してまいります。
模型カタログを閲覧することで、Cloudflare Workers AI でホストされているオープンソースモデルから主要ベンダーによる専用モデルまで、あなたのユースケースに最適なモデルを選定できます。特に、Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Vidu の各社から AI Gateway を通じて提供されるモデルへのアクセス拡大を心躍る気持ちで進めてまいります。また、画像・動画・音声モデルなどマルチモーダルアプリケーションの構築にも対応できるよう、モデルポートフォリオを拡大していきます。
すべてのモデルを 1 つの API でアクセスできるという利点に加え、AI 経費の管理も一括で行うことができます。現在の多くの企業は複数のプロバイダーから平均 3.5 モデル程度を呼び出しているため、単一のプロバイダーだけで AI 使用量の全体像を得ることは困難でした。AI Gateway を利用することで、AI 経費の監視・管理を一元化した場所を得ることができます。
リクエスト時にカスタムメタデータを添えることで、フリーユーザー対有料ユーザー別、個別顧客別、あるいはアプリ内の特定ワークフロー別など、あなたが最も気にする属性ごとのコスト内訳を取得できます。
const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', { prompt: 'What is AI Gateway?' }, { metadata: { "teamId": "AI", "userId": 12345 } });
あなたのモデルを自前で行く (Bring Your Own Model)
AI Gateway を通じて全プロバイダーのモデルへのアクセスが可能ですが、独自データでファインチューニングしたモデルや特定のユースケースに最適化されたモデルを実行したい場合もございます。そのために、ユーザーが独自のモデルを Workers AI に持ち込む機能を準備中です。
当社のトラフィックの绝大多数は、Enterprise 顧客向けに設定された専用インスタンスから来ているため、プラットフォーム上で自社のカスタムモデルを実行するこの需要を広範な顧客層へ展開하고자考えています。これを実現するためには、機械学習モデルのコンテナ化を支援する Replicate の Cog テクノロジーを活用しています。
Cog は非常にシンプルに設計されています:すべてが
cog.yaml ファイルに依存関係を記述し、推論コードを Python ファイルに記述することで実現可能です。CG は CUDA 依存関係、Python バージョン管理、重みロードといった ML モデルのパッケージングに関する複雑な作業を抽象化します。
cog.yaml ファイルの例:
build: python_version: "3.13" python_requirements: requirements.txt predict: "predict.py:Predictor"
推論リクエスト(予言)を受け取った際に実行される predict.py ファイルの例:
from cog import BasePredictor, Path, Input import torch class Predictor(BasePredictor): def setup(self): """複数の予測実行を効率化するためにモデルをメモリに読み込む""" self.net = torch.load("weights.pth") def predict( self, image: Path = Input(description="拡大する画像"), scale: float = Input(description="画像のスケール係数", default=1.5) ) -> Path: """モデル上の単一の予測を実行""" # ... 前処理 ... output = self.net(input) # ... 後処理 ... return output
その後、
cog build コマンドを実行してコンテナイメージを構築し、その Cog コンテナを Workers AI にプッシュすることで、通常通り Workers AI API を介してモデルへのアクセスが可能になります。当社はデプロイおよびサービス提供を担当し、お客様は通常の Workers AI API から利用します。
この機能をより多くの顧客へ展開するために、Customer Facing API や Wrangler コマンド(独自コンテナのプッシュ対応)といった大規模なプロジェクトを推進中であり、GPU スナップショットによる高速コールドスタートなどを実現しています。すでに Cloudflare 内チームおよび一部の外部顧客と共に内部テストを進めており、そのフィードバックによりビジョンを洗練させてきました。もし設計パートナーとしてご協力いただける方がいらっしゃいましたら、お気軽にご連絡ください。まもなく誰でもモデルのパッケージングを行い、Workers AI を介して利用できるようになります。
トークン出力までの高速パス (The Fast Path to First Token)
AI Gateway を活用して Workers AI モデルを利用することは、特に「ライブエージェント」の構築において強力です。ユーザーが知覚する速度感は、フルレスポンスの所要時間ではなく、「ファーストトークンまでの時間」、すなわちエージェントが回答を開始するまでの速度に依存します。全推論処理に 3 秒かかっても、ファーストトークンを 50ms でも早ければ、エージェントを「スリット(機敏)」「重たい」から区別できる大きな違いになります。
Cloudflare が世界の 330 の都市に展開するデータセンターネットワークにより、AI Gateway はユーザーと推論エンドポイントの両方に近接しており、ストリーミング開始前のネットワーク遅延を最小化します。
Workers AI のパブリックカタログにはオープンソースモデルもホストされており、エージェント用に特別に設計された大規模モデル(Kimi K2.5 やリアルタイム音声モデルなど)が含まれています。AI Gateway を通じて Cloudflare ホストのモデルを呼び出す場合、コードと推論処理が同一のグローバルネットワーク上で実行されるため、パブリックインターネットを経由する追加のホップはなく、エージェントに可能な限り低いレイテンシを提供できます。
信頼性の高い設計による自動フェールオーバー
エージェント構築において、速度だけがユーザーが重視する要素ではありません。「信頼性」も重要です。エージェントワークフローの各ステップは、それ以前のステップの結果に依存しています。推論処理の不整合は致命的であり、一度呼び出しで失敗すれば、その後の連鎖全体に影響を及ぼす可能性があります。
AI Gateway を通じてモデル呼び出しを行う場合、複数のプロバイダーで利用可能なモデルが複数存在する状況で、あるプロバイダーの障害が発生した場合でも、お客様自身的にフェールオーバーロジックを書き込むことなく、自動的に他の利用可能なプロバイダーへルーティングを行います。
特に Agents SDK を用いて長時間動作するエージェントを構築する場合、ストリーミング推論呼び出しは接続切断にも耐性を持ちます。AI Gateway はストリーミングレスポンスが生成される過程でバッファリングを行い、エージェントの寿命とは無関係に管理します。推論中のエージェントが中断されても、再度 AI Gateway に接続してレスポンスを取得でき、新しい推論呼び出しを再行する必要なく、同じ出力トークンに対して 2 回課金されることもありません。Agents SDK が備えるチェックポイント機能と組み合わせることで、エンドユーザーは一切気付きません。
Replicate の統合
Replicate チームは公式に当社の AI プラットフォームチームに参加しており、もはや 2 つの別々の組織と見なす段階ではありません。Replicate と Cloudflare の間での統合開発に尽力し、すべての Replicate モデルを AI Gateway に取り込み、ホストモデルを Cloudflare インフラストラクチャへと再プラットフォーム化しています。まもなく、お客様は AI Gateway を通じて Replicate で愛用されていたモデルにアクセスでき、また Replicate でデプロイしたモデルを Workers AI 上にホストすることも可能になります。
すぐに始める (Get Started)
まずは AI Gateway および Workers AI のドキュメントをご覧ください。Cloudflare 上で Agents SDK を利用してエージェントを構築する方法についてもご学ばいただけますと幸いです。