クラウドフラアード AI プラットフォーム:エージェント用に設計された推論層

2026/04/16 22:17

クラウドフラアード AI プラットフォーム:エージェント用に設計された推論層

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

Cloudflare AI Gateway は、単一の API エンドポイントを通じて 12 つ以上の提供者から提供される 70 以上のモデルへのアクセスを統合し、企業の AI 導入を大幅に推進します。開発者は、Cloudflare ホストのモデルと OpenAI や Anthropic など外部プロバイダーのモデルの間で、コードの変更が最小限(

env.AI.run()
を使用するだけで 1 行程度の調整で可能となる場合もある)でシームレスに切り替えることができます。330 の都市にまたがる Cloudflare のグローバルネットワークを活用することで、プラットフォームはライブエージェント型アプリへの対応時間を最小化するため、障害のあるプロバイダーからのトラフィックを自動的に迂回させ、カスタムのフェイルオーバーロジックなしで高可用性を確保します。ゲートウェイは、ユーザータイプやワークフローのようなカスタムメタデータ属性を用いた一元化されたコスト管理および使用量モニタリングを提供し、中断中の_billing_問題を防ぐためにストリーミング応答をバッファリングします。現在主要プレイヤーとの統合を進めており、近く Replicate との統合によりファインチューニング済みモデルを Cloudflare インフラストラクチャへ持ち込み、「Bring Your Own Model」機能を可能化すると見込まれています。この進化により、組織は画像、ビデオ、音声を含む堅牢なマルチモーダルアプリケーションを開発しつつ、アップタイムを損なうことなく AI 支出の可視性を明確に獲得できます。今後の機能には、Workers のない環境向けの REST API サポート、パブリック Workers AI カタログからの大規模オープンソースエージェントモデルおよびリアルタイムボイスモデルへのアクセス、刷新されたダッシュボード、セットアップ不要デフォルトゲートウェイ、自動再試行、そして粒度の細かいログ制御が含まれます。

本文

2026 年 4 月 16 日 | 5 分で読める

AI モデルは急速に進化しており、今日最も優秀な「エイジェント向けコード生成」モデルであったものが、たった 3 ヶ月後に全く異なるベンダーのモデルに代わることが十分考えられます。さらに、実際の業務活用ではしばしば複数のモデルを連携させる必要があります。例えば、カスタマーサポートエージェントの場合、ユーザーのメッセージ分類には高速で低コストなモデルを使い、アクション計画には大規模な推論能力を持つモデルを、個々のタスクの実行には軽量なモデルを使用するなど、目的に応じて最適なモデルを選択することが求められます。

つまり、すべてのモデルへのアクセス権を持ちつつ、特定のベンダーに経済的・運用面で縛られることなく柔軟に対応できることが不可欠です。また、複数のベンダー横断でのコスト管理、ある一方のサービスで障害が発生した際の信頼性の確保、そしてユーザーが世界中どこにいるにも関わらず一貫したレイテンシ性能を維持するためのシステム整備も求められます。

これらの課題は AI 開発全般において存在しますが、特に「エージェント」を構築する際にはさらに深刻化します。単純なチャットボットであればユーザーの各プロンプトに対して 1 回の推論呼び出しを行います。一方、エージェントは単一のタスクの完了に際して 10 回の呼び出しを連鎖させる場合もあり、その瞬間に「遅いベンダーが 50ms の遅延をもたらすだけ」ではなく、「全体的に 500ms という大遅延」として影響し、また単一のリクエストの失敗が再試行で済むものではなく、直後の一系列の障害連鎖を引き起こす可能性があります。

AI Gateway および Workers AI をリリースして以来、Cloudflare 上で AI 機能を搭載したアプリケーションを開発する開発者からの驚異的な採用状況を確認できており、それに伴い迅速に機能強化を続けています。最近数ヶ月間には、ダッシュボードの刷新、ゼロセットアップデフォルトゲートウェイの追加、上流障害に対する自動再試行機能の提供など、より詳細なログ制御などの機能を新たに導入してきました。本日は、Cloudflare を「単一の推論レイヤー」として確立し、あらゆるベンダーからあらゆる AI モデルへのアクセスを 1 つの API で実現し、かつ高速性と信頼性を備えたプラットフォームへと進化させることを発表します。

单一カタログ、統一エンドポイント

本日より、Workers AI 用の

env.AI.run()
バインディングと同様の方法でサードパーティ製のモデルへの呼び出しを行うことができます。Workers をご利用の場合、Cloudflare ホストのモデルから OpenAI や Anthropic など他のプロバイダーのモデルへの変更は 1 ラインコードのみで完結します。

const response = await env.AI.run('anthropic/claude-opus-4-6', {
  input: 'What is Cloudflare?',
}, {
  gateway: { id: "default" },
});

Workers をご利用でない方のためにも、来週中に REST API のサポートを提供する予定であり、あらゆる環境から完全なモデルカタログにアクセス可能となります。

また、今すぐにご報告できる exciting なことは、1 つの API で統括され、プロバイダー間の切り替えも 1 ラインコードで完結し、かつすべてのモデルへの課金も行える「統一されたクレジット(クレジット)体系」により、12 プロバイダー以上から 70 コマ以上のモデルにアクセス可能になることです。この範囲は急速に拡大してまいります。

模型カタログを閲覧することで、Cloudflare Workers AI でホストされているオープンソースモデルから主要ベンダーによる専用モデルまで、あなたのユースケースに最適なモデルを選定できます。特に、Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway、Vidu の各社から AI Gateway を通じて提供されるモデルへのアクセス拡大を心躍る気持ちで進めてまいります。また、画像・動画・音声モデルなどマルチモーダルアプリケーションの構築にも対応できるよう、モデルポートフォリオを拡大していきます。

すべてのモデルを 1 つの API でアクセスできるという利点に加え、AI 経費の管理も一括で行うことができます。現在の多くの企業は複数のプロバイダーから平均 3.5 モデル程度を呼び出しているため、単一のプロバイダーだけで AI 使用量の全体像を得ることは困難でした。AI Gateway を利用することで、AI 経費の監視・管理を一元化した場所を得ることができます。

リクエスト時にカスタムメタデータを添えることで、フリーユーザー対有料ユーザー別、個別顧客別、あるいはアプリ内の特定ワークフロー別など、あなたが最も気にする属性ごとのコスト内訳を取得できます。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5', {
  prompt: 'What is AI Gateway?'
}, {
  metadata: { "teamId": "AI", "userId": 12345 }
});

あなたのモデルを自前で行く (Bring Your Own Model)

AI Gateway を通じて全プロバイダーのモデルへのアクセスが可能ですが、独自データでファインチューニングしたモデルや特定のユースケースに最適化されたモデルを実行したい場合もございます。そのために、ユーザーが独自のモデルを Workers AI に持ち込む機能を準備中です。

当社のトラフィックの绝大多数は、Enterprise 顧客向けに設定された専用インスタンスから来ているため、プラットフォーム上で自社のカスタムモデルを実行するこの需要を広範な顧客層へ展開하고자考えています。これを実現するためには、機械学習モデルのコンテナ化を支援する Replicate の Cog テクノロジーを活用しています。

Cog は非常にシンプルに設計されています:すべてが

cog.yaml
ファイルに依存関係を記述し、推論コードを Python ファイルに記述することで実現可能です。CG は CUDA 依存関係、Python バージョン管理、重みロードといった ML モデルのパッケージングに関する複雑な作業を抽象化します。

cog.yaml ファイルの例:

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

推論リクエスト(予言)を受け取った際に実行される predict.py ファイルの例:

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """複数の予測実行を効率化するためにモデルをメモリに読み込む"""
        self.net = torch.load("weights.pth")

    def predict(
            self,
            image: Path = Input(description="拡大する画像"),
            scale: float = Input(description="画像のスケール係数", default=1.5)
    ) -> Path:
        """モデル上の単一の予測を実行"""
        # ... 前処理 ...
        output = self.net(input)
        # ... 後処理 ...
        return output

その後、

cog build
コマンドを実行してコンテナイメージを構築し、その Cog コンテナを Workers AI にプッシュすることで、通常通り Workers AI API を介してモデルへのアクセスが可能になります。当社はデプロイおよびサービス提供を担当し、お客様は通常の Workers AI API から利用します。

この機能をより多くの顧客へ展開するために、Customer Facing API や Wrangler コマンド(独自コンテナのプッシュ対応)といった大規模なプロジェクトを推進中であり、GPU スナップショットによる高速コールドスタートなどを実現しています。すでに Cloudflare 内チームおよび一部の外部顧客と共に内部テストを進めており、そのフィードバックによりビジョンを洗練させてきました。もし設計パートナーとしてご協力いただける方がいらっしゃいましたら、お気軽にご連絡ください。まもなく誰でもモデルのパッケージングを行い、Workers AI を介して利用できるようになります。

トークン出力までの高速パス (The Fast Path to First Token)

AI Gateway を活用して Workers AI モデルを利用することは、特に「ライブエージェント」の構築において強力です。ユーザーが知覚する速度感は、フルレスポンスの所要時間ではなく、「ファーストトークンまでの時間」、すなわちエージェントが回答を開始するまでの速度に依存します。全推論処理に 3 秒かかっても、ファーストトークンを 50ms でも早ければ、エージェントを「スリット(機敏)」「重たい」から区別できる大きな違いになります。

Cloudflare が世界の 330 の都市に展開するデータセンターネットワークにより、AI Gateway はユーザーと推論エンドポイントの両方に近接しており、ストリーミング開始前のネットワーク遅延を最小化します。

Workers AI のパブリックカタログにはオープンソースモデルもホストされており、エージェント用に特別に設計された大規模モデル(Kimi K2.5 やリアルタイム音声モデルなど)が含まれています。AI Gateway を通じて Cloudflare ホストのモデルを呼び出す場合、コードと推論処理が同一のグローバルネットワーク上で実行されるため、パブリックインターネットを経由する追加のホップはなく、エージェントに可能な限り低いレイテンシを提供できます。

信頼性の高い設計による自動フェールオーバー

エージェント構築において、速度だけがユーザーが重視する要素ではありません。「信頼性」も重要です。エージェントワークフローの各ステップは、それ以前のステップの結果に依存しています。推論処理の不整合は致命的であり、一度呼び出しで失敗すれば、その後の連鎖全体に影響を及ぼす可能性があります。

AI Gateway を通じてモデル呼び出しを行う場合、複数のプロバイダーで利用可能なモデルが複数存在する状況で、あるプロバイダーの障害が発生した場合でも、お客様自身的にフェールオーバーロジックを書き込むことなく、自動的に他の利用可能なプロバイダーへルーティングを行います。

特に Agents SDK を用いて長時間動作するエージェントを構築する場合、ストリーミング推論呼び出しは接続切断にも耐性を持ちます。AI Gateway はストリーミングレスポンスが生成される過程でバッファリングを行い、エージェントの寿命とは無関係に管理します。推論中のエージェントが中断されても、再度 AI Gateway に接続してレスポンスを取得でき、新しい推論呼び出しを再行する必要なく、同じ出力トークンに対して 2 回課金されることもありません。Agents SDK が備えるチェックポイント機能と組み合わせることで、エンドユーザーは一切気付きません。

Replicate の統合

Replicate チームは公式に当社の AI プラットフォームチームに参加しており、もはや 2 つの別々の組織と見なす段階ではありません。Replicate と Cloudflare の間での統合開発に尽力し、すべての Replicate モデルを AI Gateway に取り込み、ホストモデルを Cloudflare インフラストラクチャへと再プラットフォーム化しています。まもなく、お客様は AI Gateway を通じて Replicate で愛用されていたモデルにアクセスでき、また Replicate でデプロイしたモデルを Workers AI 上にホストすることも可能になります。

すぐに始める (Get Started)

まずは AI Gateway および Workers AI のドキュメントをご覧ください。Cloudflare 上で Agents SDK を利用してエージェントを構築する方法についてもご学ばいただけますと幸いです。

同じ日のほかのニュース

一覧に戻る →

2026/04/16 23:23

Claude オプス 4.7

## Japanese Translation: Claude Opus 4.7 は、すべての Claude プラットフォーム、API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry において大幅な向上と一般利用を開始しました。先進的なソフトウェア工学における主要な飛躍として、長期的自律性と自己検証機能が強化された Opus 4.6 を引き継ぎます。モデルのビジョン能力も著しく向上し、最大約 375 万画素(従来の 3 倍以上)までの画像に対応します。料金は Opus 4.6 と同一の、入力トークン当たり 5 ドル、出力トークン当たり 25 ドルで維持され、より微細なトレードオフ制御を可能にする新たな"xhigh"レベルが導入されました。内部評価では、93 タスクからなるベンチマークにおけるコーディング精度が 13% 向上し、4 つの以前は解決不能だったタスクを完遂することを実現するなど大きな進歩が見られます。また、「General Finance」モジュールでは、Opus 4.6 の 0.767 に対し 0.813 という大幅な金融分析能力の進歩、CursorBench(明確回答率 70%)や Complex Multi-step Workflows(+14%)といったベンチマークでも著しい向上を記録。さらに Rakuten-SWE-Bench 上の本番タスク解決数は 3 倍に増加し、コード品質でも二位桁の改善が実現しました。これらの進展は、Devin などのような環境での長期的自律性を可能にし、Replit においては同等かそれ以下のコストで高性能な実行を達成します。新機能としては、「task budgets」ベータ版およびバグレビュー専用の `/ultrareview` スラッシュコマンドが含まれます。本リリースは「Project Glasswing」の一貫した慎重な安全アプローチと整合しており、自動的な防護機構により高リスクのサイバーセキュリティ用途をブロックすると同時に、正当な研究者に新しい Cyber Verification プログラムへの参加を呼びかけています。結論として、Opus 4.7 は金融分析や工学など重要分野における一貫性の新基準を設定し、次世代 AI ツールの採用準備が整った企業向けに、強化されたパフォーマンスと戦略的リソース管理を提供します。

2026/04/17 2:12

ほぼすべてのことに適用可能なコードックス。

## Japanese Translation: OpenAI は、Codex アプリに対する主要なアップデートを導入し、それを受動的アシスタントからユーザーのコンピュータを直接操作する能動的で自律的なエージェントへと変革します。macOS 上の高度なバックグラウンド機能(カーソル制御[見る、クリック、打つ]とマルチエージェント並列処理)を活用し、Codex はプルリクエストのレビュー、SSH を介したリモート環境の管理、PDF やスプレッドシートなどのリッチなファイルプレビューを開くことができます。アプリ内に統合されたブラウザを通じて、ユーザーは Web ページ上に直接コメントを付けることで正確な指示を提供できます。新しいシステムには、個人のコンテキストと好みを記憶するためのメモリレイヤーが追加され、90 以上のプラグインにより GitHub、GitLab、Atlassian、CircleCI、CodeRabbit などの外部ツールとの接続が可能になります。Codex は désormais、来週の日数や週間を跨いで作業をスケジューリングし、自律的に目覚めることで長期タスクをサポートします。また、Google Docs、Slack、Notion、コードベース内のオープンなコメントに基づき、能動的にアクションを提案します。さらに、このアップデートには gpt-image-1.5 が統合され、製品コンセプト、フロントエンドデザイン、マockアップ、ゲームなどの同じワークフロー内で画像の生成と反復を行うことができます。今日、ChatGPT にサインインしたデスクトップユーザー向けにロールアウトされており、これらの機能は間もなく Enterprise、Edu、EU、UK アカウントにも拡大されます。

2026/04/17 6:56

グイが、デュオテープ、古いカメラ、およびCNCマシンを組み合わせて、AIを駆使したハードウェアハッカー用の腕を作成しました。

## Japanese Translation: **改善されたサマリー:** 本テキストの主なメッセージは、電子機器に対する安全なピンプローブを可能化することを目的としたソースアベイラブルなハードウェアハッキング自動化スタックである「AutoProber」の導入です。標準的なツールが盲目的に進む可能性に対して、AutoProber は CNC モーション制御、光学顕微鏡、リアルタイムオシロスコープ監視を「安全第一」というアーキテクチャに統合します。本システムはプロジェクトを読み込み、ハードウェアと接続し、軸をキャリブレーションし、エージェントまたはダッシュボードを使用してターゲットを検出およびアノテーション済みマップをステッチします。特に重要なのは、安全が独立したチャンネル(オシロスコープ チャンネル 4)によって執行されており、電圧を連続的に監視することであり、あらゆる曖昧さ、アラート、またはトリガーが発生した場合に自動回復なく即座に停止し、作業者の介入を必須としている点です。 GRBL 互換 CNC ミル(例:SainSmart Genmitsu)、USB 顕微鏡、および Siglent オシロスコープを基盤とし、本スタックは現在、特定の安全制約付きで制限リリースカンドイドとして存在しています:コントロールダッシュボードが信頼できないネットワークに露出させてはならないこと、および商用ライセンス発行にはメールでの申請が必要であることが含まれます。本プロジェクトは、複雑なプローブ作業中の機器破損や人身傷害を防ぐために、ダッシュボード上でのプローブターゲット承認などの作業者による専用の監督を強調しており、ハードウェアハッキングにおける標準的な自動化ワークフローの前提を根本的に変化させます。