
2026/01/10 4:44
Datadog 様、ブロックいただきましてありがとうございます。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Datadogの2025年12月15日のアカウント即時停止は、Deductiveに独自の可観測性スタックを放棄し、48時間以内にオープンソースでAI駆動型のシステムを再構築することを強制しました。同社はPrometheus、Tempo、Loki、Grafana Alloyへ移行し、Grafana Cloudのみを管理された依存関係として利用。Claude Code、Cursor、およびDeductiveのMCPを統合して迅速なコード変更と継続的テレメトリ検証を実現しました。この事象は、ベンダーロックインが全体のインフラ移行ではなくコンポーネント再構成によって緩和できることを示しています。Datadogの課金は同等のオープンソース選択肢より2〜3倍高く、多くの機能が未使用でした。Deductiveは2025年2月以降、内部プロダクション計測にDatadogのAPMプラットフォームのみを使用し、2023年に発表された競合他社Bits AIとは結びつきがありませんでした。アカウントとAPIキーの停止後、重要なシステム可視性が失われ、強制的な実験へと至りました。移行はダッシュボード中心のワークフローから、エージェントがテレメトリを直接消費するAIネイティブモデルへと観測性を転換し、手動クエリ構築への依存を減らしました。このケースは、従来プラットフォームの「広範な統合」モートがOpenTelemetryとAIツールにより機能同等性を達成するコストが低下したことで侵食されていることを示しています。現在、Deductiveは主に自社プラットフォームでデバッグし、Grafanaはバックエンドとしてのみ使用しており、コードとテレメトリの結合を強化しています。より広い意味では、将来の可観測性成功は、ダッシュボードではなく意図レベルでの安価かつ迅速な変更とAI直感的対話を可能にするツールに依存し、ベンダーロックインコストを削減し、市場をオープンかつAI対応型ソリューションへ再構築するという点です。
本文
2025年12月15日、デダクティブ(Deductive)チームは予期せぬメールをDatadogから受信しました。内容は「アカウントがレビュー対象になっている」というものでした。業界大手からそのような注目を浴びるのは多少光栄ですが、最初は情報交換ですぐに解決できると考えていました。実際にDatadogという規模の公開企業が、デダクティブのような小さなスタートアップを競合相手として認識しているとは思いませんでした。
Datadogへのアクセスは直ちに停止され、生産環境でのテレメトリも即座に中断しました。
数分以内に誤解があったと考え、状況を説明する返信を送りました。デダクティブは2025年2月以降、Datadog の APM プラットフォームを自社の本番システムでログ・メトリクス・トレース・アプリケーションパフォーマンス情報を取得するために利用していただけです。これは分散システムを運用する多くのチームがテレメトリに依存している方法と全く同じもので、Bits AI(2023年に発表されデダクティブの直接競合)とは無関係でした。
しかし説明後すぐに Datadog のアカウントと API キーは停止され、テレメトリの取り込みはほぼ即座に止まりました。数分で、本番システムへの可視性が失われ、安全に運用するために不可欠な継続的観測信号を取得できなくなったのです。
単一障害点?それとも単一機会?
Datadog が本番環境に深く組み込まれていたため、最初はサポートチャンネルで問題解決を待つのが合理的だと感じました。観測ツールは切り替えコストが高く、運用依存性も根強いという前提ならそうでしょう。しかしその世界はもう存在しません。
アクセス復旧が遅れることが明らかになると、私たちはこの状況をアウトエージではなく、「現代ツールにおけるベンダーロックインの実際のコスト」を試す強制的な実験として扱いました。この瞬間がリスクだと感じた理由は、Datadog が何故優れているかを明確にすることで理解できます。
皇帝は素晴らしい服を着ている
2025年、Gartner は再び Datadog を「リーダー」クオドラントに位置づけました。ユーザーレビューではサービスの幅広さと洗練された UX が高く評価され続けています。この評価は正当です。Datadog の UI/UX は客観的に優れているため、私たちはその理由で選択しました。
しかし良いインターフェースがロックインの力学を変えるわけではありません。
利用中に一貫して真実だった二つの事実があります:
- Datadog の請求額は高く、同等のテレメトリストレージと保持コストの約 2〜3 倍でした。
- プラットフォームが豊富であるにもかかわらず、私たちはログ・メトリクス・トレースを記録する信頼できるシステムとしてのみ利用しており、ほとんど触れないワークフローに支払っていました。
この不均衡は認識していたものの、多くのチーム同様、切替えについて真剣に検討する余裕がありませんでした。
Datadog を完全に排除した二週間後、そのダッシュボードとワークフローの洗練度は依然として高いままでした。実際にはこの差が運用上ほとんど意味を持たなかったのです。
切替えコストとベンダーロックインの危険性の縮小
Datadog を採用した当初、切替えコストに対して naïve ではありませんでした。OpenTelemetry が既に存在しベンダー中立の代替手段として利用できるものの、Datadog のネイティブ SDK とエージェントは即時価値と幅広い機能を提供しました。そのため、トレーシング・ログ・カスタムメトリクス・モニタリング・インシデントレスポンスを最大限に活用しつつ運用オーバーヘッドを最小化する「Datadog のネイティブ SDK + Datadog エージェント」の組み合わせを選択しました。
この決定は、当時の組織状況(専任インフラチームがなく抽象層の維持に対する関心も低く、移行を想定していなかった)を反映したものです。つまり、私たちは意図的にベンダーロックインを選択しました。
驚いた点は Datadog が停止できるという事実ではなく、そのロックインが実際にはほとんど影響しないことでした。同じ日に代替スタックを選定し、エンドツーエンドのデモを構築。翌日までにログ・トレース・メトリクス・アラートすべてを完全復旧させました。
何もしないことは高価
従来の考えでは、深く組み込まれた観測プラットフォームを失うと数週間にわたる移行が必要だと言われています。これは観測が簡素化されたからではなく、コード変更によるターゲティッドな調整コストが大幅に低下したためです。数時間で完全にオープンソーススタックを用いたテレメトリの再流れを実現しました。
48 時間以内にオープンスタックで観測を回復
New Relic、SigNoz、ClickHouse をバックエンドとした構成など複数の代替案を並行して評価し、ログ検索セマンティクス、コスト曲線、運用複雑性、長期的な移植性を比較しました。最終的に以下のアーキテクチャに統一しました:
- Prometheus:メトリクス
- Tempo:分散トレーシング
- Loki:ログ
- Grafana Alloy
結果として、同様の停止イベントが今日起きても実質的な影響はゼロに近いです。Grafana Cloud は唯一の管理された依存関係ですが、スタック全体はオープンソースであり、構成変更を数分でフリート全体へ展開できるため自己ホストも可能です。
この経験から得られた核心的な教訓は、観測ツールそのものではなく「ソフトウェア変化の経済性」です。コードは安価であり、Claude Code や Cursor など AI アシスタント開発ツールにより、垂直統合型プラットフォームと機能的同等を達成するための労力が専門インフラ作業から日常的なエンジニアリングへ移行しています。その結果、優れた UX、独自統合、広範な管理機能によって築かれた歴史的モートは急速に薄れてきています。
ループを閉じる:コード・テレメトリ・MCP
マイグレーション中に私たちの反復時間を大幅に短縮した要因は、Cursor を MCP 経由で直接 Deductive に統合し、Grafana からリアルタイムテレメトリを取得しながらコードを書きデプロイすることでした。これにより、システムが各変更によって発生したログ・メトリクス・トレースをほぼ即座に検査でき、インストゥメンテーションと挙動が期待通りかどうかを判断し、その結果を次のコード変更へ反映させるという tight なフィードバックループが実現しました。
実際にはコードを書きながら同時にそのテレメトリで評価され、ライブデータに対する継続的検証が可能になりました。インストゥメンテーションギャップやエクスポーター設定ミス、不意の信号形状は即座に修正でき、エディタ・ダッシュボード間でコンテキストを切り替える必要がありませんでした。
今日、Deductive がこのテレメトリの主な消費者となっています。ほぼすべてのデバッグと調査は Deductive 内部で行われ、Grafana はクリーンで信頼性の高いバックエンドとして機能します。
観測における二つの構造的変化
マイグレーションを通じて浮き上がった二つの大きなシフトは、個々のベンダー選択よりも重要です:
-
「広範囲統合」モートが崩壊
何年にもわたり観測プラットフォームはエージェント・SDK・ダッシュボード・ワークフロー間の結びつきを競い、切替えコストを高めていました。OpenTelemetry が共通サブストレートとなり、AI アシスタント開発ツールが統合作業の多くを担うことで、機能同等性にかかる余分なコストはほぼゼロになりました。 -
AI ネイティブ観測がダッシュボード中心ワークフローを置き換える
従来の観測は、人間がダッシュボードやチャート、クエリビルダーでシステムを探索することを前提にしていました。実際にはエンジニアは仮説、コードパス、新しい変更点から推論します。AI ネイティブの世界では、エージェント自体がデータの「ユーザー」になります。ダッシュボードは消えるわけではなく二次的なものとなり、クエリ構築やトレースグラフの走査といった機械化されたタスクが主に機械に任せられます。
終わりに:AI ネイティブ世界での観測
このマイグレーションから得た教訓は、Datadog が悪い製品だというものではありませんし、Grafana が絶対的に優れているとも言えません。Datadog は依然として卓越した UX を持つプラットフォームであり、その投資価値は十分です。同様に Grafana エコシステムも、オープンソースの強固な基盤と明確な抽象化を備え、大規模環境へ拡張できる構成可能なアーキテクチャとして位置づけられています。
より深い洞察は、「観測の重心がシフトしている」ということです。Datadog を主に高価なストレージ・インジェスチョン層として支払っている場合、その費用が AI ネイティブワークフローで実際に消費されているかを再考する価値があります。この世界では変化を避けるのではなく、変化を安価に行えるようにすることがレジリエンスです。今回の強制マイグレーションは、かつては破滅的なベンダーロックインと見られていたものが、今や構成変更で回復可能な状態へと変わったことを示しています。
観測は単に信号を収集するだけではなく、不確実性の中で高速かつ正確な推論を可能にすることです。勝者となるツールは、この現実を受け入れ、将来において人間と AI エージェントが意図レベルで直接協働できるよう設計されたものです。その未来はすでにここにあります。