私の可観測性データのうち、どれくらいが無駄ですか？

Japanese Translation:

概要：
2016年にエンジニアリング職を離れ Timber.io（後の Vector）を創業した著者は、10年間にわたりオブザーバビリティベンダーが大規模採用から収益主導型実践へとシフトする様子を観察してきました。Vector の買収後も3年間在籍し、顧客の更新請求書が約40％高くなるケースや、オブザーバビリティを「コスト警備」機能として扱い異常を追跡するという増大する費用に直面している様子を目撃しました。
彼は重要な疑問、「私のオブザーバビリティデータの何％が無駄か？」と問いかけます。Hyperscan で生成された正規表現パターンを用いた自動化システムを構築し、数十億行のログを意味的イベントに圧縮した結果、複数サービス全体で約40％（30〜60％）が無駄なログであることが判明しました。
これらのパターンを実装することでノイズが減少し、パイプラインが簡素化され、請求額も削減できましたが、有用データは捨てませんでした。著者は根本的な問題はインセンティブの不整合にあると主張します：ベンダーは顧客のコスト管理よりも多くのデータと複雑さを優先しています。これを解決するため、彼は Tero を導入しました。Tero は「少ない情報で理解」を提供し、ベンダーの成功を顧客の節約に結びつけ、業界を単なるボリュームではなく意味ある洞察へとシフトさせるオブザーバビリティモデルです。

今年で、私にとって観測性は10年目を迎えます。

2016 年にエンジニアリングの職を離れ、ログをシンプルかつ優れたものにできると信じて Timber.io（ホスト型ロギングプラットフォーム）を立ち上げました。
Timber は Vector へ移行し、Vector は急速に採用され、買収されました。私はその間三年間働き続けました。

ところが、途中で楽観主義は消えてしまいました。

私は悲観的な人物ではありません。観測性がエンジニアの生活をより良くできると信じていました。しかし、10 年にわたり多くのチームと対話し、主要ベンダー全体で費用を押し付けられ、彼らが手助けではなく強制力で支配していることを聞き続けた結果、十分に見えてきました。業界全体が道を失っているのです。

こんな経験、ありませんか？

会社で観測性を担当していますが、実際はコスト警備員になっています。
- 熱いパスでログ行やメトリックタグが突然膨大になると目覚めます。
- エンジニアに追いかけられますが、彼らは何も間違っていません。ただ「これがどれだけ費用を掛けているのかわからない」状態です。
- 更新（renewal）が頭から離れず、管理ミスは自分への悪評になります。
時にはこの失敗に気づきます。時にはそうではありません。その場合、担当者へ許しを乞います。
- 最初の一度は助けてくれるかもしれませんが、4 回目・5 回目で「それはあなたのデータだ」と言われることも。
- ミスがあってもダッシュボードをチェックしたり、状況を把握し続ければ、コミットを守り早期更新を避けられます。
更新は依然として頭痛です：昨年より 40 % 上回るコスト。予算はそれほど伸びていません。
- ベンダーを切り替えることも検討しますが、エンジニアにダッシュボードやアラートの移行を強要するのは逆に自分の評価を下げます。
- つまり、どちらにしても損失になるため、再びベンダーへ助けを求めるしかありません。

Klarna のエンジニアリングディレクター、Case Taintor さん
「お金が消えていくのを見て最も苛立つのは、サプライヤーが長期的な成功に関心を持っていれば手助けできることを知っているのに、その意志がないという事実です。」

それで、10 年間続く原因は何でしょう？

深刻な問題があります。10 年経っても同じ課題が存在し、さらに悪化しています。

ベンダーは手助けすべきなのか？
- データはあなたのものです。ベンダーはそれを作ったわけではなく、価格モデルに基づいて受け取っています。私は長年その枠組みを受け入れていました。
私が考え方を変えたきっかけとなった質問：観測性データの何％が無駄なのか？
- ベンダーは「それはあなたのデータだ」と言います。何が保つ価値があるのか理解していません。しかし、AI SRE を販売し「数分で根本原因を突き止める」ことを売りにするほど、ある程度は把握しています。

観測性とコスト

コストが最大の問題です。
- 他のすべての課題を 100 倍しても、コストには及びません。
パイプライン、新しいストレージ、OpenTelemetry といったあらゆるイノベーションは、何らかの形でコストに結びつきます。

誰かが「どれだけデータが無駄なのか」を答え、あなたがゴミを支払うのを続ければ、それは極めて不適切です。しかしベンダーはその情報を教えてくれないことが多いです。

Vector での経験

初回に Vector ユーザーをサポートしたとき
- ロードマップもなく、何をすべきか指示されることもありませんでした。代わりにデータへのアクセス権が与えられました。
その設定は「設定の母」と呼ばれるほど複雑で、数十のコンポーネント・サンプリング・集約・ストレージ階層化・アーカイブ、そして大量の正規表現リストを持っていました。
正規表現リストを Hyperscan で最適化しました。Hyperscan は数万パターンをコンパイルしながらもラインレートでマッチできます。
数十億ログを数千の意味的イベントに圧縮するシステムを構築しました。各イベントは必要な文脈（サービス、障害シナリオ、パターンなど）で評価されます。
結果（平均）：約 40 % の無駄が発見できました。

数百行を手作業で検証し、既存のパターンと一致することを確認しました。提示した際に：

「ログの半分を捨てるわけではない」
- それは私が求めているものではありません。
彼らがすでに行っていた分析を、スケールアップし、より完全かつ正確に実行するだけでした。
分析を調整し、段階的に展開してチームへ提供できました。

結果： サービスはロギングを整理し、パイプラインがシンプルになり、請求額が減少しました—無駄なデータを不注意に捨てたわけではなく、何が保つ価値があるかを最終的に理解したからです。

観測性が「壊れている」と感じる理由

表面的：実際は支払うべきよりも 2 倍のコスト。無駄を削減すれば請求額も下げられます。
深層的：コスト管理、週次ダッシュボードチェック、月次演習、担当者への謝罪などは、ゴミを扱っているために存在します。複雑さの半分がノイズに費やされています。
さらに深い：エンジニアは「観測性でデバッグ速度が上がらない」と苦情を言いますが、実際には数百万ドルのコストをかけながらも騒音で溺れています。警告はゴミに反応し、ダッシュボードは混乱しています。AI さえ信号を見つけることができません。

ベンダーがあなたと同じ視点で動けば、この数字は存在すべきではありません。

将来像

あなたは「コスト警備員」ではなく、
観測性は自然に機能し、
ベンダーの成功はあなたの成功に直結します。

それが Tero で構築している未来です。自分の数字を手に入れましょう。