2025/12/03 0:39

Context plumbing

RSS: https://news.ycombinator.com/rss

要約▶

Japanese Translation:

概要：
AI インターフェースは「Do What I Mean」システムへと進化し、ユーザーの意図とコンテキストを直接把握することで、人が望むこととシステムが提供するものとのギャップを縮小しています。企業は現在、管理フリクションを削減する AI を重視しており、元の意図に最も近いものが競争優位となります。この目標を達成するには、背景知識・ツールドキュメント・対話履歴・共有ファイル・セッション状態など豊富なコンテキストが不可欠であり、要求時に情報を移動できるダイナミックなコンテキストエンジニアリングパイプラインが必要です。

従来の Web 2.0 CRUD アプリや単純な HTTP 動詞は、AI の会話フローには合わなくなっています。LangChain などの最新フレームワークはコンテキストを動的に配管することに焦点を当てていますが、著者は 2 年間かけて Cloudflare ベースのプラットフォームを構築し、エンティティとエージェント間でコンテキストがスムーズに流れるようにしています。

将来を見据えると、AI は常時稼働するデバイスや組み込み型エージェントに依存してユーザー近くでコンテキストをキャプチャし、瞬時の意図実現と貴重なトレーニングデータ生成を可能にします。継続的かつ低遅延の配管パイプラインは、ダイナミックコンテキストを効率的に移動させるよう進化します。ユーザーにとってはより自然で手間のない対話が実現し、企業にとっては高速かつ正確なサービスが競争優位を生み出します。業界は静的 CRUD アーキテクチャからリアルタイム・コンテキスト認識型システムへ移行しており、AI エージェントのためのデータ収集・保存・活用方法を再構築しています。

本文

数週間前からコードに没頭し、いわゆる「コンテキスト・プラミング」に取り組んでいます。
実際にはAIシステムを構築しており、その体験がここにあります。詳しく説明します。

目的

ざっくり言えば、AIインターフェースは「意図」と「コンテキスト」についてです。

意図はユーザーのゴール――大きいものでも小さいものでも、明示的か暗黙的かを問わずです。
コンピューターにとってAIは意図を理解し、人間らしく応答することができる新しい能力です。
ユーザーが「カメラを買いたい」と入力したり、キーレーダーを指差して「20分後に電話がある」と声に出さずに言ったり、雲除去というボタンを押したりすると、AIはそれを実行します。

企業がこれに関心を持つのは、意図に近いコンピューターほど勝てるからです。
例えばスマートフォンはデスクトップを置き換えました：電話では何かを見ると直接タッチでき、デスクトップではポインタ経由で意図が伝わり、脳にはそれが自然に感じられません。

同じことがユーザーインターフェース全般にも当てはまります。メニューからコマンドを選ぶ、ウェブページをナビゲートして休暇を計画する、HVAC制御パネルの操作方法を覚える――これらすべてが官僚主義です。自分で手順を把握することは、意図と結果の間に管理的負担を生みます。

AI企業としては、その負担を取り除くために、ユーザーの意図が湧き上がる瞬間・場所に常駐すればよいのです。電話をポケットから取り出したり、無意識の意図を言葉に変える手間さえも不要にします。意図の起点に最も近づくことで競合他社を圧倒できます。

これがAI搭載のメガネ・リュックタグ・マイク・ボディランゲージ読み取りカメラなどのデバイスへの推進理由です。
インターフェースの未来は 「私が意味することを実行」 だと考えるのは、AIによって可能になる新機能だけでなく、全く別の注意経済的必然性があるからです。

コンテキスト

AIが意図をうまく扱う鍵はコンテキストにあります。

大規模言語モデルは膨大な学習データから世界知識を保持しています。
ユーザーの意図を受け取り、ツール呼び出しで目標へ向かってヒルクライミングするAIエージェントは、プロンプトに有用なコンテキストが含まれていると遥かに優れた性能を発揮します。
- WikipediaやGoogleなどから得られる類似状況の背景知識
- エージェントが使用するツールのドキュメント
- ユーザー自身のコンテキスト：過去の行動、時刻など
- ユーザーとAIが共有する暗黙知・共通前提（何をすべきかという仮定）
- 「ホワイトボード」的な共有ドキュメント
- エージェント自身のセッションコンテキスト：このタスクは大目標のサブタスクか、以前にうまくいったことがあるかなど

これが コンテキストエンジニアリング（LangChainブログで紹介）を生み出し、LLMが適切な情報とツールを正しいフォーマットで受け取ってタスクを遂行できるようにする動的システム構築を可能にしています。

コンテキストへのアクセスは、大手AI企業の挙動も説明します。
ユーザー意図に最適に答えるには、ユーザーのコンテキストが存在する場所に居座らねばなりません。だからリュックタグに常時オンのカメラを付ける方が、必要なときだけ起動するカメラより好ましいですし、メールアーカイブ内に住むAIエージェントは、そうでないものより効果的です。（推論時のコンテキストは記録されれば貴重なトレーニングデータにもなる）

パイプライン？

コンテキストエンジニアリングの概念から欠けている点は、コンテキストが動的であること――変化し、タイムリーであるという事実です。
ユーザー活動、環境変化、新メール・編集済みドキュメント・天気情報・ツール更新など、さまざまな場所からコンテキストは湧き上がります。このコンテキストは常にAIが走る場所ではなく、AIはできるだけユーザー意図の瞬間近くで動作します。

したがってエージェントをうまく動かす仕事とは、必要な場所へコンテキストを移動させることです。つまりデータベース間で情報を継続的にコピーするプロセスです。
AIエージェントは意図回答のたびにコンテキストを検索したくないでしょう――遅いからです。迅速に行動するには先回りして、可能なコンテキストをその源から目的へ流すパイプを構築します。

帯域幅やサイクルを浪費せず、データが古くならないように継続的に背景でこれを実現するのが、コンテキストソースとシンクの配管です。

Web 2.0時代の定番アーキテクチャは「CRUD」アプリでした。ウェブアプリはデータベースを包む形でエンティティや操作（作成・読み取り・更新・削除）を提供し、HTTP動詞に対応します。
ユーザー体験もそれに合わせており、ユーザープロフィールページや写真ページ、ストリームやフィードとしてインデックスされたダイナミックページが存在しました。こうしたアプリは分解可能で、技術とユーザーの理解が一致していました。

AIシステムでは、利用者が直感的に「どんなコンテキストが使えるか」を把握できる必要があります。コンテキストフローの配管は単なる技術的実現や効率だけでなく、ユーザー期待と合致しなければなりません。

抽象化してしまう点もありますが、私はここ2年間試みてきたプラットフォームを構築しています――今度こそうまく動いています。
Cloudflare上で、さまざまなエンティティとAIエージェント（サブエージェントを含む）が必要に応じて走る場所へコンテキストが流れ、全体が絡み合っても混乱せず、まるで正しく配管されたように機能しています。

詳細についてはまだ語れませんが、そのことをメモとして残しておきました。

同じ日のほかのニュース

一覧に戻る →

2025/12/08 2:18

I failed to recreate the 1996 Space Jam website with Claude

## Japanese Translation: ## 要約著者は、Claude AI を使って 1996 年の Warner Bros の「Space Jam」ランディングページをスクリーンショットとアセットフォルダから再構築しようとしました。元のサイトは 200 KB 未満の単一 HTML ファイルで、絶対位置決め、テーブルレイアウト、およびタイル状の星空 GIF 背景に依存しています。 **プロセスと所見** 1. **初期試行:** Claude は概算レイアウトを生成しましたが、惑星軌道を誤った位置に配置しました。軌道パターンは認識できたものの、それを再現することには失敗しました。 2. **構造化プロンプト:** 著者は Claude に「知覚分析」「空間解釈」「再構築計画」の各セクションで理由を説明させ、正確なピクセル座標を要求しましたが、Claude はそれらを提供できませんでした。 3. **カスタムツール:** 精度向上のために 50 px → 5 px のグリッドオーバーレイ、ラベル付き座標参照点、色差比較、スクリーンショットサイドバイサイドビューア、およびスクリーンショットを 6 区域に分割するスクリプトを構築しました。 4. **結果:** Claude の調整は目標から 5–10 px 内に留まりましたが、正しい軌道半径（約 350–400 px）には決して収束しませんでした。内部レイアウトが生成されると、その後のフィードバックは元のスクリーンショットではなく、この誤ったモデルに基づいて行われました。 5. **トークナイズ仮説:** 著者は Claude が 16×16 パッチで画像をトークナイズしているため、細かい視覚的粒度が欠如し、セマンティック理解はあるもののピクセル精度が低いと考えました。 6. **ズームインテスト:** 200 % に拡大したスクリーンショットを提供して、大きなパッチで解像度が向上するか確認しましたが、Claude は依然として比例スケーリング指示に従いませんでした。 **結論** このタスクは未解決のままです。実験は Claude の空間推論限界をベンチマークとし、ピクセル単位で正確な画像再構築におけるモデルの現在の制約を示しています。

2025/12/08 7:18

How I block all online ads

## Japanese Translation: > **概要：** > 著者は、ウェブブラウザとモバイルアプリの両方で広告を排除するために長期的かつ多層的なアプローチを説明しています。彼は **Firefox + uBlock Origin** と最小限のフィルタリスト（組み込みのuBlockフィルタ、EasyList、AdGuard – Ads）と「広告でない不快要素」のためのカスタム非広告フィルタを使用します。 > DNS フィルタリングには **Pi‑hole（または AdGuard Home）** を Docker 上で $5 の DigitalOcean ドロップレットに稼働させ、WireGuard VPN の DNS サーバとして設定しています。トラフィックは **クラウドベースの VPN**（DigitalOcean、Hetzner、Azure、Google Cloud、または AWS）を経由し、プラットフォームが公的クラウド IP を検知して広告配信を減らします。 > この設定では **Cloudflare のキャプチャや HTTP エラー** が発生する場合があるため、著者は該当サイトで VPN を無効化しています。また、**Consent‑O‑Matic**（クッキーポップアップ）、**Buster**（キャプチャ）、**SponsorBlock**（動画広告）などのブラウザ拡張機能を推奨します。iOS では **Background App Refresh** をオフにするとデータ収集が減少し、Android では **ReVanced がアプリをパッチできますが、セキュリティリスクがあります** と指摘しています。 > 著者はこの統合戦略を 3 年以上使用しており、現在ほとんど広告を見ることはありません。プラットフォーム別の効果は異なります：YouTube は uBlock Origin + VPN（1週間〜1か月）が必要；Instagram は uBlock Origin のみで十分；Twitch は主に VPN に依存し、数日で効果が現れます；TikTok は両方のツールを使用しますが、数時間だけです。**AdMob** を利用するアプリも DNS ブロックの恩恵を受けます。 > 広告配信ネットワークは数日から数週間でパターンを観察し調整する可能性があるため、継続的な監視が必要です。著者は **Firebog** をブロックリストの良い情報源として引用し、正当なサイトを壊さないように許可リスト（allowlist）を維持する重要性を強調しています。

2025/12/07 23:37

Dollar-stores overcharge cash-strapped customers while promising low prices

## Japanese Translation: ドルジェネラルとファミリードラーは、棚に貼られたタグの価格よりも高い価格で顧客を頻繁に請求し、低所得層の買い物客に不釣り合いな過剰課金が広く発生しています。州検査と独立調査では、一部店舗でエラー率が88％に達するケースや、両チェーン全体で価格設定失敗が一貫して報告されています。主な例としては、ノースカロライナ州ウィンザーのファミリードラーで23％のスキャンアイテムが過剰請求（同店の4回連続失敗）、オハイオ州ハミルトンのドルジェネラルで76％のエラー率（2022年10月）、ニュージャージー州バウンドブルックのファミリードラーで68％の不一致（2023年2月）があります。2022年1月以降、ドルジェネラルは4,300件以上、ファミリードラーは2,100件以上の価格失敗事例を記録しています。アリゾナ州（60万ドル）、コロラド州（40万ドル）、ニュージャージー州・バーモント州・ウィスコンシン州・オハイオ州（最大100万ドル）など複数の州がチェーンと訴訟を和解し、連邦および州の司法長官は追加訴訟を提起しています。株主訴訟では、経営陣がシステム的問題を認識していたと主張されています。ニュージャージー州の連邦裁判所は、モバイルアプリ利用に関連する仲裁条項を理由にドルジェネラルに対する集団訴訟を停止し、消費者の救済手段を制限しました。規制当局は現在の1検査あたり5,000ドル上限を超えるより厳格な執行や高い罰則を課すことができ、さらに州が調査を進めるにつれて追加の和解が生じる可能性があります。影響としては顧客信頼の低下、チェーンへの潜在的財務損失、評判へのダメージ、およびドルストア業界全体での価格設定と人員管理の強化への動きが挙げられます。