LLMCap - レスポンストークン数に上限($Cap)を設定し、その上限に達した際にお客様の LLM API コールを強制的に停止するプロキシサービスです。

2026/05/19 12:56

LLMCap - レスポンストークン数に上限($Cap)を設定し、その上限に達した際にお客様の LLM API コールを強制的に停止するプロキシサービスです。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

LLMCap5 は、大規模言語モデル(LLM)の経費を管理している開発者に対して、35ミリ秒未満の最小遅延影響で厳格なドル上限を強制することで、即座かつコスト制御ソリューションを提供します。その最も重要な機能は、予算制限に到達したときに瞬時にお金を支出を停止できる点です;具体的には、ストリーミング中に$50のような上限を超えた場合、トークンを充電する前にトリガーされたトークンに対して HTTP 429 エラーが発生し、即座に支出が停止され、予想外の請求を防ぎます。このシステムは、Day one からストリーミングレスポンスを支持しており、主要なすべてのプロバイダーとシームレスに動作します(現在、Starter プランですべての 5 つがサポートされています)。統合には、1 ラインのコード変更だけで完了し、プロキシベースURL(例:

https://proxy.llmcap.io/anthropic
)を使用することで、環境全体で互換性を保ちつつ、機密のあるプロバイダー API キーを公開しません。これらのキーはヘッダーを通じて渡され、即座に破棄されますが、プロキシキー自体は bcrypt ハッシングを使用して安全に保存されます。セットアップは迅速で、約 5 分以内で完了し、macOS、Linux、Windows を含め、どこでもコードを書くことができる場所に利用可能です。ユーザーは VS Code、Terminal CLI(
pip install llmcap
)、または Windows Tray App(
pip install "llmcap[tray]"
)内で、ライブ支出、使用量、燃費率、ブロックされたリクエストの数(LLMCap は最近 18k 以上のリクエストをブロックしました)、詳細な監査ログを直接監視できます。セルフホストリングは FastAPI と Redis を使用して将来のオープンソースリリースのために計画されていますが、世界で速度のために
proxy.llmcap.io
の管理サービスが推奨されます。開発者は、3 日間の無料トライアル(料金の請求なし)を安全に実行してから、Starter プラン($19/月)にアップグレードできます。このプランには、複数のプロバイダーに対するコスト全体への完全な制御とメールサポートが含まれます。

Text to translate:

LLMCap5 provides an immediate, cost-control solution for developers managing Large Language Model (LLM) expenses by enforcing hard dollar caps with minimal latency impact of less than 35 milliseconds. Its most critical feature is the ability to instantly halt costs upon hitting a budget limit; specifically, if a cap like $50 is exceeded mid-stream, spending stops immediately with an HTTP 429 error before triggering tokens are charged, effectively preventing surprise bills. The system supports streaming responses from day one and works seamlessly with every major provider (currently all 5 supported on the Starter plan). Integration requires only a single line of code change via a proxy base URL (e.g.,

https://proxy.llmcap.io/anthropic
), ensuring compatibility across environments without exposing sensitive provider API keys. These keys are passed through a header and immediately discarded, while the proxy key itself is stored securely using bcrypt hashing. Setup is quick, achievable in about 5 minutes, and available everywhere you code, including macOS, Linux, and Windows. Users can monitor live spend, usage, burn rate, blocked request counts (LLMCap recently blocked over 18k requests), and detailed audit logs directly within VS Code, Terminal CLI (
pip install llmcap
), or a Windows Tray App (
pip install "llmcap[tray]"
). While self-hosting using FastAPI and Redis is planned for the future open-source release, the managed service at
proxy.llmcap.io
remains recommended worldwide for speed. Developers can safely experiment with a 3-day free trial (no charge) before upgrading to the Starter plan ($19/mo), which includes full control over costs across multiple providers and email support.

本文

LLMCap:5 つの主要プロバイダー対応|追加レイテンシー<35ms|堅牢な強制制限
すべての大規模言語モデル(LLM)呼び出しに対して硬貨ベースの上限額を設け、$50 に達すれば即座に遮断されます。アラートではなく、実際の停止です。コードの変更はたった 1 つ行だけです。「想定しない高額請求」は決して発生しません。

client = Anthropic(api_key="sk-ant-...")

設定までの時間はわずか 5 分

  • 基本設定
    client = Anthropic(
        api_key="sk-ant-...",
        base_url="https://proxy.llmcap.io/anthropic"
    )
    
  • すべての主要プロバイダーに対応可能です
  • 開発 wherever 어디서でも利用可能

LLMCap の仕組みについて

VS Code 拡張機能

ステータスバーにリアルタイムの支出情報を表示。クリックするだけで、その日の使用量、燃焼率(平均消費)、およびブロックされた回数をエディタを離さずに確認できます。

  • インストール:
    pip install llmcap

コマンドラインインターフェース(CLI)

コマンドラインから支出状況の確認、ログの閲覧、キーの管理が可能です。macOS、Linux、Windows の全環境に対応しています。

  • コマンド:
    pip install "llmcap[tray]"

Windows トレーアプリ

システムトレイに表示されるアイコンで、リアルタイムの使用状況を確認できます。右クリックすると統計情報やクイック操作にアクセス可能です。常に表示されておりながら、邪魔になりません。

  • インストール:
    pip install "llmcap[tray]"

ステータスバーのリアルタイム支出確認

エディタを離さずに、その日の使用量、燃焼率、ブロック回数をクリックすると表示できます。

コマンドラインインターフェース(CLI)

コマンドラインから支出状況の確認、ログの閲覧、キーの管理が可能です。macOS、Linux、Windows の全環境に対応しています。

PyPI で確認する

Windows トレーアプリ

システムトレイに表示されるアイコンで、リアルタイムの使用状況を確認できます。右クリックすると統計情報やクイック操作にアクセス可能です。常に表示されておりながら、邪魔になりません。


シンプルな料金体系

プランをお選びください
3 日間の無料トライアル期間あり・終了時点で初めて請求開始・いつでもキャンセル可能

Starter プラン — トライアル終了後 $19/月

  • ✓ 2 つの API キー
  • ✓ 5 つすべての主要プロバイダー対応
  • ✓ 日次および月次の上限設定
  • ✓ 30 日間保留された監査ログ
  • ✓ 1 ユーザー利用可能
  • ✓ メールサポート

[3 日間の無料トライアルを開始する]
※トライアル期間中はクレジットカードのご登録が必要です。3 日目までにご解約いただければ、請求は発生しません。


よくあるご質問(FAQ)

LLMCap は私の API キーを見るか保存しますか?

いいえ。ご使用のプロバイダーの API キー(例:

sk-ant-...
)は、各リクエストでプロキシヘッダー経由で転送され、即座に破棄されます。LLMCap では LLDCap の自社のプロキシキーのみを bcrypt 暗号化して保存しており、プロバイダーの API キーは一切ログに残しません。

ストリーミング応答と相性はどうですか?

はい、リリース当初からストリーミング完全対応です。LLMCap は SSE(サーバーイベントソース)チャンクをリアルタイムで転送します。ストリーミング途中に予算を超えた場合、接続を即座に遮断し、429 エラーイベントを送信します。その時点で上限に達したトークンは課金されません。

上限に達した場合、実際には何が起きるのでしょうか?

次のインカミングリクエストは、プロバイダーに到達する前に HTTP ステータスコード 429 で拒否されます。トークンは消費されないため、課金されることもありません。アプリからは、プロバイダーがレート制限を行う際にも使用される標準的な 429 レスポンス形式を受信するため、既存のエラーハンドリングロジックをそのまま利用可能です。

LLMCap を自分でホストできますか?

セルフホストは今後のロードマップに載せています。このプロキシ自体はオープンソース(FastAPI + Redis)で公開されています。現時点では、管理サービス

proxy.llmcap.io
のご利用が推奨されており、世界全体でレイテンシー<35ms で既に展開済みです。

同じ日のほかのニュース

一覧に戻る →

2026/05/19 10:30

LLM による「過去六ヶ月の要約」――わずか五分で読み解く

## Japanese Translation: PyCon US 2026 における「2025 年 11 月の転換点」に関する振り返りは、AI ランドスケープが標準ハードウェア(例:Mac Mini)上で動作する実践的なローカルツールおよび個人用 AI アシスタントへと劇的に移行していることを示しました。2025 年後期から 2026 年初頭にかけての期間は、「最良」という称号を巡る過激な競争によって特徴づけられていました。11 月単独でわずか 2 ヶ月の間にトッププロバイダーにおけるリーダーシップは 5 回交代し、Claude Sonnet 4.5、GPT-5.1、Gemini 3、Codex Max などを経由した後、最終的に Claude Opus 4.5 に落ち着きました。この時代は、コーディングエージェントにおいて OpenAI や Anthropic の検証可能な報酬に基づく強化学習(Reinforcement Learning from Verifiable Rewards)への取り組みにより、単発的な動作から信頼できる日常利用ツールへと移行したことで推進されました。 顕著な技術的進展としては、Google が実用的なオープンウェイトモデルとして Gemma 4 シリーズをリリースしたことや、中国の研究所が GLM-5.1(1.5TB モデル)を公開したことが挙げられます。これらのモデルは、動物がエスクーターに乗っている様子やバージニア北部のカナザが自転車に乗っているような不可能なタスクのアニメーション生成といった驚くべき能力を発揮しました。特定のコミュニティプロジェクトは「Warelay」として始まりましたが、「OpenClaw」という名称を最終的に採用し、人気のあるローカル「個人用 AI アシスタント」の代名詞となりました。2026 年 2 月には新規モデルに対する需要が高まりシリコンバレーで Mac Mini が品切れになった一方で、一部のプロジェクトはセキュリティ懸念とパフォーマンスの問題のため廃止されました。全体のテーマは、自律的にホストされる知能のブームであり、ラップトップ搭載のモデルが業界リーダーと比較して期待を大きく上回る性能を発揮し始めた点にあります。

2026/05/17 1:49

Android スマートフォンを业余無線局トランシーバーに変えてください。

## Japanese Translation: kv4p HT は、Android スマートフォンとの統合を目的として設計されたオープンソースの VHF/UHF アマチュア無線トランスceiver です。専用バッテリーや外部充電器の必要性を排除するため、スマートフォンから電力を供給します。カスタム PCB(v2.0e)、SA818-V/U または DRA818V/U モジュール、SMA メスアンテナなどの部品の使用により構成され、SMS 風のメッセージングおよび位置情報ビーコン機能(APRS)を含む高度なデータ通信タスクをサポートします。法的に運用するためには、少なくとも技師級のアマチュア無線免許証を保有している必要があります。製品には保証がありません。フルデザインと GPL3 ライセンスの ESP32 ファームウェアは GitHub 上に公開されており、3D プリンター用ファイルも用意されているため、DIY による組み立てが可能で、モジュール/PCB のハンダ付け、接着ゲルパッドによる装着、3D プリント製ケースの取り付けを伴います。新規ユーザーは、事前に組み立て済みのベンダーキットを購入しない場合は、ソフトウェアを手動でフラッシュする必要があります。本システムは、2017 年以降の Android 8 以上のデバイスとのみ互換性があります。リアルタイムクローズドキャプション、PTT 用のハプティックフィードバック、アニメーション制御など、アクセシビリティ機能により、多様なユーザーにとって使いやすさが向上しています。

2026/05/19 13:24

コーデックス・マキシング(Codex-maxxing)

## Japanese Translation: この文は、短命なチャットセッションから、複雑な知識労働に適した耐久性のある長時間稼働型コーディングエージェントへの転換を描いています。これらのエージェントは、「compaction(コンパクト化)」という機能を用いて古いのメッセージを剪定し、コスト超過やコンテキスト制限を防ぎつつ不可欠な履歴を保持しながら、数ヶ月間自動化された動作を持続させます。ユーザーは「Chief of Staff」のようなメガスレッドをピン留めして好みを蓄積し、Command-1 から Command-9 などのショートカットを通じてワークストリームを舵取りできますが、オフキャッシュのスレッドは新規の短寿命スレッドよりも高いコストを支払う可能性があります。エージェントは Codex および Wispr Flow を通じて音声入力を受付けることができ、システム全体での口述が可能になり、タイピング単独よりも豊富なコンテキストを実現します。ユーザーはツール呼び出し後(steering)に新たな方向性を注入し、ステップが完了するのを待たずにエージェントを誘導できます。共有メモリシステムはチャット外に Obsidian クォート内にアーティファクト(AGENTS.md を含む)を保存しており、これらを検証、編集、差分表示することを可能にします;GitHub でリポジトリとしてホストされる場合、クラウドツールを通じてメモリの更新内容を確認でき、審査されていない対話の「vibes(雰囲気)」が蓄積するのを防ぎます。$slack、$gmail、$calendar、$browser、@chrome、および@computer といったコネクタは、ローカルのウェブ表面、認証済みのブラウザ状態、Twitter やデスクトップアプリなどの GUI アプリケーションなど、追加機能を提供します。Hatch Pet などのインストール可能なスキルは再利用可能なワークフローをパッケージ化し、エージェントが再教育なしでタスクを繰り返せるようにします。リモートコントロール機能により、ユーザーは作業マシン上で長時間稼働するタスクを開始し、モバイルデバイスからステップを承認することで進捗を持続させつつ管理できます。スレッドローカルハートビートは、Slack/Gmail を 30 分ごとに、フィードバックを 15 分ごとにといった再帰的なチェックをスケジュールし、ユーザーの常在なしでループを稼働させます。ゴールはエージェントに明確な仕上げラインと成功基準を与え、例えば元の単一テストを全てパスしながら Python Rich を Rust に移行する場合などに適用されます。サイドパネルはアーティファクト(Markdown、PDF、スプレッドシート)を検証し、ウェブ表面(index.html、Storybook、Slidev)を操作し、ループを壊さずに変更を確認する作業領域として機能します。

LLMCap - レスポンストークン数に上限($Cap)を設定し、その上限に達した際にお客様の LLM API コールを強制的に停止するプロキシサービスです。 | そっか~ニュース