**対称性に配慮したテイラー近似で一定コスト(トークン単位)を実現する注意点**

2026/02/04 23:33

**対称性に配慮したテイラー近似で一定コスト(トークン単位)を実現する注意点**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

本論文では、コンテキスト長に関係なくトークンあたりの計算量とメモリコストを一定に保つ新しい自己注意技術を紹介しています。従来の注意機構をテイラー展開で再表現し、それを対称テンソル積チェーンに分解することで、著者らはクエリとキーを最小多項式カーネル特徴空間へ変換する単純なフィードフォワードマッピングを作成しています。この対称性の活用により、各注意ヘッドのサイズに逆比例してコストが削減されます。従来のTransformerはコンテキスト長で二次的にスケールするため、切り捨てや高価な近似を強いられますが、本手法はその制限を回避し、一定の低コストで無制限のトークン生成を可能にします。その結果、大規模モデルではレイテンシが低下し、インフラとエネルギー使用量も削減され、最終ユーザー(高速応答)と企業(安価なサーバー)の双方に利益がもたらされます。数学的アイデアはTransformer以外のニューラルアーキテクチャにも影響を与える可能性があります。

本文

概要

現在最も広く使われている人工知能(AI)モデルは、自己注意機構を採用した Transformer です。
標準形態では、自己注意の計算コストがコンテキスト長に比例して増大し、その結果、必要とされる記憶容量・演算資源・エネルギーが社会が供給できる限度を超えてしまうという問題があります。
本研究では、この課題に対処するために、自己注意を任意精度で効率的に計算し、トークンごとに一定のコストで実行できる手法を提示します。これにより、メモリ使用量や計算量を数桁単位で削減できます。

我々は、従来の自己注意表現のテイラー展開を対称的なテンソル積の鎖に分解することで式を導出しました。
その対称性を活用すると、クエリとキーを最小多項式カーネル特徴空間上の座標へ写像する前方伝播変換が得られます。
特筆すべきは、コストがヘッドサイズに逆比例して固定される点であり、これによりトークンあたりに利用できるヘッド数を大幅に増やせるというメリットがあります。

実装を行い、実験的に正確性を検証しました。
本手法は定額の低コストで無制限にトークン生成を可能にし、大規模 Transformer モデルのインフラ構築とエネルギー消費を大幅に削減します。
導入した数学的技術自体も独立して興味深いものです。

同じ日のほかのニュース

一覧に戻る →

2026/02/05 0:08

「Voxtral Transcribe 2」(ボクセトラル・トランスクライブ 2)

## Japanese Translation: Voxtral は次世代の音声認識モデルを 2 つリリースしました:**Mini Transcribe V2**(バッチ)と **Realtime**(ライブ)。RealtimはApache 2.0 ライセンスで Hugging Face 上で入手可能で、サブ 200 ms のレイテンシーを設定でき、480 ms まで下げられます。480 ms の遅延で字幕用に 2.4 秒のディレイがあり、WER(単語誤り率)が 1–2% 内に収まります。両モデルとも **13 言語**(英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)をサポートします。 Mini Transcribe V2 は FLEURS ベンチマークで約 **4 % WER** を達成し、ElevenLabs の Scribe v2 より音声処理速度が約 3 倍速く、API 経由で **$0.003/min** のコストです。Realtime は同等の精度を **4‑B パラメータ** のフットプリントで実現し、エッジデプロイが可能です。また、そのストリーミングアーキテクチャは音声が到着した時点で文字起こしを行い、他の API で一般的なチャンクベースの処理を回避します。 企業向け機能には、スピーカー分離(開始/終了タイムスタンプ付き)、単語レベルのタイムスタンプ、最大 100 語・フレーズまでのコンテキストバイアシング(英語最適化)、ノイズ耐性、および **3 時間** までの録音サポートがあります。Mistral Studio のオーディオプレイグラウンドでは、両モデルを最大 10 ファイル(各ファイル ≤1 GB)でテストでき、スピーカー分離、タイムスタンプ粒度、およびコンテキストバイアシングのオプションがあります。 ユースケースは **会議インテリジェンス、音声エージェント/仮想助手、コールセンター自動化、メディア/放送字幕、コンプライアンスポータル** など多岐にわたり、すべて GDPR/HIPAA 対応のオンプレミスまたはプライベートクラウドデプロイでサポートされます。Voxtral は、GPT‑4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Nova を上回る最高の価格対性能を誇る転写 API と主張しています。 同社は開発者にチームへの参加を呼びかけており、世界クラスの音声 AI の構築と継続的な製品拡大・将来機能リリースを示唆しています。

2026/02/01 21:43

**Claude Code** クォータが尽きたらローカルモデルに接続します。

## Japanese Translation: **概要:** より安価な Anthropic Claude プランを利用しているユーザーは、コーディング中に日次または週次のクォータ制限に直面することが多いです。この記事では、Claude Code を Anthropic の API ではなくローカルのオープンソースモデルに接続することでこれらの制約を回避する方法について説明しています。実際的な2つの手法を紹介します: 1. **LM Studio v0.4.1** を使用する方法 ― モデルは検索インターフェイス経由でインストール(推奨コンテキストサイズ > 25k トークン)、`lms server start --port 1234` でサーバーを起動し、環境変数 `export ANTHROPIC_BASE_URL=http://localhost:1234` と `export ANTHROPIC_AUTH_TOKEN=lmstudioc` を設定します。次に Claude Code を `claude --model openai/gpt‑oss‑20b` で起動し、Claude 内で `/model` コマンドを使ってモデルの確認または切替えを行います。 2. **Llama.CPP** を直接使用する方法 ― これにより Claude Code はローカルエンドポイントを指すことも可能です。 推奨されるモデルとしては、Z.AI の **GLM‑4.7‑Flash** と **Qwen3‑Coder‑Next** が挙げられています。また、小型で量子化されたバージョンを使用するとディスク容量と GPU メモリを節約できますが、その代償として品質や速度が若干低下する可能性があります。ローカル OSS モデルは遅く、コード生成の質が低下することもありますが、クォータ制限やコストが問題になる際に有効なバックアップ手段となります。最後に、読者にはこの設定を試し、さまざまなモデルをテストして経験を共有するよう奨励しています。

2026/02/05 3:34

インフラ向け Claude コード

## Japanese Translation: > Fluid は、AI エージェントが本番インフラストラクチャのサンドボックス化されたクローンを安全に探索し、その後、自動的に実際のサーバー用の Infrastructure‑as‑Code(IaC)―たとえば Ansible プレイブック ― を生成できる軽量ターミナルエージェントです。 > LLM 単体ではライブシステムの挙動を予測することが難しいため、サンドボックスは実際的なコンテキストを提供します。コマンドはホストと同一 OS、パッケージ、ツールを鏡映した隔離された VM またはクラスター上で実行されます。 > Fluid には安全性が組み込まれています:本番環境への直接 SSH は許可せず、一時的な証明書のみを使用し、すべてのサンドボックスコマンドは監査可能に完全ログ記録され、高リソースまたはインターネット依存の操作は人間の承認が必要です。 > インストールはワンライナー(`curl -fsSL https://fluid.sh/install.sh | bash`)で、ホスト環境を自動的に検出します。 > 提供された例では、AI エージェントがサンドボックス(ID `SBX-demo1234`、IP `192.168.122.50`)に Apache をインストールし、curl で確認した後、`httpd‑setup` プレイブックを生成します。このプレイブックは 4 件のタスク(apt キャッシュ更新、Apache インストール、カスタム `index.html` 作成、サービス起動/有効化)から構成され、任意の Ubuntu サーバーで実行して同じ設定を再現できます。 > コントロールされた監査可能なワークフローをチームに提供することで、Fluid はデプロイリスクを低減し、コンプライアンスを向上させ、AI 主導のインフラ変更を効率化します。