N トークン毎秒とは、実際にはどのような速度なのでしょうか?

2026/05/18 11:04

N トークン毎秒とは、実際にはどのような速度なのでしょうか?

RSS: https://news.ycombinator.com/rss

要約

概要:

この報告書の中核的なメッセージは、ローカル LLM のパフォーマンスが単なる生速度だけでは決定されるのではなく、主にコンテンツタイプとハードウェアの制約に大きく依存することである。スループットベンチマークは、コード、テキスト、思考/推論、エージェントの 4 つの明確なストリーミングモードを明らかにしており、同等のトークン率においてでも識別子の高い密度のためプロース(文章)に比べてコードが著しく遅く感じられる。補足のために、本研究では長い識別子を分割する特定のパターン付き BPE(Piece-wise Byte Encoding)方式のトークナイゼーション手法を使用しており、例えば「processUserInput」は「process」「User」「Input」に分けられ、句読点や演算子もトークンとして扱われる。これは tiktoken や Claude のトークナイザーなど一般的なツールとは異なる。テスト範囲は広く、Raspberry Pi クラスのデバイスから 4090 などのハイエンド GPU、Groq などのクラウドサービスまでをカバーしている。重要な知見として、ハイエンドシステムではハードウェアが 1 秒あたり最大 800 トokens を処理できる一方で、実際のユーザー体験は人間の視覚処理速度で決定される上限に達し、極限スピードにおいてはボトルネックは計算能力からシフトして、人が画面を閲覧または視聴する速さという要因に移行する。したがって、これらのモデルを展開する企業は、これらの 4 つの特定のストリーミングモードに合わせて期待値と最適化戦略をカスタマイズし、ユーザーのニーズに合わせる必要がある。

本文

全てのローカル LLM ベンチマークではスループットが表示されます:「M3 で 47 トークン/秒」「4090 で 180 トークン/秒」「Groq で 500 トークン/秒」など。実際、その速度でトークンのストリーミングを見ているわけではない限り、これらの数値を直感的に捉えることは困難です。これがそのレンダリング例です。

4 つのモード

  • code — シンタックスハイライト付きの疑似コード:LLM から最も一般的にストリーム出力されるコンテンツです。
  • text — 標準的な占めるテキスト(ロルム・イプサム):チャットや回答という使用ケースに対応します。
  • think — 思考を声に出して表現する理由モデルを模倣し、疑似コードとの間で交互に表示される斜体かつ薄めの文章です。
  • agent — ツール呼び出しとコード生成が交互に現れ、処理用の休止期間も含まれる:AI コーディングエージェントの動作をシミュレートします。

試すべきこと

  • デフォルトの 30(トークン/秒)から始め、読みながら進めてください。その後、1(5 トークン/秒——ラズパイクラスのローカルモデル)、5(60 トークン/秒——典型的なホストされた Claude または GPT)、7(200 トークン/秒——Groq の領域)、9(800 トークン/秒——Cerebras クラスで、ボトルネックになるのはあなたの目です)へと設定を変えてみてください。
  • 次に、同じ速度で c と t を切り替えて比べてください。その違いは顕著であり、意図的なものです。

トークンの定義について

  • これは BPE 様式のトークナイゼーションを近似しており、ベンダー固有のエンコーダー(tiktoken、Claude のトークナイザーなど)とは異なります(いずれにせよ、詳細では一致しません)。
  • 短い単語はしばしば 1 トークンで表され、長い識別子は複数のチャンクに分けられます(例:processUserInput → process + User + Input)。句読点や演算子も通常カウントされます。
  • コードはテキストに比べてトークン密度が高いため、同じトークン/秒でも、ストリーミングするコンテンツの種類によって感じ方は大きく異なります。ベンチマーク数値そのものは正確ですが、知覚効果はコンテンツタイプによって大きく変動します——まさにこのギャップを明らかにするために、本ツールが存在しています。
  • イングリッシュの文章では、単語 1 つあたり平均約 1.3 トークンであり、したがって 30 トークン/秒は約 23 語/秒に相当します。

同じ日のほかのニュース

一覧に戻る →

2026/05/20 22:43

GitHub、悪意のある Visual Studio Code エクステンションによる 3,800 リポジトリの侵害を確認。

## 日本語翻訳: GitHub は、従業員が悪意のある Visual Studio Code (VS Code) 拡張機能のインストールによって、約 3,800 の内部リポジトリが侵害された重大なセキュリティインシデントを確認しました。主な影響は、機密性の高い GitHub 内部のソースコードと、ハッカーグループ「TeamPCP」がサイバー犯罪フォーラムで所持していると主張する約 4,000 つのプライベートリポジトリの漏洩可能性がある点にあります。このインシデントは、ソフトウェアサプライチェーン内で長年見られる課題を浮き彫りにしており、過去には悪意のある拡張機能が認証情報を窃取したりマルウェアを配布したりするために利用されてきました。特に以前の年には、数百万回のインストール数を誇りながらセキュリティリスクにより削除されたトロージャン化された VS Code 拡張機能や、クリプトStealing の拡張機能、データを漏洩させる AI ベースのコーディングアシスタントを含む他のインシデントもありました。これら過去の事例は外部ユーザーを標的としたものであったのに対し、今回のインシデントは GitHub の自前のインフラストラクチャと開発チームに限定されており、これらの内部リポジトリの外に保存された顧客データに影響があったという証拠はありません。

2026/05/21 6:33

Google がウェブに対して「宣戦布告」に出たとして言われている。

## Japanese Translation: Google は、オープンウェブのリンクを AI が生成したサマリー(「AI オーバービュー」)に置換する活動を積極的に進めており、これは閉鎖的で管理されたインターネットを創出するというリスクを孕んでいます。現在、ウェブは開かれた文化的リソースとして扱われるべきですが、Google は自社の独占的なニーズを満たすために情報を文脈から切り離し、既存のデータを報酬なしの原材料として使用し、事実上その独り占め体制を支えています。このアプローチは、かつて企業が行ってきた「壁の中庭(walled gardens)」建設の試みに酷似しており、不制御された外部世界に対して安全でフィルタリングされたインターフェースを提供しています。この動きはリンクから LLM 生成のレスポンスへ移行するものであり、時々誤っている答えを提供することで、ウェブに対する Google の独占的な管理層を確立し、ウェブサイト、ユーザーの創作活動、デジタルアートが synthetic generation に餌を与える限り、それらを無関係にしてしまうという脅威をもたらしています。業界基準がこの優越性に適応して変化するリスクもあり、将来的には早期のアール「slopified AOL」に類似した、劣化しアルゴリズムによってキュレートされたプラットフォームとなる可能性があります。アクセスは Google のアルゴリズムが「関連する」と判断したコンテンツに限られます。主な影響は、デフォルト設定に依存するユーザーの情報多様性の低下です。真理および文化へのアクセスの独占に対抗するためには、個人はすぐにデジタル習慣を「De-googlify」する必要性に直面しており、代替検索エンジンへ移行し、Chrome を避ける必要があります。情報の独占化へのこのシフトはオープン標準にも脅威を与え、Google の「安全な」抽象化と対照的に、参加型ウェブに対して非難ラベルが適用される可能性があります。記事は Patreon での呼びかけで締めくくり、本文はクリエイティブ・コモンズアトリビューション・シェアアライク 4.0国際ライセンスの下で提供されていることを示しています。

2026/05/21 6:11

PopuLoRA:推論における自己対戦のために大規模言語モデル集団を共進化させる手法

## Japanese Translation: 提示された最も重要な突破口は、RLVR ポストトレーニング用の集団ベースの非対称な自己対戦フレームワークである PopuLoRA です。これは、「自己カルリブレーション崩壊」を解決するために設計されています。従来の単一エージェントシステムが時間とともにタスクを単純化することを防ぐ点で、PopuLoRA は共有されたフrozen ベースモデル上で LoRA アダプターとして特化した教師 (T) と学生 (S) の共進化する集団をトレーニングします。トレーニングループは 5 つのフェーズで構成されています:コードタスク(入力/出力/埋め込み空白)の生成、セキュアなサンドボックスを用いたフィルタリング、TrueSkill レートではなく優先度の高い自己対戦を用いたペアのマッチング、教師の成功が学生の困難さ目標に厳密に関連するよう計算される報酬の算出、ポリシーの更新です。進化は、重み空間内で直接的に行われ、変異、交差、単一値干渉、レイヤースロット交換を通じて実現され、モデルが停止状態にならず(更新ステップが最小限の 10-20 で)、能力を維持できます。このアプローチは、ベースモデルを交換せずに複数 LoRA の推論をルーティングすることで、8 アダプター設定において Wall-clock オーバーヘッドのみ 1.31 倍という大幅な効率化を実現します。その結果、PopuLoRA はコーディングベンチマークにおいてベースラインを大幅に上回るとともに、数学でも転移可能な向上を示し、孤立した専門家よりも、多様なモデルの協力生態系がタスクの困難さを維持し、より広範なプログラム空間へと拡大する方がはるかに効果的であることが証明されています。

N トークン毎秒とは、実際にはどのような速度なのでしょうか? | そっか~ニュース