
2026/05/18 11:04
N トークン毎秒とは、実際にはどのような速度なのでしょうか?
RSS: https://news.ycombinator.com/rss
要約▶
概要:
この報告書の中核的なメッセージは、ローカル LLM のパフォーマンスが単なる生速度だけでは決定されるのではなく、主にコンテンツタイプとハードウェアの制約に大きく依存することである。スループットベンチマークは、コード、テキスト、思考/推論、エージェントの 4 つの明確なストリーミングモードを明らかにしており、同等のトークン率においてでも識別子の高い密度のためプロース(文章)に比べてコードが著しく遅く感じられる。補足のために、本研究では長い識別子を分割する特定のパターン付き BPE(Piece-wise Byte Encoding)方式のトークナイゼーション手法を使用しており、例えば「processUserInput」は「process」「User」「Input」に分けられ、句読点や演算子もトークンとして扱われる。これは tiktoken や Claude のトークナイザーなど一般的なツールとは異なる。テスト範囲は広く、Raspberry Pi クラスのデバイスから 4090 などのハイエンド GPU、Groq などのクラウドサービスまでをカバーしている。重要な知見として、ハイエンドシステムではハードウェアが 1 秒あたり最大 800 トokens を処理できる一方で、実際のユーザー体験は人間の視覚処理速度で決定される上限に達し、極限スピードにおいてはボトルネックは計算能力からシフトして、人が画面を閲覧または視聴する速さという要因に移行する。したがって、これらのモデルを展開する企業は、これらの 4 つの特定のストリーミングモードに合わせて期待値と最適化戦略をカスタマイズし、ユーザーのニーズに合わせる必要がある。
本文
全てのローカル LLM ベンチマークではスループットが表示されます:「M3 で 47 トークン/秒」「4090 で 180 トークン/秒」「Groq で 500 トークン/秒」など。実際、その速度でトークンのストリーミングを見ているわけではない限り、これらの数値を直感的に捉えることは困難です。これがそのレンダリング例です。
4 つのモード
- code — シンタックスハイライト付きの疑似コード:LLM から最も一般的にストリーム出力されるコンテンツです。
- text — 標準的な占めるテキスト(ロルム・イプサム):チャットや回答という使用ケースに対応します。
- think — 思考を声に出して表現する理由モデルを模倣し、疑似コードとの間で交互に表示される斜体かつ薄めの文章です。
- agent — ツール呼び出しとコード生成が交互に現れ、処理用の休止期間も含まれる:AI コーディングエージェントの動作をシミュレートします。
試すべきこと
- デフォルトの 30(トークン/秒)から始め、読みながら進めてください。その後、1(5 トークン/秒——ラズパイクラスのローカルモデル)、5(60 トークン/秒——典型的なホストされた Claude または GPT)、7(200 トークン/秒——Groq の領域)、9(800 トークン/秒——Cerebras クラスで、ボトルネックになるのはあなたの目です)へと設定を変えてみてください。
- 次に、同じ速度で c と t を切り替えて比べてください。その違いは顕著であり、意図的なものです。
トークンの定義について
- これは BPE 様式のトークナイゼーションを近似しており、ベンダー固有のエンコーダー(tiktoken、Claude のトークナイザーなど)とは異なります(いずれにせよ、詳細では一致しません)。
- 短い単語はしばしば 1 トークンで表され、長い識別子は複数のチャンクに分けられます(例:processUserInput → process + User + Input)。句読点や演算子も通常カウントされます。
- コードはテキストに比べてトークン密度が高いため、同じトークン/秒でも、ストリーミングするコンテンツの種類によって感じ方は大きく異なります。ベンチマーク数値そのものは正確ですが、知覚効果はコンテンツタイプによって大きく変動します——まさにこのギャップを明らかにするために、本ツールが存在しています。
- イングリッシュの文章では、単語 1 つあたり平均約 1.3 トークンであり、したがって 30 トークン/秒は約 23 語/秒に相当します。