
2026/02/20 19:32
**普及型AIへの道 (17 k トークン/秒)**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
(欠落している詳細を補完した完全版)
要約
Taalasは、わずか2ヶ月で任意のAIモデルをハードウェア化できるカスタムシリコンを開発し、レイテンシー・コスト・電力使用量を劇的に削減するとともに、高い性能を維持しています。彼らのHC1プラットフォームは、カスタム3ビット/6ビット量子化を用いて8 億パラメータのLlama 3.1モデルをハードウェア上に実装し、ユーザーあたり約17,000トークン/秒(既存ベストソリューションの10倍程度)のスループットを提供します。これにより構築コストは20分の1、電力消費は10分の1となります。この突破口は、コードアシスタントの数分レイテンシーや高いインフラ料金によって遅延したAI導入に対する解決策です。
設立から2½年。Taalasは約24人規模のリーンチームで運営され、$200 Mを調達しましたが、最初の製品にはわずか$30 Mしか費やしていません。スケールよりも精度・職人技・厳格な集中力に重点を置いています。将来展望として、第二世代HC2プラットフォームは標準4ビット浮動小数点フォーマットを採用し、同じスペース内でより多くの計算能力を実装します。春には中規模推論モデルがリリースされ、冬にはフロンティアLLMがデビュー予定です。ベータ推論APIは従来のレイテンシーとコスト障壁を取り除き、サブミリ秒レベルでほぼゼロコストの推論を可能にします。広く採用されれば、ストレージと計算を統合し、ハードウェア設計を簡素化し、ユーザー・企業・業界全体に劇的な利得をもたらすことでAI導入を変革する可能性があります。
本文
Ljubisa Bajic 著
多くの人々は、AI が真の革命だと信じています。狭い領域ではすでに人間を凌駕しつつあります。うまく活用すれば、人間の創造性と生産性を前例のないほど拡大するアンプになります。しかし、その広範な普及は、二つの主要な障壁――高いレイテンシーと莫大なコスト――によって妨げられています。
- 言語モデルとの対話 は人間の認知速度に比べてずっと遅く、コードアシスタントが数分も考えることでプログラマのフロー状態を乱し、効果的な人―AI コラボレーションを制限します。
- 自律型 AI アプリケーション はミリ秒レベルのレスポンスを要求するため、人間のペースでの応答では不可能です。
コスト面では、最新モデルを展開するには膨大なエンジニアリングと資本が必要です。数百キロワットを消費し、液体冷却・高度パッケージング・スタックメモリ・複雑な I/O・何マイルものケーブルを備えた部屋サイズのスーパーコンピュータは、都市規模のデータセンターキャンパスや衛星ネットワークへと拡大し、極端な運用コストを生み出します。
社会がデータセンターと隣接する発電所によって定義されるディストピア的未来を築こうとしているように見えても、歴史は別の方向を示唆しています。過去の技術革命は、恐ろしいプロトタイプから始まり、より実用的な成果を生む突破口で覆われてきました。ENIAC は真空管とケーブルで部屋一杯になる巨大装置でした。ENIAC は計算の魔法を人類に示しましたが、遅く、高価でスケーラブルではありませんでした。その後トランジスタはワークステーションや PC からスマートフォン、ユビキタスコンピューティングへと急速な進化を促し、ENIAC の蔓延を防ぎました。
汎用計算が主流になるのは、「作りやすく、速く、安価にする」ことによってです。AI も同じ道を歩む必要があります。
Taalas について
設立からわずか2年半で、Taalas は任意の AI モデルをカスタムシリコンへ変換するプラットフォームを開発しました。未公開モデルが届いた瞬間に、ハードウェア化までにたった二か月。結果として得られる Hardcore Models は、ソフトウェアベースの実装と比べて 10 倍速く、10 倍安価で、電力消費も 10 倍低減します。
Taalas の仕事は以下の三つのコア原則に基づいています。
-
完全な専門化
計算史上、深い専門化こそが重要ワークロードで極限まで効率を上げる最も確実な道でした。AI 推論は人類が直面した中で最も重要な計算負荷であり、最大の専門化恩恵を受けられます。その要求は「個々のモデルごとに最適化されたシリコン」を生み出すという完全専門化へと導きます。 -
ストレージと計算の統合
現在の推論ハードウェアは、メモリ(オフチップ)と計算(オンチップ)の間に人工的な境界を持ち、異なる速度で動作します。これは長年続くパラドックスから生まれました。DRAM は標準プロセスで使えるメモリよりも密度が高く安価ですが、オフチップ DRAM へのアクセスはオンチップメモリの数千倍遅いです。一方、計算チップは DRAM プロセスを用いて作ることができません。
Taalas はこの境界を排除し、DRAM 程度の密度でストレージと計算を同一チップに統合します。我々のアーキテクチャは従来可能だったものを大幅に超えます。 -
激進的単純化
メモリ―計算境界を取り除き、各モデルに合わせてシリコンを設計することで、ハードウェアスタック全体を原点から再設計しました。その結果、HBM、高度パッケージング、3D スタッキング、液体冷却、高速 I/O などの難解・希少技術に依存せず、エンジニアリングのシンプルさが総コストを 10 倍削減します。
初期製品
この技術哲学に従い、Taalas は世界で最速かつ最低コスト/低電力の推論プラットフォームを完成させました。
図 1: Taalas HC1 が Llama 3.1 8B モデルとハードワイヤリング
本日、初めて「ハードワイヤリングされた Llama 3.1 8B」を発表します。チャットボットデモとしても推論 API サービスとしても利用可能です。Taalas のシリコン Llama は 17 K トークン/秒/ユーザーを実現し、現在の最先端より約10倍速く、構築コストは20倍安価で電力消費も10倍低減します。
図 2: Taalas HC1 が Llama 3.1 8B でリーダーシップを発揮
Llama 3.1 8B を最初の製品に選んだ理由は実用性です。小型でオープンソースであるため、ロジスティックな負担を最小限に抑えてモデルをハード化できました。
高速化を重視しつつも、Llama は可変コンテキストウィンドウサイズと LoRA(低ランクアダプタ)による微調整のサポートで柔軟性を保持しています。最初世代設計時には低精度パラメータ形式が標準化されていなかったため、カスタム 3‑bit ベースデータ型を採用しました。このシリコン Llama は積極的に量子化(3‑bit と 6‑bit パラメータの組み合わせ)しており、GPU ベンチマークと比べて若干品質劣化があります。
第二世代シリコンは標準 4‑bit 浮動小数点フォーマットを採用し、これらの制限を解消するとともに高速さと効率性を維持します。
今後のモデル
- 第2モデル(中規模推論 LLM)は Taalas の第一世代プラットフォーム (HC1) をベースにし、春に研究所で完成予定。サービスへの統合はその直後に行います。
- Frontier LLM は第二世代プラットフォーム (HC2) を使用し、さらに高密度かつ高速な実行を提供します。冬に展開予定です。
即時 AI ― すぐ手元で体験
当社の初期モデルは最先端ではありませんが、ベータサービスとしてリリースしました。LLM 推論がミリ秒未満でほぼゼロコストになると何が可能かを開発者に実感してもらうためです。このサービスは、以前は非現実的だった多くのアプリケーションカテゴリを可能にし、開発者が試行錯誤し、新たな活用方法を見つけることを奨励します。
[ここからアクセス申請] し、従来の AI レイテンシーとコスト制約を打破するシステムと接触してください。
実質・チーム・技術
Taalas は長年共同で活動してきた少数派のグループです。小規模かつ集中した体制を保つため、同じスキルセットと何十年もの共通経験を持つ外部パートナーに依存しています。チームはゆっくり成長し、新メンバーは卓越性、ミッションへの整合性、既存の実践への敬意で選ばれます。
ここでは「実質」が「華やかさ」を上回り、「職人技」が「規模」を超え、「厳密さ」が「冗長性」を凌駕します。Taalas は、深層技術スタートアップが中世の城壁都市を包囲する軍隊のように数で押し寄せ、ベンチャーキャピタルの資金を溢れさせ、ハイプが明晰な思考を飲み込む世界で精密打撃を行います。
最初の製品は 24 名のチームと総額 3,000 万ドル(200 万ドル以上の調達から)で市場に投入されました。この成果は、定義された目標と厳格なフォーカスが力任せでは実現できないことを示しています。今後もオープンに進化させていきます。Llama 推論プラットフォームはすでに手元にあり、将来のシステムは成熟次第リリースします。早期公開し、迅速にイテレートし、粗削りな部分を受け入れます。
結び
革新は仮定を疑い、解決空間の無視された隅へ踏み込むことから始まります。それが Taalas の選んだ道です。私たちの技術は、性能・電力効率・コストにおいて飛躍的な向上を実現し、主流とは根本的に異なるアーキテクチャ哲学を反映しています。
破壊的進歩は最初は見慣れたものではありません。業界がこの新しい運用パラダイムを理解し採用できるよう支援することにコミットします。ハードワイヤリングされた Llama から始まり、より高度なモデルへと拡大する当社の初期製品は、高レイテンシーとコストという AI の普及障壁を取り除きます。開発者がこれで何を作るかを見るのを心待ちにしています。