**普及型AIへの道  
(17 k トークン/秒)**

2026/02/20 19:32

**普及型AIへの道 (17 k トークン/秒)**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

(欠落している詳細を補完した完全版)


要約

Taalasは、わずか2ヶ月で任意のAIモデルをハードウェア化できるカスタムシリコンを開発し、レイテンシー・コスト・電力使用量を劇的に削減するとともに、高い性能を維持しています。彼らのHC1プラットフォームは、カスタム3ビット/6ビット量子化を用いて8 億パラメータのLlama 3.1モデルをハードウェア上に実装し、ユーザーあたり約17,000トークン/秒(既存ベストソリューションの10倍程度)のスループットを提供します。これにより構築コストは20分の1、電力消費は10分の1となります。この突破口は、コードアシスタントの数分レイテンシーや高いインフラ料金によって遅延したAI導入に対する解決策です。

設立から2½年。Taalasは約24人規模のリーンチームで運営され、$200 Mを調達しましたが、最初の製品にはわずか$30 Mしか費やしていません。スケールよりも精度・職人技・厳格な集中力に重点を置いています。将来展望として、第二世代HC2プラットフォームは標準4ビット浮動小数点フォーマットを採用し、同じスペース内でより多くの計算能力を実装します。春には中規模推論モデルがリリースされ、冬にはフロンティアLLMがデビュー予定です。ベータ推論APIは従来のレイテンシーとコスト障壁を取り除き、サブミリ秒レベルでほぼゼロコストの推論を可能にします。広く採用されれば、ストレージと計算を統合し、ハードウェア設計を簡素化し、ユーザー・企業・業界全体に劇的な利得をもたらすことでAI導入を変革する可能性があります。

本文

Ljubisa Bajic 著

多くの人々は、AI が真の革命だと信じています。狭い領域ではすでに人間を凌駕しつつあります。うまく活用すれば、人間の創造性と生産性を前例のないほど拡大するアンプになります。しかし、その広範な普及は、二つの主要な障壁――高いレイテンシーと莫大なコスト――によって妨げられています。

  • 言語モデルとの対話 は人間の認知速度に比べてずっと遅く、コードアシスタントが数分も考えることでプログラマのフロー状態を乱し、効果的な人―AI コラボレーションを制限します。
  • 自律型 AI アプリケーション はミリ秒レベルのレスポンスを要求するため、人間のペースでの応答では不可能です。

コスト面では、最新モデルを展開するには膨大なエンジニアリングと資本が必要です。数百キロワットを消費し、液体冷却・高度パッケージング・スタックメモリ・複雑な I/O・何マイルものケーブルを備えた部屋サイズのスーパーコンピュータは、都市規模のデータセンターキャンパスや衛星ネットワークへと拡大し、極端な運用コストを生み出します。

社会がデータセンターと隣接する発電所によって定義されるディストピア的未来を築こうとしているように見えても、歴史は別の方向を示唆しています。過去の技術革命は、恐ろしいプロトタイプから始まり、より実用的な成果を生む突破口で覆われてきました。ENIAC は真空管とケーブルで部屋一杯になる巨大装置でした。ENIAC は計算の魔法を人類に示しましたが、遅く、高価でスケーラブルではありませんでした。その後トランジスタはワークステーションや PC からスマートフォン、ユビキタスコンピューティングへと急速な進化を促し、ENIAC の蔓延を防ぎました。

汎用計算が主流になるのは、「作りやすく、速く、安価にする」ことによってです。AI も同じ道を歩む必要があります。


Taalas について

設立からわずか2年半で、Taalas は任意の AI モデルをカスタムシリコンへ変換するプラットフォームを開発しました。未公開モデルが届いた瞬間に、ハードウェア化までにたった二か月。結果として得られる Hardcore Models は、ソフトウェアベースの実装と比べて 10 倍速く、10 倍安価で、電力消費も 10 倍低減します。

Taalas の仕事は以下の三つのコア原則に基づいています。

  1. 完全な専門化
    計算史上、深い専門化こそが重要ワークロードで極限まで効率を上げる最も確実な道でした。AI 推論は人類が直面した中で最も重要な計算負荷であり、最大の専門化恩恵を受けられます。その要求は「個々のモデルごとに最適化されたシリコン」を生み出すという完全専門化へと導きます。

  2. ストレージと計算の統合
    現在の推論ハードウェアは、メモリ(オフチップ)と計算(オンチップ)の間に人工的な境界を持ち、異なる速度で動作します。これは長年続くパラドックスから生まれました。DRAM は標準プロセスで使えるメモリよりも密度が高く安価ですが、オフチップ DRAM へのアクセスはオンチップメモリの数千倍遅いです。一方、計算チップは DRAM プロセスを用いて作ることができません。
    Taalas はこの境界を排除し、DRAM 程度の密度でストレージと計算を同一チップに統合します。我々のアーキテクチャは従来可能だったものを大幅に超えます。

  3. 激進的単純化
    メモリ―計算境界を取り除き、各モデルに合わせてシリコンを設計することで、ハードウェアスタック全体を原点から再設計しました。その結果、HBM、高度パッケージング、3D スタッキング、液体冷却、高速 I/O などの難解・希少技術に依存せず、エンジニアリングのシンプルさが総コストを 10 倍削減します。


初期製品

この技術哲学に従い、Taalas は世界で最速かつ最低コスト/低電力の推論プラットフォームを完成させました。

図 1: Taalas HC1 が Llama 3.1 8B モデルとハードワイヤリング
本日、初めて「ハードワイヤリングされた Llama 3.1 8B」を発表します。チャットボットデモとしても推論 API サービスとしても利用可能です。Taalas のシリコン Llama は 17 K トークン/秒/ユーザーを実現し、現在の最先端より約10倍速く、構築コストは20倍安価で電力消費も10倍低減します。

図 2: Taalas HC1 が Llama 3.1 8B でリーダーシップを発揮
Llama 3.1 8B を最初の製品に選んだ理由は実用性です。小型でオープンソースであるため、ロジスティックな負担を最小限に抑えてモデルをハード化できました。

高速化を重視しつつも、Llama は可変コンテキストウィンドウサイズと LoRA(低ランクアダプタ)による微調整のサポートで柔軟性を保持しています。最初世代設計時には低精度パラメータ形式が標準化されていなかったため、カスタム 3‑bit ベースデータ型を採用しました。このシリコン Llama は積極的に量子化(3‑bit と 6‑bit パラメータの組み合わせ)しており、GPU ベンチマークと比べて若干品質劣化があります。

第二世代シリコンは標準 4‑bit 浮動小数点フォーマットを採用し、これらの制限を解消するとともに高速さと効率性を維持します。


今後のモデル

  • 第2モデル(中規模推論 LLM)は Taalas の第一世代プラットフォーム (HC1) をベースにし、春に研究所で完成予定。サービスへの統合はその直後に行います。
  • Frontier LLM は第二世代プラットフォーム (HC2) を使用し、さらに高密度かつ高速な実行を提供します。冬に展開予定です。

即時 AI ― すぐ手元で体験

当社の初期モデルは最先端ではありませんが、ベータサービスとしてリリースしました。LLM 推論がミリ秒未満でほぼゼロコストになると何が可能かを開発者に実感してもらうためです。このサービスは、以前は非現実的だった多くのアプリケーションカテゴリを可能にし、開発者が試行錯誤し、新たな活用方法を見つけることを奨励します。

[ここからアクセス申請] し、従来の AI レイテンシーとコスト制約を打破するシステムと接触してください。


実質・チーム・技術

Taalas は長年共同で活動してきた少数派のグループです。小規模かつ集中した体制を保つため、同じスキルセットと何十年もの共通経験を持つ外部パートナーに依存しています。チームはゆっくり成長し、新メンバーは卓越性、ミッションへの整合性、既存の実践への敬意で選ばれます。

ここでは「実質」が「華やかさ」を上回り、「職人技」が「規模」を超え、「厳密さ」が「冗長性」を凌駕します。Taalas は、深層技術スタートアップが中世の城壁都市を包囲する軍隊のように数で押し寄せ、ベンチャーキャピタルの資金を溢れさせ、ハイプが明晰な思考を飲み込む世界で精密打撃を行います。

最初の製品は 24 名のチームと総額 3,000 万ドル(200 万ドル以上の調達から)で市場に投入されました。この成果は、定義された目標と厳格なフォーカスが力任せでは実現できないことを示しています。今後もオープンに進化させていきます。Llama 推論プラットフォームはすでに手元にあり、将来のシステムは成熟次第リリースします。早期公開し、迅速にイテレートし、粗削りな部分を受け入れます。


結び

革新は仮定を疑い、解決空間の無視された隅へ踏み込むことから始まります。それが Taalas の選んだ道です。私たちの技術は、性能・電力効率・コストにおいて飛躍的な向上を実現し、主流とは根本的に異なるアーキテクチャ哲学を反映しています。

破壊的進歩は最初は見慣れたものではありません。業界がこの新しい運用パラダイムを理解し採用できるよう支援することにコミットします。ハードワイヤリングされた Llama から始まり、より高度なモデルへと拡大する当社の初期製品は、高レイテンシーとコストという AI の普及障壁を取り除きます。開発者がこれで何を作るかを見るのを心待ちにしています。

同じ日のほかのニュース

一覧に戻る →

2026/02/21 2:58

「Androidをオープンに保つ」

## 日本語訳: F‑Droidは、GoogleのAndroidポリシーの変化についてコメントしながら、新しい **Basic 2.0‑alpha3** ビルドを公開しました。 - **FOSDEM26** でユーザーは、GoogleがAndroidをロックダウンする計画を中止したと聞き安心しましたが、8月の発表ではその計画がまだ有効であることが示されています。 - 記事は、Google の「advanced flow」主張の曖昧さと、Android 16 QPR2/3 や Android 17 Beta 1 の明確なリリース日が設定されていない点を批判しています。 - **バナー警告** は、Google がゲートキーパーになる前に時間がなくなることをユーザーに知らせ、IzzyOnDroid、Obtainium、および他のダウンローダーでも同様のバナーが表示されます。 - 新しい Basic リリースには、更新された翻訳、インストール済みアプリの CSV エクスポート、インストール履歴、ミラー選択器、スクリーンショット防止機能、ツールチップ、新しいオーバーフローメニュー、永続的な並べ替え順序、Material 3 スタイル、およびさまざまなバグ修正が含まれています。 Basic 1.23.x を使用しているユーザーは、このアルファを受け取るために「Allow beta updates」を手動で有効にする必要があります。 - **いくつかのアプリが更新されました**:Buses 1.10、Conversations/Quicksy 2.19.10+、Dolphin Emulator 2512、Image Toolbox 3.6.1(AIツール)、Luanti 5.15.1、Nextcloud ファミリー(Nextcloud 33.0.0、Cookbook 0.27.0、Dev 20260219、Notes 33.0.0、Talk 23.0.0)、ProtonVPN 5.15.70.0(WireGuard のみ)、Offi 14.0、QUIK SMS 4.3.4、および SimpleEmail 1.5.4。 - **5 つのアプリが削除されました**:Chord Shift、OpenAthena™ for Android、Tibetan Keyboard、Tibetan Pad、Tomdroid。 - **新しいアプリが追加されました**:NeoDB You(Material 3/You を採用した NeoDB のネイティブ Android アプリ)。 - 280 件を超えるアプリが更新され、注目すべきものとして Aurora Store 4.8.1、Bando.js Gadgetbridge 0.89.1‑banglejs、DuckDuckGo Privacy Browser 5.266.0、Element X 26.02.0、OpenTracks v4.26.0、Proton Pass 1.37.2 などがあります。 - F‑Droid は読者に RSS フィードの購読、TWIF フォーラムスレッドへの参加、および寄付ページでの寄付を促しています。 この改訂された概要はリストから主要なポイントをすべて保持し、不必要な推測を避け、明確なメインメッセージを提示し、曖昧または混乱する表現を除去しています。

2026/02/21 6:25

Dependabot をオフにします。

## Japanese Translation: ## 要約 DependabotはGoプロジェクトで細かいパッケージフィルタリングが不足しているため、頻繁に無関係なセキュリティアラートを生成します。著者はDependabotを停止し、最新の依存関係に対して`govulncheck`とテストスイートを実行するスケジュール済みGitHub Actionで置き換えることで、ノイズを劇的に減らしながらも実際の脆弱性は検出できることを示しています。 重要な例として、`filippo.io/edwards25519`(v1.1.1)の修正が挙げられます。このパッチはDependabotのデフォルト動作により、関連しないリポジトリ―例えばWycheproof―でも何千件ものPRを生成しました。対照的に、`govulncheck`は静的解析後に脆弱なシンボルが到達不能であると判断し、著者のプロジェクトでは「脆弱性なし」と報告します。 Go Vulnerability Database はモジュール、バージョン、シンボル、CVE参照などの詳細メタデータを提供しており、こうした精密なフィルタリングを可能にしています。著者は毎日実行されるワークフロー(`go get -u -t ./...`)と10:22 UTCに実行される`govulncheck`を組み合わせ、真の脅威に対してのみアラートが上がるようにしています。 CI環境を潜在的なサプライチェーン攻撃から保護するため、ワークフローではgVisorを使用したサンドボックス化ステップ`geomys/sandboxed-step`を採用しています。この手法は、各依存関係のスケジュールではなくプロジェクト自身のリリースサイクルに合わせて依存関係を更新することを推奨し、継続的なバンプなしで早期検出を実現します。 この戦略は、Go Security Team が2020–21年にデータベース品質と静的解析フィルタの改善に焦点を当てたものと一致しており、Geomys のリテーナー契約(Ava Labs、Teleport、Tailscale、Sentry)によって支援されています。著者は他の開発者にも同様のワークフローを採用するよう促し、Bluesky(@filippo.abyssdomain.expert)または Mastodon(@filippo@abyssdomain.expert)でフォローしてもらうことを読者に呼びかけています

2026/02/20 22:51

**Ggml.ai、Hugging Faceと提携しローカルAIの長期的進展を確保** - 軽量機械学習モデルのリーディングプロバイダーであるGgml.aiが、Hugging Faceとパートナーシップを結びました。 - 本協業は、世界中におけるローカルAIソリューションの継続的な開発・展開を確実にすることを目的としています。 - 両社は資源やベストプラクティス、コミュニティサポートを共有し、デバイス上で動作するインテリジェンスのイノベーションを加速させていきます。

## 日本語訳: > ggml.ai の創設者は、AI を真にオープンに保ちつつ、ggml/llama.cpp スタックのメンテナンスに専念するため、Hugging Face に参加します。このパートナーシップはプロジェクトの長期的な持続可能性を保証し、ユーザーと貢献者に新たな機会を提供します。これまでの 3 年間の協力により、コア機能・ユーザーインターフェース・マルチモーダルサポート・GGUF 対応が追加されました。Llama.cpp は多くのコンシューマー ハードウェア上で動作するプライベート AI プロジェクトに不可欠となっており、コミュニティは依然として独自に構成設計を行い、Hugging Face はリソースを提供しつつコードを 100 % オープンソースのまま保ちます。今後、チームはユーザー体験を優先し、ggml/llama.cpp を Hugging Face の Transformers ライブラリに「ワンクリック」で統合し、ローカル推論がクラウドソリューションと競合できるようパッケージングを改善します。これらの取り組みは、使いやすいエッジ推論スタックを構築し、開発者に日常デバイス上でプライベート AI を構築するための安定した基盤を提供するとともに、世界中でオープンソーススーパインテリジェンス エコシステムを拡大することを目的としています。