
2025/12/23 9:12
ローカルAIは、数十年ぶりにノートパソコンで最大の変化を促しています。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
## Summary 大規模言語モデル(LLM)は、モバイルCPUが数コアしか持たず、RAMが約16 GBに限られ、専用のAIハードウェアを欠いているため、ほとんどのノートパソコンで実行できません。高性能マシンでも、数百ギガバイトのメモリを必要とする1兆パラメータ以上のモデルをロードすることは困難です。その結果、ローカルに利用可能な小規模モデルはより知能が低くなる傾向があります。 高性能ニューラルプロセッシングユニット(NPU)― 例えばQualcommのSnapdragon X(40–50 TOPS)や、約350 TOPSを目指すAI 100など ― をSoC設計に直接組み込むことで、日常的なPCを「ミニワークステーション」に変えることができます。これらのSoCはCPU・GPU・NPUを単一ダイ上で統合し、ユニファイドメモリを備えているため、RAMとVRAM間の高価なデータ転送が不要になります。このアーキテクチャにより、デバイスは高度なLLMをローカルで実行でき、応答時間の短縮、プライバシーの強化、およびLoRAによるファインチューニング、セマンティック検索、クラウドに頼らないリトリーバル増幅生成が可能になります。 AMD、Intel、Qualcomm、Microsoft、Appleといった業界プレイヤーは、将来のノートパソコン向けにより強力で省電力なNPUを計画しています。AMDとIntelの新APUはユニファイドメモリ(例:Ryzen AI Max は128 GB共有メモリと50 TOPS NPU)を備えています。NvidiaのハイエンドGPUは3,300 TOPS以上を提供しますが、非常に高い消費電力のためモバイル使用には不向きです。Apple Siliconもユニファイドメモリを採用していますが、そのGPU AI性能はPCベンダーより遅れています。Microsoftや他のPCメーカーは、より強力なNPUでこの差を埋めることを目指しています。 Microsoft の Windows AI Foundry Local(Build 2025で発表)は、AIワークロードを最適なローカルアクセラレータにルーティングするランタイムスタックを提供し、LoRA、セマンティック検索、およびリトリーバル増幅生成のAPIを公開します。 トレンドはオンデバイスAIを可能にする統合SoCへ向かっており、ユーザーには低遅延・優れたプライバシー・パーソナライズされた体験が提供される一方で、ノートパソコンメーカーは組み込み型高度AI機能で製品差別化を図ることができます。
本文
オフィスにあるPCは、今日AI大型言語モデル(LLM)を実行できる状態ではないのがほとんどです。現在、多くのユーザーはオンラインでブラウザベースのインターフェイスを介してLLMと対話しています。より技術的な方は、アプリケーションプログラミングインタフェース(API)やコマンドラインインタフェースを使う場合もあります。いずれにせよ、クエリはデータセンターへ送信され、そこでモデルがホスト・実行されます。これなら機能しますが、データセンターの障害が起きると数時間モデルトラブルになります。また、一部ユーザーは個人情報を匿名の外部に送ることに抵抗を感じるかもしれません。
PC上でモデルをローカル実行すると、レイテンシ低減やパーソナルニーズへの適応、そして自前機器にデータを残すことで得られるプライバシーといった大きなメリットがあります。しかし、1年以上経過した平均的なノートPCでは、ローカルで実行できる有用なAIモデルの数はほぼゼロです。CPUが4〜8コア程度で、専用GPUやニューラルプロセッシングユニット(NPU)がなく、16GBのRAMしかないと、LLMには足りません。
新しいハイエンドPCノートでも同様に苦労します。最大規模のAIモデルは1兆パラメータを超え、数百ギガバイトのメモリが必要です。小型化されたバージョンは存在し、普及していますが、大きいモデルほど知能が高く、専用AIデータセンターでのみ扱われることが多いです。
さらに、より高度な機能を持たせようとする他のAI機能を考えると状況は悪化します。ローカルハードウェア上で動作する小型言語モデル(SLM)は、これらの機能を縮小または省略することが多いです。画像や映像生成もノートPCでは実行しにくく、最近まで高性能デスクトップPC向けでした。
これはAI導入への障壁となります。ローカルでAIモデルを動かすには、ノートPC内のハードウェアとソフトウェアをアップグレードする必要があります。これがノートPC設計の転換点となり、エンジニアは過去の残存構造を捨て、PCをゼロから再設計する機会を得るのです。
NPUsが登場
PCのAI性能を向上させる最も明白な方法は、CPUと並行して強力なNPUを配置することです。NPUは、ほとんどのAIモデルが依存する行列積計算に特化したチップです。GPUはすでに高度に並列化されたタスクに優れているため、AIデータセンターではGPUが選択されてきました。
NPUsはこれらの行列演算専用設計であり、3Dグラフィックスなど他のタスクには向かないため、GPUよりも省電力です。これは携帯型消費者機器でAIを加速する上で重要です。また、NPUは低精度演算(fp16やint8など)に対してGPUよりも優れたサポートを提供します。AIモデルは、計算とメモリ要件を削減するために低精度演算を多用しています。
「NPUでは、全構造がテンソル(多次元配列)のデータ型に合わせて設計されています」とマイクロソフトのテクニカルフェロー・スティーブン・バシェは語ります。「NPUsはそのワークロードに対して非常に専門化されているため、CPUが1秒間に3[兆]演算(TOPS)を処理できるところから、QualcommのSnapdragon Xチップに搭載されたNPUではMicrosoftのCopilot+機能を動かすことができます。」これには、AIでユーザー使用履歴の検索可能なタイムラインを作成するWindows Recallや、画像から背景や特定オブジェクトを除去するWindows PhotosのGenerative eraseが含まれます。
Qualcommは最初にWindowsノートPC向けNPUを提供したといえますが、その結果NPUsのTOPS競争(AMD・Intelも参入)を巻き起こしました。2023年、Snapdragon X以前では、AMDチップに搭載されたNPUは10TOPS程度でしたが、現在ではAMDとIntelのNPUはSnapdragonに対抗できる40〜50TOPSを実現しています。
デルのPro Max Plus AI PCはQualcomm AI 100 NPUを搭載し、最大350TOPSという性能を誇ります。これは数年前の最高性能NPUsと比べて35倍も速いです。このように、千TOPS規模のNPUが数年で実現できることを示しています。
数億パラメータ規模の最先端モデルを動かすには何TOPSが必要でしょう?正確な数字は不明ですが、現在の消費者ハードウェアでは実行不可能です。実際に試験することもできません。しかし、我々はその能力に近いところまで到達していると考えられます。また、LLMだけがNPUのユースケースではありません。QualcommのAI・機械学習プロダクトマネジメント責任者ヴィーネシュ・スキューマールは、「画像生成や操作はNPUまたはハイエンドGPUなしには難しいタスクの一例です」と述べています。
バランス良く設計されたチップでAIをさらに強化
高速NPUsは1秒あたり多くのトークンを処理し、AIモデル使用時により速く滑らかな体験を提供します。しかし、ローカルハードウェア上でAIを動かすには単に大きなNPUを投入するだけでは不十分です。
AMDのコーポレートフェロー・デザインエンジニア・マイク・クラークは、「PC向けAIアクセラレーションチップを設計する企業は、NPUだけに賭けるべきではない」と指摘します。これはAIがPCが想定されるタスクの代替ではなく追加であるためです。
「低レイテンシ、小さなデータ型、分岐コード—従来のワークロードを得意にする必要があります。それらを放棄せずにAIも得意にしたい」とクラークは語ります。彼はまた「CPUがAIワークロード用のデータ準備に使われるため、CPU不足はボトルネックになる可能性がある」と指摘しました。
NPUsはGPUとも競合・協調しなければなりません。PCでは、高性能AMDやNvidia GPUと大容量メモリを持つ構成が一般的です。例えば、Nvidia GeForce RTX 5090は3,352TOPSのAI性能を記載していますが、Qualcomm AI 100に対して圧倒的に上回ります。
ただし大きな欠点があります。それは電力消費です。RTX 5090は自体で最大575Wを消費するよう設計されており、ノートPC用モバイル版でも175Wまで達します。これはラップトップのバッテリーをすぐに消耗させます。
IntelのクライアントAIプロダクトマネージャー・サイモン・ングは「NPUはより低電力で効率的に動作する」と述べ、AMDのRyzen AI向けプロダクトマネジメントディレクター・ラクシ アニグンダも同意します。彼はAIワークロードが他の高負荷タスク(映像エンコードやレンダリング)より長時間実行される傾向にあるため、低電力動作が特に重要だと付け加えました。
「AIパーソナルアシスタントなどを常時稼働させる場合、長時間動かす必要があります」と彼は語ります。
こうした競合する優先順位の中で、チップ設計者やシステムデザイナーは、AI PC(特にバッテリー駆動のノートPC)におけるシリコンと電力の配分を慎重に決定しなければなりません。
「薄く軽いフォーマットで要件を満たすために、SoC設計は非常に意図的に行う必要があります」とAMDのシニアフェロー・デザインエンジニア・マヘッシュ・スブラモニーは語ります。
AIではメモリが鍵
NPUとCPUやGPUを並列配置すると、平均的なPCのAIタスク性能は向上します。しかし、それだけがAIによってもたらされる革命的変化ではありません。もう一つ、もっと根本的なものがあります:メモリです。
現代のPCは25年以上前に決定された分離型メモリアーキテクチャを採用しています。バス帯域幅の制限からGPU(および高帯域幅メモリが必要な他のカード)はシステムメモリへのアクセスを避け、専用メモリに依存するようになりました。その結果、強力なPCは「システムメモリ」と「グラフィックスメモリ」の2つのプールを持ち、独立して動作します。
これはAIにとって問題です。モデルは大量のメモリを必要とし、全体が一度にメモリにロードされなければなりません。レガシーPCアーキテクチャ(システムとGPUでメモリを分離)はこの要件と対立します。
「ディスクリートGPUを持つ場合、別個のメモリサブシステムが付随しています」とAMDの副社長兼CTOジョー・マクリは説明しました。「CPUとGPU間でデータ共有したい場合、まずメモリから取り出しPCI Expressバス越しに転送し、GPUメモリへ入れ、処理を行った後すべて戻します。」
マクリはこれが電力消費を増加させ、ユーザー体験を鈍化させると述べました。
解決策は統合型メモリアーキテクチャです。全システムリソースが高速に相互接続されたメモリバス上の同一プールへアクセスできるようにします。Apple社の社内チップは統合メモリアーキテクチャを最もよく知られた例ですが、現代PCではほとんど見られません。
AMDはノートPC領域でこれに追随しています。同社はCES 2025でハイエンドノート向けAPUライン「Ryzen AI Max」を発表しました。Ryzen AI MaxはRyzen CPUコアをRadeonブランドGPUコアと同一シリコン上に配置し、50TOPSのNPUも搭載した統合メモリアーキテクチャを採用しています。このためCPU・GPU・NPUは最大128GBのシステムメモリを共有できます。AMDはこの戦略が消費者PCでのメモリと性能管理に理想的だと考えています。
「すべてを単一熱ヘッド下に統合することで、全電力領域を管理しやすくなる」とスブラモニーは語ります。
Ryzen AI Maxは既にHP Zbook Ultra G1a、Asus ROG Flow Z13など数台のノートPCで利用可能です。また、Framework DesktopやGMKtec EVO-X2 AI mini PCといった知名度の低いブランドのミニデスクトップも動作しています。
IntelとNvidiaも同様に参加しますが、予想外の形で。9月、かつてのライバルはインテルCPUコアとNvidia GPUコアを組み合わせたチップを販売する提携を発表しました。詳細は未公開ですが、このチップアーキテクチャには統合メモリとインテルNPUが含まれる可能性があります。
こうしたチップは普及すればPCアーキテクチャを劇的に変えるでしょう。従来よりも大きなメモリプールへのアクセスが可能になり、CPU・GPU・NPUを1つのシリコンに統合できるため、ハードウェアが最適に活用されます。この点はAIワークロードを瞬時に最適ハードウェアへ振り分けやすくします。
しかし同時にPCのアップグレードと修理を難しくします。統合メモリアーキテクチャを持つチップは、CPU・GPU・NPU・メモリを1枚の不可分パッケージにまとめるためです。従来のPCでは、CPU・GPU・メモリを個別に交換できました。
MicrosoftがAIでWindowsを書き直す
macOSは魅力的で直感的なUIで評価されており、Apple Siliconチップは統合メモリアーキテクチャを備えています。しかしAppleのGPUはPCで使われる最高級GPUに比べ性能が劣り、開発者向けAIツールも普及度が低いです。
Aigency AmsterdamというAI中心マーケティング会社の共同創業者クリッシー・クレーマーズは、今年初めに「macOSを好むものの、当社のエージェンシーではMacコンピュータでAI作業を行っていない」と語りました。「私のMacデスクトップGPUは[我々のAIワークフロー]をほとんど処理できず、古いPCでもありません。ここが追いついてくれると嬉しいです」と彼女は述べました。
これにより、PC上でAIを実行する際の代替選択肢として競合他社が浮上します。Microsoftはそのことを知っています。
マイクロソフトは2024年Build開発者会議でCopilot+ PCを発表しました。発表には問題が伴いましたが、特にWindows Recall(PC上の何でも検索できるAI機能)のリリース失敗が目立ちました。それでも、発表はPC業界をNPUsへと押し進める成功でした。AMD・Intelも2024年末にNPUアップグレード付きノートチップを導入しました。
Build 2025ではMicrosoftはWindows AI Foundry Local(ローカル用AIファウンドリ)も公開しました。これは「ランタイムスタック」で、Alibaba、DeepSeek、Meta、Mistral AI、Nvidia、OpenAI、Stability AI、xAIなど数千のオープンソースLLMをカタログ化しています。
モデルが選択されアプリに実装されると、Windowsはローカルハードウェア上でAIタスクを実行します。Windows MLランタイムが自動的にCPU・GPU・NPUなど最適なハードウェアへタスクを振り分けます。
AI Foundryはまた、ローカル知識検索や低階層適応(LoRA)といったAPIも提供し、開発者がAIモデルの参照データや応答方法をカスタマイズできるようにします。さらにオンデバイスセマンティック検索・リトリーバル強化生成にも対応し、特定情報への参照が可能なAIツール構築を支援します。
「[AI Foundry]はスマートさの実現です。利用可能なすべてのプロセッサを効率的に活用し、CPU・NPU間でワークロードを優先順位付けすることが重要です。改善の余地と成長の機会は多い」とバシェは語ります。
PCでAGIへ向かう
AI対応PCハードウェアの急速な進化は、単なる段階的アップグレードではなく、PC業界全体に変革をもたらす兆しです。80年代・90年代・2000年代初頭に設計されたPCアーキテクチャの最後の痕跡を消し去る方向へ進んでいます。
強力化するNPU、統合メモリアーキテクチャ、洗練されたソフトウェア最適化技術が結集され、ローカルとクラウドベースAI間の性能ギャップを驚くほど速く埋めています。バシェ氏もその進展に驚愕しています。また、チップ設計者は統合メモリサブシステムを備えたより一体化したチップへと向かい、CPU・GPU・NPUを単一シリコン上に配置する方向で進むでしょう。ハイエンドノートPC・デスクトップでも同様です。
AMDのスブラモニー氏は「ユーザーが手に持つミニワークステーションとしてAIワークロードや高計算タスクをこなせるようにしたい」と述べ、クラウドへ頼らずに済む未来を描いています。この変化は一朝一夕には実現しませんが、多くのPC業界関係者が日常的に使うコンピュータをAI最適化で再設計することにコミットしています。
Qualcommのヴィーネシュ・スキューマール氏まで、データセンターと同様に手頃な消費者ノートPCもAGIを目指すべきだと考えています。
「私はQualcommデバイス上で完全な汎用人工知能(AGI)を動かしたい」と彼は語ります。「それが我々の推進目標です。」