
2025/12/21 2:49
大型 GPU は大きな PC を必要としません。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
Raspberry Pi 5はeGPUワークロードをサポートできますが、単一PCIe Gen 3レーン(約850 MB/s)のために、デスクトップPCで使用される≥16レーンGen 5スロットと比較して生のスループットが制限されます。Intel Core Ultra 265‑K PCとの並列テスト(Jellyfinメディアトランスコーディング:NVENCによる1080p/4K H.264/H.265ストリーム処理、GravityMark 3Dレンダリング、RTX 3060を用いた大規模言語モデル推論、およびマルチGPU拡張)では、Piのスループットは低かったものの、トークン毎ワットまたはスコア毎ワットの指標は高くなりました。アイドル電力は約4–5 Wであった一方、PC(GPUなし)は約30 Wだったため、Piのエネルギー優位性が示されました。
PiベースのeGPUセットアップ(16 GB CM5、IOボード、Minisforumドック、M.2‑to‑Oculinkアダプタ、USB‑SSD、1850 W PSU)は$350–$400で、同等のPCビルド($1,500–$2,000)より大幅に安価です。RTX 4090テストでは、大部分の大規模モデルワークロードがPC性能の約5 %以内に留まりつつ、依然として優れたエネルギー効率を提供しました。Dolphin PCIeインターコネクト(4070 Ti + A4000)を使用したデュアルGPU実験では、PiからGPUへのトラフィックで遅延が増加し、PCの単一大きなGPUよりもパフォーマンスが低下しました。マルチGPU拡張により、1枚のカードのVRAM(例:Qwen 3 30B ~18 GB)を超えるモデルを実行できましたが、依然として大型単一GPUより遅く、効率も劣ります。
総じて、Piは電力消費とコストが重要なニッチでGPU中心のワークロード(メディアサーバーやエッジAIデプロイメントなど)に優れていますが、高性能ゲーミングや計算タスクでは従来のPCが依然として有利です。これにより、コンポーネントメーカーはPi市場向けに専門的でエネルギー効率の高いGPUをターゲットする方針が形成されます。
本文
AMD、Intel、Nvidia のグラフィックカードを Raspberry Pi に接続して動かし始めてから、ずっと気になっていた疑問がありました。
「本当に意味はあるのだろうか?」
Pi には eGPU 接続用に PCIe Gen 3 の 1 レーン がしか提供されていません。
これはほとんどのデスクトップで見られる 16‑レーン Gen 5 スロット(8 GT/s 対 512 GT/s)よりもはるかに低速です。
しかし帯域幅だけがすべてではありません。
私が試した内容
| カテゴリ | テスト |
|---|---|
| メディアトランスコーディング | Jellyfin |
| GPU に依存するレンダリング | GravityMark |
| LLM/AI の性能 | Llama 3、Qwen3 など(プレフィルと推論) |
| マルチ GPU ワークロード | デュアル GPU 実行 (LLMs) |
PCIe Gen 4 外部スイッチと 3 スロットのバックプレーンを使い、2 台のカードを同時に走らせました。
TL;DR
- 多くの場合、Pi は十分に競争力があります。
- ピーク性能を 2–5 % 程度しか犠牲にしないなら、効率で勝つこともあります。
- RTX A5000 を 4 台搭載した単一 Pi が Llama 3‑70b を 11.83 トークン/秒で実行—最新 Intel サーバー(12 t/s)からわずか 2 % しか遜色ありません。
ハードウェアとコスト
| 構成 | 合計 |
|---|---|
| Raspberry Pi eGPU | $350–$400 |
| Intel PC | $1,500–$2,000 |
- Pi: 16 GB CM5 + IO ボード、MiniSforum eGPU ドック、M.2‑to‑Oculink アダプタ、USB SSD(1.8 TB)、850 W PSU。
- Intel: Core Ultra 265、ASUS ProArt マザーボード、Noctua クーラー、850 W PSU、64 GB DDR5、NVMe SSD。
電力消費: Pi のアイドルは約 4–5 W;PC は GPU を除くと約 30 W(アイドル時)。
ベンチマーク
1. Jellyfin – メディアトランスコーディング
- Pi の PCIe ボトルネック: ~850 MB/s ピーク、USB 3.0 SSD での持続的 300 MB/s。
- PC スループット: PCIe Gen 4 x4 SSD により >2 GB/s。
生データスループットは低いものの、Pi 上の Jellyfin は以下を円滑に処理しました:
- 1080p と 4K の H.264/H.265 ストリームを遅延なしで再生。
- 同時トランスコーディング(Dune 4K + Sneakers 1080p)もスムーズ。
結論: 一般家庭用メディアワークロードでは Pi でも十分。
大量のトランスコーディングが必要な場合は PC が勝ります。
2. GravityMark – GPU レンダリング
| カード | Pi スコア | PC スコア |
|---|---|---|
| RX 460 (Gen 3) | やや高い | 低い |
| AMD カード(その他) | 遅い | 少し速い |
- 効率: Pi は古い Gen 3 GPU でスコア/ワットが Intel システムより優位。
- 新しい Nvidia カード: PC だけでテスト(Pi ではまだディスプレイ出力なし)。
3. AI / LLM
| GPU | Pi トークン/s | PC トークン/s |
|---|---|---|
| AMD Radeon AI Pro R9700 | 劣る | 優れる |
| RX 460 | 妥当 | 遅い |
| RTX 3060 (12 GB) | 競合的 | tinyllama、llama 3.2‑3B でわずかに優位 |
| RTX 3080 Ti / 4070 Ti / A4000 / 4090 | ばらつきあり | 多くの場合高いが必ずしもではない |
- 効率: Pi は中規模モデル(例: Llama 2‑13B、Qwen3‑30B)でトークン/ワットが安定して優位。
- 大規模モデル (>30 GB): Pi で 2 台 GPU(Radeon AI Pro + RX 7900 XT)を組み合わせると 52 GB VRAM を実現し、パフォーマンスは遅くても許容範囲。
4. デュアル GPU テスト
Dolphin の PCIe インターコネクトを使用:
- 同一カード (RTX A5000 × 4): Pi はメモリプーリングのおかげで Intel PC にほぼ追いつく。
- 異なるカード (4070 + A4000 など): VRAM プールが無いので、Pi を経由する北南トラフィックにより性能低下。
- AMD ペア (Radeon AI Pro + RX 7900 XT): 52 GB VRAM。モデルによっては遅延や停止が発生。
結論: 複数 GPU は容量を増やすものの、単一大型 GPU の PC 側よりも遅く効率も劣ります。
最終的な考察
| 要素 | Pi eGPU | Intel PC |
|---|---|---|
| 生パフォーマンス | 多くの場合低い | 全体として高い |
| 効率 (トークン/W) | 中規模モデルで優位 | 大型 GPU ではわずかに優位 |
| 電力消費(アイドル) | 4–5 W | 約30 W |
| コスト | $350–$400 | $1,500–$2,000 |
-
Pi を選ぶ場面:
- 完全 GPU 主導の特定ニッチワークロード。
- 低電力消費が重要なケース。
- 予算制限がある場合。
-
PC を選ぶ場面:
- 最大の生パフォーマンスや簡易セットアップが必要。
- 複雑なマルチ GPU や高帯域幅ワークロード(大規模トランスコーディングファームなど)。
感謝
Micro Center による AMD Ryzen AI Pro R9700 と 850W PSU、Dolphin ICS が提供してくれた PCI Express ボードを使ったデュアル GPU テストに感謝します。