
2026/05/19 4:33
私が購入した総額 4 万 8,000 ドルの GPU サーバー、この投資額は適切だったでしょうか?
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
2024年、エンジニアは安定した FAANG 社の職位を辞めて独立研究家となり、合計 48,000 米ドルの費用で NVIDIA RTX 6000 Ada GPU 6枚搭載のカスタムサーバー「Grumbl」を構築した。このハードウェア選定は、A100 および H100 の評価を経て、優れた FP8 サポートと推論性能に基づいて行われた。初期のアパート内での導入では電力制約により、別々の回路に接続する二重の電源供給およびプロフェッショナルなビルダーが必要となり、その後設備は著者の親戚の家の地下室に移設され、そこで電気インフラが適切にアップグレードされた。効率性を追跡するため、カスタムスクリプトが毎分 GPU アクティビティと電力消費量を記録し、コスト比較において長期的なクラウド予約プランは除外した。2026年3月13日までに、同様の計算リソースを賃貸するケースと比較して 17,000 米ドル以上の節約を生み出し、初期投資が回収された後、平均利用率が 76% から 85% の間であれば毎日 90〜105 米ドルの節約をもたらしている。保守過程では PCIe リザースまたは大規模故障を疑い、ダウンタイムが発生した三つの期間があり、著者は Nathan Odle のリザース調査といったコミュニティのリソースに依存することとなった。カスタムマザーボードの GPU インターコネクトの低速は、GPU 間でモデルを分割した場合の適性を制限する(ただし並列小規模実験には問題ない)が、将来の計画ではスケーラビリティのため標準データセンターサーバーのコロケーションセンターへの移行傾向がある。このケースは、独立したビルダーが作業を少なくとも 2 ヶ月加速できることを示しており、電力および論理的な課題を効果的に管理することにより(従来の賃貸者保険が却下された後、専門的な事業用保険を確保するなど)、オンプレミス型ハイエンドビルドはクラウドインスタンスに対する財政的に実行可能な代替手段である。
本文
2024 年に、FAANG 社の仕事を辞め、独立研究者として活動することを選びました。そのためには GPU が不可欠だったため、「grumbl」と名づけた、6 個の NVIDIA H100 アダージャンプ世代搭載サーバーを自作しました。
このブログでは、サーバーの構築内容や直面した課題をご紹介するとともに、「自作する価値があったのか?それともクラウド上の GPU をレンタルすべきだったのか?」という疑問にお答えします。
(ちなみに「grumbl」という名前の由来は、おそらく「GPUs」という言葉を正確に綴れないからだと推測されます。)
GPU は投資として捉えるべきか
このサーバーは合計で約 48,000 ドルかかりましたが、一見高価に見えても、職を辞して収入を失うことによる損失と比較すれば、実際にははるかに手頃な選択肢でした。収入が止まる中で、より高性能な GPU を持つことで研究工作を、小型マシンを使った場合よりも 2 ヶ月早く成功に導けるなら、その分だけコスト対効果が大きく、投資として意味があります。そのため、私が持ち家のアパートで運用できる最も強力なサーバーを購入することになりました。
GPU の選び方
Tim Dettmers 氏による「GPU を選ぶ際のガイド」が非常に参考になりました。それに基づき、候補を A100、H100、および RTX 6000 Ada の 3 つに絞り込みました。A100 は FP8 サポートがなく、最新 GPU に比べて推論性能も劣るため、私の研究(特に強化学習)で主に推論作業を行なうことを考慮すると、比較対象は H100 と RTX 6000 Ada となりました。価格対性能比を踏まえた上で、最終的に RTX 6000 Ada を採用しました。
電力制約
私はアパートに住んでおり、データセンター用サーバーを扱うような標準的な電気回路への昇格が認められていません。1 回の circuits(電力配線)で 6 グプを搭載するには電力が不足するため、電源ユニットを 2 基用意し、それぞれ異なる回線のコンセントに接続する方式を採用しました。
Google で「PC を複数のコンセントに接続する方法」と検索すると、「やめてください!火災の原因になります」といった警報が多数表示されます。実際、自作では危険すぎると考え、プロの PC ブィルダーに依頼して安全確認を受けました。これは全工程を自分でやるよりコストがかかりますが、間違ったやり方でアパートを燃やすリスクに比べれば遥かに合理的です。
皮肉なことに、アパートの電力制限を前提として設計したサーバー全体計画を実行後、結局 grumbl を親戚の地下室へ移設し、そこで回路 upgrade が可能な環境を整えることになりました。
自作 GPU サーバーか?それともクラウド利用か
自社で購入すべきか、クラウドプロバイダーでレンタルすべきかは、使用量とクラウドレンタル費用を比較することで判断しました。
2024 年時点で、GPU レンタル市場価格に基づいて計算すると、クラウドとのコストが拮抗するのは利用率が約 85% 近く維持されるほぼ 1 ヶ月間が必要でした。これは達成可能ではありますが、本格的な分析のためには電気代や、より高性能 GPU が登場するに伴うレンタル単価の低下などの変動要因も考慮する必要があります。
念のため、各 GPU の使用状況を 1 分単位でログ記録するスクリプトを作成し、さらに消費電力(ワット数)も計測して電気代を正確に算出しました。
今回の分析ではオンデマンド価格のみを対象としています。6 ヶ月〜12 ヶ月の長期予約プランもありますが、購入時のサーバーコストとあまり差がないため、かつ GPU を自社で保有できる利点を考えると、私はそうしたプランには関心がありませんでした。
モニタを接続しないまま grumbl を運用するのはもったいないでしょう。最大 24 台のモニターに対応するポートが搭載されていますし、自作ミニ Vegas スフィアも作れるかもしれませんね。
GPU 使用状況の時系列グラフ
GPU 使用量を測定するために、各 GPU で「毎日少なくとも一度は使用された時間数」をカウントしました。クラウドレンタルとの比較として公平性のある指標だと考えます(短時間のアイドル時でもサーバーを再起動しないため)。
この方法はクラウド利用にはやや有利な評価となります。なぜなら、仮に 1 グプだけアイドル状態であっても、他の GPU は引き続き稼働しているにもかかわらず、サーバー全体を停止しないからです。実際、複数の実験を並行して実行していた際、片方が完了または失敗しても残りは継続しており、レンタル時でも同様にサーバーを停止しなかったでしょう。
※この指標は「GPU の利用効率」ではなく「実際の使用量」を測るものであり、たとえ 10% の利用度であってもその時間は「稼働」としてカウントします。(クラウド上のコード実行も同様におそらく非効率的でした)
以下に使用時間推移のグラフを示します:
サーバーは保守作業のために計 3 回停止しました。これは非常にストレスでした。「単なる PCIe ライザーの故障なのか」「何らかの原因で全てが破損して GPU が焼けてしまったのか」——何が起きたのか全くわからない状況でした。
2025 年 6 月以降の使用量は明確に増加しています。それ以前は開発時間と実験時間が同規模であり、実験間の準備期間でダウンタイムが多発していましたが、6 月以降はある特定プロジェクトにより需要が高まり、ほとんどの GPU が継続的に実験を走らせていました。開発用として 1〜2 つの GPU 程度を留めておいたのみです。
グラフから、全体的な平均使用率は約 76% です。2025 年 1 月 1 日以降の利用実績では、85% に達しています。正直言って、これは少し物足りません。実験は 24 時間 365 日を通じて実行しており、完了した瞬間から次の実験が待機リストで並んでいるはずです。当初予想していたように「95% 以上」という利用率にはなかなかなかったのが残念です。
最終的な金銭計算
節約効果を算出するためには、まず各日のレンタル単価をかけ合わせ、その日使用した GPU の時間数を掛けて合計します。歴史的なクラウドプロバイダーの API ログが入手できないため、オンライン上のタイムスタンプ付き情報をもとに過去の価格を推計しました。
電力消費記録から算出した電気代は約 3,000 ドル(月額換算で約 125 ドル)でした。
これらを総合すると、2026 年 3 月 13 日時点で、同等の計算資源をクラウドで借りた場合の費用は約 68,000 ドルとなり、私はすでに 17,000 ドルを節約していることになります。
現在では GPU が自己完結しており、現在の市場レートに照らせば、これ以降も毎日 90〜105 ドルの節約を実現しています。
より本質的な最終計算
私がこのサーバーを購入した目的は単なるコスト削減ではなく、「何か面白いものを築く」ことでした。ハイリスク・ハイリターンな実験を多数試みましたが、失敗することも多かったです。しかし今はようやく良い成果を手に入れることができました。LLM の重大な課題に挑むことに成功し、次週に公開する予定です。果たしてそれは画期的な成果なのか、それともただの LLM による幻覚なのか、今しばらくお待ちください。(追記:リリースは大成功でした!40 万回以上の視聴数があり、複数の企業から技術利用の提案をいただきました。詳しくはこちらをご覧ください)
アドバイス・その他の注意点
自作の高機能サーバーに取り組む際は特に慎重に臨んでください。高額の失敗が簡単に発生します。私のアパートではデータセンター用の標準サーバーを電源配線アップグレードなしで導入できないと考えたため、2 台の電源ユニットを異なる回路に接続する必要がありました。その結果、GPU 間の通信が遅いマザーボードを選ばざるを得なくなり、多数の小規模実験を並列実行する用途には適していますが、複数の GPU に跨るモデルを実行するには不適切でした。
いくつかの故障は PCIe ライザーの問題が原因であり、Nathan Odle 氏によるライザー調査はデバッグに非常に役立ちました。
私はもともと経済的に余裕のない大学院生の生活様式をしており、このプロジェクトに向けて数年間蓄積してきました。こうした財政上の不確実なリスクを許容できる立場にいることは幸運ですが、全ての人が同じような機材を購入することを推奨するわけではありません。Google Colab のサブスクリプションや低価格クラウド GPU レンタル、あるいは小型の自作マシンでも素晴らしい成果を出すことは可能です。
「レンタル」か「所有」かのメンタリティの変化も大きいものです。レンタル時は各実験にコストがかかり、「本当に worthwhile なのか?」と自問する一方、所有しているときは「実験を走らせないことこそが損失」と感じるようになります。さらに、クラウドインスタンスの常時起動・停止の手間から解放されることも大きな利点です。
今回の分析では私の時間を考慮したコストは含まれていません。サーバーの構築や保守には多くの時間を要しました。
また、リズナー契約(賃貸者保険)では受理されず、事業用保険を別途契約する必要がありました。
もし再びこのようなプロジェクトを行うなら、自作カスタムビルドではなく、標準的なデータセンターサーバーを購入してコロケーションセンターにレンタルスペースを確保する方法を選ぶかもしれません。ただしそれだと、たまに「grumbl に挨拶に行く」といった小さな喜びを見失ってしまうでしょう。
ご質問・ご意見は?
X(旧 Twitter)で DM を送信いただくか、hello@rosmine.ai までメールでご連絡ください。
本プロジェクトを含む他の活動のサポーニングをありがとうございます。@algomancer