クラウドを借りるのではなく、自分で所有してください。

2026/02/05 14:50

クラウドを借りるのではなく、自分で所有してください。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:


Summary

Comma.aiは、完全に社内で自動運転研究を実施するオンプレミスデータセンターを構築し、同等のクラウド容量に対して2500万ドル以上の資本支出を約500万ドルに削減しました。施設は約450kW(サンディエゴの電力単価40¢/kWhで年間約540kドル)を消費し、外気冷却と48インチの吸入/排気ファン、および湿度を45%以下に保つ再循環ファンを使用しています。

コンピューティングは75台の社内TinyBox Proマシン(各2CPU+8GPU)に分散された600GPUで構成され、Dell R630/R730ストレージサーバーが約4PBのSSDを保持します。ネットワークは3つの100Gbps Z9264Fスイッチと2つのInfiniBandスイッチによって処理され、TinyBoxグループ間でAll‑Reduceトレーニングを可能にしています。

ストレージアーキテクチャには、原始的な運転データ用の3PB非冗長「mkv」アレイ(約1TB/s読み取り速度)、約300TBのキャッシュアレイ、およびモデルとメトリック用の冗長mkvアレイが含まれます。ジョブオーケストレーションはSlurmで行われ、分散トレーニングはPyTorchのtorch.distributed FSDPをInfiniBand上で使用します。カスタム実験追跡サービス(「reporter」)はモデル重み(UUID)とメトリックをmkvストレージに保存し、軽量スケジューラ「miniray」はRedisでサポートされるアイドルマシン上で任意のPythonコードを実行し、Tritonサーバーによる推論を支援します。

全コードベースは3GB未満のモノレポとして存在し、NFSキャッシュ経由ですべてのワーカーにクローンされます。UVはジョブごとに約2秒でパッケージを同期します。オンポリシー運転モデルトレーニングは実際の走行中にデータを生成し、単一のシェルスクリプトがフルパイプラインをトリガーすることでオーケストレーションされます。このインフラは数名のエンジニアと技術者だけで維持されており、Comma.aiがクラウド依存よりも自己完結性に重きを置いていることを示しています。

本文

最近では、自分のデータセンターを持つために十兆ドル相当の偽造通貨や政治家とのランチが必要になっているようです。助けになるかもしれませんが、必須ではありません。コマ(comma.ai)では数年前から自社でデータセンターを運用しています。モデル学習・メトリクス・データはすべて自社オフィスにある独自の施設内にあります。自分だけのデータセンターを持つことはかっこいいものですし、この記事では私たちがどのように運用しているかをご紹介しますので、皆さんもぜひ参考にしてください。


私たちのデータセンター ― なぜクラウドを使わないのか?

ビジネスがコンピューティングに依存し、その計算をクラウドで行う場合、プロバイダーへの信頼は大きくなります。クラウド会社はオンボーディングをとても簡単にしますが、オフボーディングは非常に難しいです。注意深くないと、高コストへスリープウォークで入り込んでしまい、抜け出せなくなる恐れがあります。
自分の運命をコントロールしたいなら、自前で計算を行う必要があります。

自己依存は素晴らしいことですが、他にもメリットがあります:

  • エンジニアリングへのインスピレーション – データセンターを維持することで、会社のAPIや請求システムをマスターするだけでなく、実際の問題(ワット数・ビット数・FLOPs)に対処しなければならなくなります。
  • エンジニアへのインセンティブ – クラウドでは改善は単純に予算を増やせば済みますが、オンプレミスの計算ではコードを高速化したり根本的な問題を解決することで最速で成果が得られます。
  • コスト優位性 – データセンターを所有する方がレンタルよりもはるかに安くなることがあります。コマのケースでは、独自データセンターに約 5 百万ドル($5 M)投資しましたが、同じ規模でクラウドを利用すれば推定 25 百万ドル以上になると見積もられています。

必要なものは何か?

私たちのデータセンターはシンプルで、数名のエンジニアと技術者だけで構築されました。以下の実装例は参考情報として役立つはずですが、ご自身のニーズに合わせて調整してください。

電源

  • 容量:最大約 450 kW
  • 費用:サンディエゴでは電気代が $0.40/kWh(世界平均の3倍)を超えます。2025年に電力コストで $540,112 を支払いました。
  • 将来計画:自家発電を行う予定です(詳細は別記事で)。

冷却

  • 戦略:サンディエゴの穏やかな気候を活かし、純粋な外部空気冷却。
  • 機器:ダブル48インチインテークファンとダブル48インチ排気ファン。
  • 湿度管理:リサーキュレーティングファンが熱い排気を取り込み、再混合します。1台のサーバーはPIDループで温度と湿度(RH < 45%)を最適化しています。

サーバー

  • 計算:600 GPU を 75 台の TinyBox Pro に搭載(各台 2 CPU + 8 GPU)。社内開発でコスト効果が高く、修理も容易です。
  • ストレージ:Dell R630/R730 ラックに SSD を装備し、合計約 4 PB。冗長性はありません。各ノードはネットワーク帯域幅を飽和させます(80 TB チャンクで最大 20 Gbps)。
  • その他サービス:ルーター、気候制御装置、データ取り込みマシン、ストレージマスターサーバー、メトリクスサーバー、Redis サーバーなど。

ネットワーク

  • メインイーサネットには 3 台の 100 Gbps Z9264F スイッチを使用。
  • 2 台の Infiniband スイッチで TinyBox Pro グループ間を相互接続し、全削減(all‑reduce)トレーニングを実現します。

ソフトウェアスタック

この規模ではサービスが 99 % の稼働時間を達成するために冗長性は必要ありません。すべてのサービスで単一マスターを使用し、管理を簡素化しています。

設定

  • すべてのサーバーは PXE ブートで Ubuntu を取得し、Salt で管理します。
  • 分散ストレージ
    mkv
    (minikeyvalue)を採用。
    • メインアレイ:3 PB の非冗長 – 約 1 TB/s の読み取り速度。
    • キャッシュアレイ:約 300 TB の非冗長で中間結果を保持。
    • 冗長アレイは学習済みモデルとメトリクスを格納し、各アレイには独自のマスターサーバーがあります。

ワークロード管理

  • Slurm が計算ノードとジョブを管理し、PyTorch トレーニングや Miniray ワーカーをスケジューリングします。
  • 分散トレーニング(PyTorch)
    torch.distributed
    + FSDP を使用。2 つの独立したトレーニングパーティションが Infiniband 経由で接続されます。
  • 実験追跡:WandB/TensorBoard に似たカスタムサービスを構築。ダッシュボードでメトリクスとレポートを表示します。モデル重みは mkv アレイに UUID 付きで保存し、簡単にダウンロードできます。

分散計算(Miniray)

  • 軽量オープンソーススケジューラが任意の Python コードをアイドルマシン上で実行し、並列タスク実行を簡素化。
  • Slurm がアイドルマシンを Miniray ワーカーとしてスケジュールし、タスクは中央 Redis サーバー経由で調整されます。
  • Miniray ワーカーは Triton 推論サーバーを起動してモデル推論のダイナミックバッチングを行います。

コードリポジトリ

  • すべてのコードは 3 GB 未満のモノレポにあり、ワークステーションでクローンされます。
  • トレーニングや Miniray ジョブが開始するとき、ローカルモノレポは共有 NFS にキャッシュされ、すべてのワーカー間でコードと Python パッケージを揃えます。同期には約 2 秒かかります。

全体像

最も複雑な操作は「オンポリシー」ドライビングモデルのトレーニングです。この運用では、最新のモデル重みでシミュレーション走行を実行しながらトレーニングデータを生成します。単一コマンドでインフラ全体をオーケストレーションできます。

./training/train.sh \
  N=4 \
  partition=tbox2 \
  trainer=mlsimdriving \
  dataset=/home/batman/xx/datasets/lists/train_500k_20250717.txt \
  vision_model=8d4e28c7-7078-4caf-ac7d-d0e41255c3d4/500 \
  data.shuffle_size=125k \
  optim.scheduler=COSINE \
  bs=4

これにより、上記で説明したコンピューティング・ストレージ・ネットワーク・ソフトウェアスタックを活用したフルトレーニングパイプラインが起動します。


こんなことに興味がありますか?
もしこの内容が刺激的に感じられたら、ぜひ自分や会社のためにデータセンターを構築してみてください!また、一緒に働くことも可能です。

Harald Schäfer – CTO @ comma.ai

同じ日のほかのニュース

一覧に戻る →

2026/02/06 2:38

クラウド・オーパス 4.6 (Claude Opus 4.6)

## Japanese Translation: **改善された要約** Claude Opus 4.6 は **ベータ版 1 M‑トークンコンテキストウィンドウ** を備えてリリースされ、最大で **128 k トークン** を出力できます。GDPval‑AA においては GPT‑5.2 より約 **144 Elo** の優位を示し、前モデルよりも **190 Elo ポイント** で上回っています。金融・法務・その他の高価値タスクで卓越した性能を発揮しています。**Terminal‑Bench 2.0** ではすべてのフロンティアモデルを凌駕し、**Humanity’s Last Exam** と **BrowseComp** においても同様です。サイバーセキュリティ分野では Opus 4.6 が Claude 4.5 を対象とした9つのサブエージェントと100件を超えるツール呼び出しで、**38/40 の盲検ランキング** で勝利しています。長期コンテキスト性能は **MRCR v2 の 1 M‑トークンニードルインハイスタックベンチマークで 76 %** を達成し、Sonnet 4.5 の **18.5 %** を大幅に上回っています。安全性監査では最近の Claude リリース中で最も低い過剰拒否率を示し、整合性の欠如した行動が増加している兆候はありません。 新しい API 機能には **適応的思考、4 つの努力レベル(低〜最大)、コンテキスト圧縮(ベータ)** が含まれ、拡張されたコンテキスト機能も提供されます。製品更新では **Claude Code におけるエージェントチーム**、長時間にわたるマルチステップ変更のための強化された **Excel 統合**、ブランド一貫性を保つレイアウト/フォント読み取り機能を備えた PowerPoint 研究プレビューが追加されました。モデルの計画とサブエージェント調整により、複雑なコーディングタスクや法的推論(BigLaw Bench スコア 90.2 %)が可能になり、以前のモデルと比べて大規模コードベース移行を半分に短縮します。価格は標準使用で **1M トークンあたり 5 USD / 25 USD** のままで、200k トークン以上の入力/出力の場合はプレミアムレート(10 USD / 37.50 USD)が適用されます。Opus 4.6 は **claude.ai、Claude API、および主要クラウドプラットフォーム(AWS、GCP、Azure)** で今日から利用可能です。すべての安全性と能力評価は **Claude Opus 4.6 システムカード** に記載されています。

2026/02/06 6:24

2026年です。PostgreSQLだけで十分です。

## Japanese Translation: (余計な推測を除外し、核心となる事実のみを明確に保つ) **概要** このページは訪問者にティガーデータニュースレターの購読を促しています。購読手続きを行うことで、ユーザーは自動的にティガーデータのプライバシーポリシーを読み、同意したことを認めます―購読そのものがポリシーへの承諾として機能します。© 2026 の著作権表示は現在年を示し、所有者欄にタイムスケール社(Tiger Data 名義)が記載されていることで所有権を明確化しています。購読者には今後のニュースレターが送付され、製品やサービスの更新情報が含まれる可能性があります。

2026/02/06 4:04

**私のAI導入ジャーニー**

## Japanese Translation: (主要なポイントをすべて取り込み、根拠のない推測を避ける) --- ## 要約 この記事では、ソフトウェア開発にAIエージェントを導入するための**6つの実践的ワークフロー**を示し、派手なデモよりも実際の生産性向上を重視しています。 1. **汎用チャットインターフェースを拒否する** – ChatGPTやGeminiなどを使うことはやめ、人間による継続的な修正が必要になるためです。 2. **タスク固有のエージェントを構築する**。ファイルを読み取り、プログラムを実行し、HTTPリクエストを送信できるようにします。各エージェントの限界を学ぶため、手作業で同じタスクを2回重複して実行します。 3. **毎日の最後の30分間にエージェントを動かす**。深いリサーチや並列アイデア探索、GitHub CLI を使った問題/PR のトリアージを行い、翌朝には「ウォームスタート」を実現します。 4. **高確信タスクはエージェントに委譲し、著者は他の手作業に集中する**。通知を無効化してコストのかかるコンテキストスイッチを回避します。 5. **ハーネス(“harness engineering”)を設計する**。暗黙的プロンプト(例:AGENTS.md での更新)やスクリプトツールを追加し、エージェントが自己検証できるようにしてミスを減らします。 6. **バックグラウンドエージェントを維持する**。1日あたり10–20 % の時間で動作させ、GPT‑5.2‑Codex などのより深いモデルを長文変更時にのみ使用し、測定可能な価値がある場合に限定します。 著者はAIについて計測的かつ実践的な見方を強調しています。ワークフロー効率を優先し、ジュニア開発者のスキル低下を避け、企業関係や説得力のない情報を提供せずに個人的洞察として共有することを述べています。

クラウドを借りるのではなく、自分で所有してください。 | そっか~ニュース