
2026/05/26 4:37
ノルウェーのHuaweiフラッシュストレージによる2ペタバイトとLLMトレーニング
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
ノルウェー国立図書館は、地元のノルウェー語に対する商用ソリューションの深刻な不足に対応するため、自らのデジタルアーカイブにのみ基づいて訓練された主権性の高い大規模言語モデルを起動する予定である。このプロジェクトは文化省によって推進され、IT 責任者マリウス・フスネス氏の率いるものであり、私企業の手に負えない著作権保護付き新聞への図書館特有の法的アクセスを活用して、約 60 ピタバイトのデジタル化された遺産(現在は 3-2-1 保存形式で保管されている)をこの AI に訓練している。
技術的なアーキテクチャでは、3 つの異なるシステムをオーケストレーションするものであり、初期処理段階には Nvidia DGX H200 クラスターと华为(Huawei)OceanStor Dorado フルフラッシュアレイ(高速フラッシュ容量 2 PB を提供)を用い、その後、最終的な訓練は国立スーパーコンピューター Sigma2 Olivia で行われる。主要なボトルネックは計算能力ではなく、データの品質、クリーニング、パイプラインのスループットであり、これは AI パイプラインの低遅延要求と大規模かつ高遅延の保存アーカイブとの間の遅延不一致によって複雑化している。さらに、使用制御のためのガバナンス枠組みの確立や標準的な評価ツールの利用という課題にも直面している。このイニシアチブにより、ノルウェーは外国のテクノロジー大手に依存せずに技術的未来を確保することができ、他の英語圏外における国々が主権性の高い AI 基盤を求めるためのモデルとして挙げられている戦略となっている。
本文
ノルウェー国立図書館が主導する主権性のあるノルウェー語 LLM 開発プロジェクトと华为 OceanStor の活用
プロジェクトの概要と意義
ノルウェー国立図書館は、地元のノルウェー語を理解し学習した大規模言語モデル(LLM)の開発を推進しています。そのための AI 学習データパイプラインには、計 2 ピタバイトの容量を持つ华为 OceanStor Dorado フラッシュストレージが活用されています。
- 発表者: ノルウェー国立図書館 IT プラットフォーム部長のマリオシュス・フスネス氏
- 発表場: パリで開催された「Huawei ID フォーラム 2026」
- 課題: 商業的な LLM プロバイダは地元のノルウェー語に特化したモデルをほとんど開発していないため、独自言語を持つ国は不利な立場にあります。
- グローバル規模で学習され、英語中心の LLM は、現地言語での歴史・ニュース・文化を理解できません。
背景:文化省からの委託とデータ収集
ノルウェー文化省は国立図書館に対し、主権性のある AI(LLM)の構築を委託しました。国内最大のデジタルコレクションを所蔵する同館には以下のリソースがあります。
- 所蔵コレクション: ノルウェー語の本、新聞、ウェブページなど。
- 収集手法: 法定納本制度に基づき、出版された書籍や放送コンテンツの複製を取得(書籍だけでなく文化的遺産全体を含みます)。
- 著作権合意: ノルウェー紙面との合意により、著作権のあるコンテンツを用いた LLM 学習が可能になりました。フスネス氏は「民間企業にはこの仕組みを持つ者は一人もいない」と述べています。
データ規模とアーカイブ構成
2005 年からのデジタル化実績があり、以下のデータ量を有しています。
- 独自データ: 約 20 ピタバイト(テキスト原稿、音声、動画像、静止画、ウェブコンテンツなど)。
- 保存形式: 3-2-1 バックアップ形式(コピー 3 部、メディアタイプ 2 種、オフサイト保存 1 か所)を採用し、合計約 60 ピタバイトのアーカイブを構築。
- 管理プロセス: OCR スキャン、メタデータ生成、オンライン API 確立など多岐にわたる処理を実施(大半はデジタルディスクおよびテープによる長期保存システムへ格納)。
フスネス氏によると、ボトルネックは計算能力ではなく、データの品質向上、クリーニング、パイプラインのスループット速度です。
システム構成とデータフロー
プロジェクトは主に以下の 2 つの処理段階に分かれています。
-
院内計算環境(準備・クリーニング)
- ハードウェア: Nvidia DGX H200 システム、384 コア CPU クラスタ。
- ストレージ: 合計 2 ピタバイトのフラッシュ容量を備えた複数の华为 OceanStor Dorado フルフラッシュアレイ。
- 役割: データパイプラインと学習準備段階での低遅延ストレージを実現します。
-
データパイプライン(処理・トレーニング)
- 処理内容: 取り込み、クリーニング、重複削除、形式正規化、検証、前処理など。
- 連携先: ノルウェー国立スーパーコンピュータである Sigma2 Olivia システム。
- 構成:448 グプ(GPU)、64,512 コアの CPU。
- ストレージ: 5.3 ピタバイトの Cray ClusterStor E1000 ストレージシステムを備えた HPE Cray Supercomputing EX システム。
- 役割: 処理が完了したデータを基に、実際の学習トレーニングを行います。
ストレージに関する課題と解決策
最大の課題は、「保存システム」と「AI パイプラインストレージ」のニーズの違いを両立させることです。
- 保存システム(60 ピタバイト):
- 要件:高速 I/O よりも耐久性とコスト効率。
- 特徴:高い読み取り遅延特性を持ち、稀にアクセスする用途向け。
- AI パイプラインストレージ(2 ピタバイト):
- 要件:高出力・低遅延・並列データ入出力の確保。
- 採用技術:华为 OceanStor Dorado フラッシュストレージによる解決。
フスネス氏は、ピタバイト規模のデータをアーカイブから AI パイプラインへ移動させる機会は産業界では極めて稀であり、チームはこれらの課題を独自に克服する必要があったと指摘しました。
現在の状況と今後の示唆
学習トレーニングは現在も継続中です。チームが学んでいる主な点は以下の通りです。
- 評価ツールの欠如:
- 主権性のあるノルウェー語 LLM を評価する標準ツールが存在しません。
- 複数の表記体系、方言、歴史的変遷を考慮するため、独自の評価ツールの開発中。
- ガバナンスの問題:
- 誰がアクセスを管理し、利用方針を決定するかは制度的・政治的な課題です。
- 簡単な解決策は存在しないため、慎重な対話が必要。
- オーケストレーションの難しさ:
- 保存アーカイブ、院内 AI 環境、国立 Sigma2 スーパーコンピュータの 3 つのシステムを円滑に連携させるプロジェクトはまだ完了していません。
結論:学びと教訓
このプロジェクトから得られた主要な教訓は以下の二点です。
- 市場の重要性: 华为ストレージが欧州市場において重要な役割を果たしているという事実。
- 専門知見の必要性: 主権性のある自国言語 LLM の開発に取り組むすべての国は、フスネス氏のような専門家の知見を借りて関連する複雑性を理解すべきです。
フスネス氏のメッセージ:
「ノルウェーは小さな国ですが、英語話者以外のあらゆる国が直面する問題——すなわち、あなたの言語、文化、歴史を反映した AI をどのように構築するかという課題——を解決しようとしています。」
彼はさらに言及しました。
「AI には『ビルダー』だけでなく、『守り人』が必要なのです」