ノルウェーのHuaweiフラッシュストレージによる2ペタバイトとLLMトレーニング

2026/05/26 4:37

ノルウェーのHuaweiフラッシュストレージによる2ペタバイトとLLMトレーニング

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

ノルウェー国立図書館は、地元のノルウェー語に対する商用ソリューションの深刻な不足に対応するため、自らのデジタルアーカイブにのみ基づいて訓練された主権性の高い大規模言語モデルを起動する予定である。このプロジェクトは文化省によって推進され、IT 責任者マリウス・フスネス氏の率いるものであり、私企業の手に負えない著作権保護付き新聞への図書館特有の法的アクセスを活用して、約 60 ピタバイトのデジタル化された遺産(現在は 3-2-1 保存形式で保管されている)をこの AI に訓練している。

技術的なアーキテクチャでは、3 つの異なるシステムをオーケストレーションするものであり、初期処理段階には Nvidia DGX H200 クラスターと华为(Huawei)OceanStor Dorado フルフラッシュアレイ(高速フラッシュ容量 2 PB を提供)を用い、その後、最終的な訓練は国立スーパーコンピューター Sigma2 Olivia で行われる。主要なボトルネックは計算能力ではなく、データの品質、クリーニング、パイプラインのスループットであり、これは AI パイプラインの低遅延要求と大規模かつ高遅延の保存アーカイブとの間の遅延不一致によって複雑化している。さらに、使用制御のためのガバナンス枠組みの確立や標準的な評価ツールの利用という課題にも直面している。このイニシアチブにより、ノルウェーは外国のテクノロジー大手に依存せずに技術的未来を確保することができ、他の英語圏外における国々が主権性の高い AI 基盤を求めるためのモデルとして挙げられている戦略となっている。

本文

ノルウェー国立図書館が主導する主権性のあるノルウェー語 LLM 開発プロジェクトと华为 OceanStor の活用

プロジェクトの概要と意義

ノルウェー国立図書館は、地元のノルウェー語を理解し学習した大規模言語モデル(LLM)の開発を推進しています。そのための AI 学習データパイプラインには、計 2 ピタバイトの容量を持つ华为 OceanStor Dorado フラッシュストレージが活用されています。

  • 発表者: ノルウェー国立図書館 IT プラットフォーム部長のマリオシュス・フスネス氏
  • 発表場: パリで開催された「Huawei ID フォーラム 2026」
  • 課題: 商業的な LLM プロバイダは地元のノルウェー語に特化したモデルをほとんど開発していないため、独自言語を持つ国は不利な立場にあります。
    • グローバル規模で学習され、英語中心の LLM は、現地言語での歴史・ニュース・文化を理解できません。

背景:文化省からの委託とデータ収集

ノルウェー文化省は国立図書館に対し、主権性のある AI(LLM)の構築を委託しました。国内最大のデジタルコレクションを所蔵する同館には以下のリソースがあります。

  • 所蔵コレクション: ノルウェー語の本、新聞、ウェブページなど。
  • 収集手法: 法定納本制度に基づき、出版された書籍や放送コンテンツの複製を取得(書籍だけでなく文化的遺産全体を含みます)。
  • 著作権合意: ノルウェー紙面との合意により、著作権のあるコンテンツを用いた LLM 学習が可能になりました。フスネス氏は「民間企業にはこの仕組みを持つ者は一人もいない」と述べています。

データ規模とアーカイブ構成

2005 年からのデジタル化実績があり、以下のデータ量を有しています。

  • 独自データ: 約 20 ピタバイト(テキスト原稿、音声、動画像、静止画、ウェブコンテンツなど)。
  • 保存形式: 3-2-1 バックアップ形式(コピー 3 部、メディアタイプ 2 種、オフサイト保存 1 か所)を採用し、合計約 60 ピタバイトのアーカイブを構築。
  • 管理プロセス: OCR スキャン、メタデータ生成、オンライン API 確立など多岐にわたる処理を実施(大半はデジタルディスクおよびテープによる長期保存システムへ格納)。

フスネス氏によると、ボトルネックは計算能力ではなく、データの品質向上、クリーニング、パイプラインのスループット速度です。

システム構成とデータフロー

プロジェクトは主に以下の 2 つの処理段階に分かれています。

  1. 院内計算環境(準備・クリーニング)

    • ハードウェア: Nvidia DGX H200 システム、384 コア CPU クラスタ。
    • ストレージ: 合計 2 ピタバイトのフラッシュ容量を備えた複数の华为 OceanStor Dorado フルフラッシュアレイ
    • 役割: データパイプラインと学習準備段階での低遅延ストレージを実現します。
  2. データパイプライン(処理・トレーニング)

    • 処理内容: 取り込み、クリーニング、重複削除、形式正規化、検証、前処理など。
    • 連携先: ノルウェー国立スーパーコンピュータである Sigma2 Olivia システム
      • 構成:448 グプ(GPU)、64,512 コアの CPU。
      • ストレージ: 5.3 ピタバイトの Cray ClusterStor E1000 ストレージシステムを備えた HPE Cray Supercomputing EX システム。
    • 役割: 処理が完了したデータを基に、実際の学習トレーニングを行います。

ストレージに関する課題と解決策

最大の課題は、「保存システム」と「AI パイプラインストレージ」のニーズの違いを両立させることです。

  • 保存システム(60 ピタバイト):
    • 要件:高速 I/O よりも耐久性とコスト効率
    • 特徴:高い読み取り遅延特性を持ち、稀にアクセスする用途向け。
  • AI パイプラインストレージ(2 ピタバイト):
    • 要件:高出力・低遅延・並列データ入出力の確保。
    • 採用技術:华为 OceanStor Dorado フラッシュストレージによる解決。

フスネス氏は、ピタバイト規模のデータをアーカイブから AI パイプラインへ移動させる機会は産業界では極めて稀であり、チームはこれらの課題を独自に克服する必要があったと指摘しました。

現在の状況と今後の示唆

学習トレーニングは現在も継続中です。チームが学んでいる主な点は以下の通りです。

  • 評価ツールの欠如:
    • 主権性のあるノルウェー語 LLM を評価する標準ツールが存在しません。
    • 複数の表記体系、方言、歴史的変遷を考慮するため、独自の評価ツールの開発中
  • ガバナンスの問題:
    • 誰がアクセスを管理し、利用方針を決定するかは制度的・政治的な課題です。
    • 簡単な解決策は存在しないため、慎重な対話が必要。
  • オーケストレーションの難しさ:
    • 保存アーカイブ、院内 AI 環境、国立 Sigma2 スーパーコンピュータの 3 つのシステムを円滑に連携させるプロジェクトはまだ完了していません。

結論:学びと教訓

このプロジェクトから得られた主要な教訓は以下の二点です。

  1. 市場の重要性: 华为ストレージが欧州市場において重要な役割を果たしているという事実。
  2. 専門知見の必要性: 主権性のある自国言語 LLM の開発に取り組むすべての国は、フスネス氏のような専門家の知見を借りて関連する複雑性を理解すべきです。

フスネス氏のメッセージ:

「ノルウェーは小さな国ですが、英語話者以外のあらゆる国が直面する問題——すなわち、あなたの言語、文化、歴史を反映した AI をどのように構築するかという課題——を解決しようとしています。」

彼はさらに言及しました。

「AI には『ビルダー』だけでなく、『守り人』が必要なのです」

同じ日のほかのニュース

一覧に戻る →

2026/05/26 2:45

Exit IP VPN サーバー対策の展開

## 日本語訳: 2026 年 5 月 25 日付で、12 つの特定サーバー識別子への新しい緩和措置の適用を含む重要な運用上のアップデートが確認されました。この措置は、北米、ヨーロッパ、オセアニアを含む主要なグローバル地域にわたるインフラに影響します。影響を受けたサーバーは、以下の通り明示的にリストされています:au-mel-wg-402, au-syd-wg-001, ca-mtr-wg-302, de-fra-wg-103, fi-hel-wg-201, fr-par-wg-101, ie-dub-wg-101, no-osl-wg-101, se-sto-wg-208, us-dal-wg-701, us-lax-wg-002, us-nyc-wg-601, us-slc-wg-303。この実装は、内部での判断を踏まえたこれらのエンドポイントの状態における決定的な変化を表します。このアナウンスメントでは、識別子のリストとアップデートの日付のみが提供されており、脅威の具体的な性質、先行文脈、またはエンドユーザーおよび産業エンティティに対する直接的な影響について言及していません。したがって、この変更の原因や以降のタイムラインに関するさらなる説明はまだ発表されていません。 ## 原文: **Improved Summary:** Effective May 25, 2026, a significant operational update has been confirmed involving the application of a new mitigation to twelve specific server identifiers. This action impacts infrastructure across major global regions, including North America, Europe, and Oceania. The affected servers are explicitly listed as: au-mel-wg-402, au-syd-wg-001, ca-mtr-wg-302, de-fra-wg-103, fi-hel-wg-201, fr-par-wg-101, ie-dub-wg-101, no-osl-wg-101, se-sto-wg-208, us-dal-wg-701, us-lax-wg-002, us-nyc-wg-601, and us-slc-wg-303. This implementation marks a definitive shift in the status of these endpoints following an internal decision. The announcement provides only the list of identifiers and the update date; it does not elaborate on the specific nature of the threat, prior context, or direct impacts on end-users and industry entities. Consequently, further clarification regarding the reasons for this change or subsequent timelines has not yet been released.

2026/05/26 3:19

カリフォルニア州、Linuxの年齢認証免除を法改正で検討へ:抗議運動を受け

## Japanese Translation: カリフォルニア州の法律家は、2026年2月11日にデジタル年代保証法(Digital Age Assurance Act)からほとんどのオープンソースオペレーティングシステムを除外することを目的としたアセンブリビル1856号(AB 1856)を導入した後、厳格な年齢検証要件から撤退する方針を検討しています。AB 1856は、同州の以前のパックであるアセンブリビル1043号(2025年後期に可決)を改正し、2027年1月1日までに年齢検証の手続を個々のウェブサイトやアプリからオペレーティングシステムレベルへ移行することを求めていました。AB 1043の下では、オペレーティングシステムはセットアップ時にユーザーの生年月日を収集し、アプリおよびストアに対して「年齢層」(例:「13歳未満」、「18歳以上」)をシグナル送信することが義務付けられていました。提案されている改正案では、「オペレーティングシステム提供者」は、ソフトウェアのコピー、再配布、修改を可能にするライセンスの下でソフトウェアを配布する者を含まないと定義しています。この定義により、Debian、Fedora、Ubuntu、Arch Linux、Mintなど主流のLinuxディストリビューションが遵守要件から除外され、Electronic Frontier Foundationなどのプライバシー擁護者や、無限にフォーク可能なプロジェクトに対しては元の規則が侵襲的かつ実行不可能であるという懸念に対処しました。同法案は元の法的措置を廃止するものではありません。商用プラットフォームでプロプライエタリなアプリエコシステムを持つもの(ValveのSteamストアに紐づく特定のSteamOSバージョンなど)も引き続き審査の対象となる可能性があります。アセンブリメンバーBuffy Wicksによって提出された最新版は2026年5月18日付けのものであり、2026年5月19日に2回目に朗読され、3回目の朗読に付議されるよう命じられ、現在、委員会での審査が予定されている6月の間に立法機構を通過中としています。

2026/05/22 1:25

Show HN: BPF プログラムは Go で、C では書かなくて OK

## Japanese Translation: Gobee ツールは、厳密な Go サブセットを BPF C に変換し、ユーザーランド側向けに型付き Go バインディングを生成することで、実行中のカーネルに対してロードをゲートし、Go から開発の重要なボトルネックを解消します。その最大の利点は安全性であり、ロード時に `bpfvet` を実行してホストシステムよりも新しいカーネル機能が必要な場合に即座に失敗させ、ランタイムクラッシュを防ぎます。また、CO-RE、BTF、 verifier-friendly コード生成のために成熟した clang バックエンドと互換性のある読みやすい BPF C コードをエミットし、コンパイラを再構築することなく実現します。 Gobee は診断プロセスを簡素化し、verifier エラーを Go ソースファイル内(例:`counter.go:18:5`)に自動的に注釈付けることで、手動の診断パイピングを行う必要性を排除します。本ツールは Solod および Aya などのプロジェクトからインスピレーションを得ており、移植可能な Go パッケージが `bpf/` に、カーネルソースと clang アーティファクトが `bpf/src/` に配置される清潔なレイアウトを維持しています。各 `.bpf.c` ファイルには、オフラインでの Gobee 診断に用いられる sourcemap サイドカー(`<stem>.bpf.c.map`)がペア付けられています。 ツールチェーンは Linux arm64 と amd64 のクロスアーキテクチャビルドをサポートし、XDP、tracepoint、kprobe/kretprobe、uprobe/uretprobe、sock_ops、TC、cgroup_skb、LSM という 8 つのプログラムタイプ、ならびに ringbuf、perf_event_array、storage maps を含む 19 のマップタイプをカバーします。Gobee は `vmlinux.h` を含み `BPF_CORE_READ` を使用することで BTF レディな出力をエミットしますが、clang コンパイルの責任はユーザーに委ねており、Ubuntu 24.04(カーネル 6.x)での実カーネル verifier 受入を含む 4 つのレイヤーにおける CI サポートを提供します。ツールチェーンには、どこでも動作する純粋な Go トランpiler と clang(`.bpf.o` をコンパイルするために必要)が組み合わさっており、ディストリビューションパッケージまたは macOS 上での `brew install llvm` で入手可能です。最終的に、MIT ライセンスのこのプロジェクトは、コンパイラの再構築を行わないままシステムレイヤー全体にわたる信頼性の高い CI カバレッジを求めているチームにとって、堅牢で移植可能なソリューションを提供しており、libbpf v1.5.0 ヘルパーセットをカバーする約 200 の型付き Go スタブをエミットし、誤りしやすい文字列ベースのルックアップを置き換えるために、ユーザー定義ヘルパーを静的な `__always_inline` C 関数として出力します。