
2026/06/05 4:52
カストル:CERN 高度保存管理システム
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
CASTOR は、CERN で開発された階層的ストレージ管理システムであり、大規模な物理データセットのアーカイブを目的としており、大容量と費用対効果のバランスを図っています。100 ピタバイトを超える容量を取り扱うように設計されており、高速なディスクアレイと低速で大容量のテープライブラリーを組み合わせて、アクセス頻度の低いデータをテープに保存します。アーキテクチャには中央データベースに加え、以下の主要コンポーネントが含まれます:Stager(ディスクプーリングマネージャー)、Name Server(サイズ、日付、チェックサム、所有者、ACL、テープコピー情報などのファイルメタデータを管理する)、Tape Infrastructure、Volume Manager(テープの特性、容量、ステータス、およびファイルオフセット位置を追跡する)、VDQM(ライブラリ制御ソフトウェアとのカートリッジマウントを調整する)。CASTOR はコマンドラインツールと CASTOR API を介して XROOT(推奨)、GridFTP およびかつては RFIO(2016 年まで)をサポートし、グリッドデータアクセスのために SRM と統合します。使用されている高容量テープユニットには、Oracle StorageTek T10000C(5 TB)および IBM TS1140(4 TB)が含まれ、生産用ライブラリーは 2013 年初頭に SL8500 型が 4 台、TS3500 型が 3 台搭載され、約 100 PB の容量に達しました。2020 年 6 月 29 日現在、CERN Tape Archive(CTA)は CASTOR の後継システムとして機能し、CASTOR 2 の後に徐々に置き換えられ、古いロボットライブラリー構成から、GridFTP および XROOT などの重要プロトコルをサポートする統一インフラストラクチャーへの移行を示しています。この進化は、1990 年代の SHIFT を CASTOR が後継した例に始まる以前の後継事例にも続き、CASTOR 1(1998–2007)、CASTOR 2(2005–2022)、CTA(2020 年以降)という明確な時代区分を含みます。科学者にとっては、この階層化アプローチは、非アクティブなデータに対してテラバイトあたりのコスト削減とエネルギー節約を実現しますが、取り出し時間に犠牲を払い、ディスクでの秒単位アクセスからアーカイブ済みコンテンツへの分単位アクセスへと切り替わります。システムはアップロード、ダウンロード、アクセス、管理のためのクライアント機能をサポートし、Storage Resource Management を通じて SRM によるグリッドデータアクセスを可能にし、FTS などのサービスと連携します。全体として、CTA への移行により、研究データのグローバルコンピューティンググリッド内でのスケーラブルで信頼性の高い長期保存が保証されます。
本文
CERN 高機能 STORage マネージャ(CASTOR):概要とアーキテクチャ
CERN 高機能 STORage マネージャ (CASTOR) は、物理学的データをアーカイブするために開発された階層型ストレージ管理システムです。ディスクとテープを兼用し、以下の機能を備えています。
- 基本機能
- ファイルの保存・列挙・取得およびリモートアクセスが可能
- XROOT(主たる推奨プロトコル)や GridFTP など一連のプロトコルを提供
- RFIO(リモート FI/O)は 2016 年までサポートされていた
システムの歴史と地位
CASTOR は、高エネルギー物理計算向けのスケーラブルで異種環境統合された施設 (SHIFT) の後継システムです。
- SHIFT: 1990 年代に開発・運用
- 現在のステータス(2020 年 6 月 29 日現在)
- CERN Tape Archive (CTA) が CASTOR の後継として運用開始
- 次第に CASTOR の代替を進めている
CERN のテープ上総データ量の進化(2001 年以降)には、以下の期間の統計が含まれます。
- CASTOR 1: 1998 年 – 2007 年
- CASTOR 2: 2005 年 – 2022 年
- CTA: 2020 年以降
システム設計
設計は、コンポーネントのアーキテクチャに基づいており、中央データベースを用いてコンポーネントの状態変化を保護しています。主要な役割分担は以下の通りです。
- Stager: ディスクプールマネージャ(アクセス制御、スペース割り当て・解放)
- Name Server: ディレクトリ構造の保持(メタデータ管理)
- Tape Infrastructure: テープへのアクセス制御(書き込みおよび取り出し)
主要機能モジュール
システムは以下の 5 つの主要モジュールで構成されています。
1. Stager(ディスクプールマネージャ)
- スペースの割り当てと解放を担当
- クライアントへのアクセスを制御
- ディスクプールのローカルカタログを見守る
2. Name Server(ネームスペース管理)
- ファイルおよびディレクトリの対応するメタデータを格納:
- サイズ、日時、チェックサム
- 所有権、ACL(アクセス制御リスト)、テープ複製情報など
- Unix ツールを模倣したコマンドラインツールで操作可能(例:
はnsls
に対応)ls
3. Tape Infrastructure(テープインフラストラクチャ)
- 目的: データ安全性の確保およびディスク容量を超えるデータの管理(テープ保存)
- 使用される大容量テープユニット:
- Oracle StorageTek T10000C (5TB)
- IBM TS1140 (4TB)
- ライブラリ構成(生産環境)
- Oracle SL8500: 4 基
- IBM TS3500: 3 基
- 総容量: 約 100 ピタバイト(2013 年 1 月時点)
データベース情報
テープ上のファイル管理には、以下の 2 つのデータベースが連携しています。
| データベース | 格納される情報 |
|---|---|
| CASTOR Volume Manager | 各テープの特性、容量、ステータス |
| Name Server | テープ上のファイル(セグメント)に関する詳細: ・所有権 ・パーミッションの詳細 ・ファイルオフセット位置 |
- ユーザコマンドにより、両方のデータベース情報を表示可能
- カセットのテープドライブへのマウント/取り外しは、Volume Drive Queue Manager (VDQM) が管理(各モデル固有の制御ソフトウェアと連携)
4. Client(クライアント)
- ユーザが CASTOR データをアップロード・ダウンロード・アクセス・管理することを可能に
5. Storage Resource Management(SRM)
- SRM プロトコルを通じて計算グリッド内のデータアクセスを許容
- LHC コミュニティによるデータエクスポートなどで使用される **FTS **(File Transfer System) の代わりに CASTOR と相互作用
テープアーカイブの利点と課題
テープ上にデータを保存する際の特性は以下の通りです。
| 項目 | 特徴 |
|---|---|
| コスト | ハードディスクに比べて1 タラバイトあたりのストレージコストが大幅に低い |
| 電力消費 | データがアクセスされていない間は電力を消費しない |
| アクセス速度 | 数秒単位(ハードディスク)に対して数分程度かかるため遅い |