
2025/12/21 3:28
**Spotify のバックアップ**
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
## Summary Anna’s Archive は、Spotify のカタログのほぼ全て(約 2億5600 万曲と 1億8600 万個のユニーク ISRC コード、Spotify 再生回数の約 99.6 %)を収録した、大規模で公開アクセス可能な保存プロジェクトを開始しました。アーカイブには約 8,600 万曲(≈300 TB)の音楽ファイル、SQLite データベースに格納された 200 GB 超の圧縮メタデータ、および音声特徴量データ(テンポ、キー、ダンス性など)を含む約 4,000 万行が含まれています。 配布は人気順でグループ化した大量トレント経由です。トップ 10,000 曲は OGG Vorbis 160 kbit/s で提供され、順位の低い曲は OGG Opus 75 kbit/s に再エンコードされています。追加コンテンツとしては、ファイル名プレフィックスでインデックスされたアルバムアートを含む tar‑torrent と、オーディオブック(約 70 万行)、オーディオブック章(約 2000 万件)、ポッドキャスト/ショー(約 500 万件)、エピソード(約 5400 万件)の原始 JSON データセットがあります。アーカイブには再エンコード状況、SHA256 ハッシュ、ライセンス情報、歌詞、言語、およびアーティストの役割を含む詳細な `track_files` テーブルもあります。 プレイリストデータも収録されています:フォロワー 1,000 人以上の約 660 万プレイリストがあり、総曲数は 17 億曲に達します。メタデータは 2025 年 12 月に発表され、音声ファイルは人気順で提供され、2025 年 7 月を境に追加されたトラックは欠落している可能性があります。Anna’s Archive はトレントのシーディングと寄付を奨励し、継続的な保存活動を支援しています。 研究者・AI 開発者・デジタルアーカイブ担当者にとって、このプロジェクトは Spotify のライブラリを分析、モデル学習、遺産保全のために利用できる前例のない高品質なスナップショットを提供し、ストリーミング業界における長期データ管理の新たな標準となり得ます。
本文
アンナのアーカイブ – Spotify保存プロジェクト
-
バックアップ範囲
- メタデータ + 音楽ファイル(約300 TB)を大容量トレントで配布。
- 最大規模の公開音楽メタデータベース:
• 256 M トラック
• 186 M ユニークISRC - 初めて完全オープンな「保存アーカイブ」: 音楽(8600万ファイル、再生数の約99.6%)。
-
なぜ音楽なのか?
アンナのアーカイブは情報密度が高いテキストを中心に扱うことが多いですが、本プロジェクトではメディア形式に関係なく人類の文化的産物を保存します。 -
既存取り組みでの主な課題
- 人気アーティストへの過剰フォーカス → 長尾(long tail)が十分に保存されない。
- 高品質(ロスレスFLAC)優先でストレージ容量が膨らむ。
- 書籍と異なり、すべての音楽を網羅する権威あるトレントリストが存在しない。
-
プロジェクトのハイライト
- Spotifyスクレイプ(約256 M トラック、99.9%メタデータカバレッジ)。
- アーカイブサイズ:≈300 TB;8600万ファイル(再生数の約99.6%)。
- Spotify人気指標で優先順位付け。
: 元のOGG‑Vorbis 160 kbit/s(リエンコードしない)。popularity >0
: OGG‑Opus 75 kbit/sに再エンコード。popularity =0
- 切捨日: 2025‑07;それ以降の新作は欠落する可能性。
-
リリーススケジュール
項目 状態 メタデータ(2025年12月) ✅ 音楽ファイル ☐ (人気順) 追加ファイルメタデータ ☐ アルバムアート ☐
ファイル.zstdpatch☐ -
貢献方法
- 寄付 → 音楽遺産の保存に寄与。
- Anna’s Archive Torrents ページでトレントをシード。
データ概要
トラックと人気度
- Spotifyは約256 M トラックを保有。
- 人気度(0–100)は再生回数と相関し、値が高いほど最近頻繁に再生されていることを示す。
- 70 %のトラックが1,000回未満 (
)。popularity = 0
アーティスト
| アーティスト | 人気度 | 再生数 |
|---|---|---|
| Lady Gaga & Bruno Mars – “Die With A Smile” | 100 | 3.075 B |
| Billie Eilish – “BIRDS OF A FEATHER” | 98 | 3.137 B |
| Bad Bunny – “DtMF” | 98 | 1.124 B |
アルバム
- Spotifyのリリースは主にシングル;アルバムは少数。
- 新規リリース(2025‑07以降)はAI生成コンテンツの割合が高い。
オーディオ特徴
- トラックごとに1行 (
テーブル)。track_audio_features - 主な指標:テンポ、キー、モード、ダンス性、エネルギー、音量、バレンス等。
- 平均BPMは約120;音量は–60 dB〜0 dB。
データベーススキーマ(主要テーブル)
| テーブル | 用途 |
|---|---|
| アーティストメタデータ(id, name, followers, popularity)。 |
, | ジャンルリストと画像URL。 |
| アルバム情報(タイプ、リリース日、レーベル、人気度)。 |
| カバーアートURL。 |
| トラック詳細(name, ISRC, duration, popularity)。 |
| アーティスト–トラック関係。 |
| 市場可用性(ISO国コード)。 |
テーブル | プレイリスト、画像、トラック(ローカルトラック含む)。 |
| ファイルメタデータ:ステータス、エンコーディング、SHA‑256ハッシュ、ファイルID。 |
技術ノート
-
ファイル形式
- Anna’s Archive Containers (AAC) – カスタムマルチトレントフォーマット。
- 元のOGGファイルはSpotify固有ヘッダーパケットが除去され、
に保存。prefixed_ogg_packet
-
再エンコード
- 人気トラック:元の160 kbit/s Vorbisを保持。
- 低人気 (
):OGG‑Opus 75 kbit/sへ再エンコード(最小知覚損失)。popularity=0
-
メタデータ整合性
- すべてのテーブルは元のSpotify API JSONを再構築。未公開フィールド以外はデータ欠損なし。
利用方法
- メタデータダウンロード –
を取得。annas_archive_spotify_2025_07_metadata.torrent - オプション:音楽ファイルのダウンロード – 人気順トレントから開始。
- 元ファイルの再構築(必要なら)差分ファイルを利用。
最後に
このアーカイブは、自然災害・戦争・予算削減などあらゆる脅威から音楽遺産を守ることを目的としています。寄付やシードによるサポートが、この遺産を将来世代へ継承する手助けとなります。