**Spotify のバックアップ**

2025/12/21 3:28

**Spotify のバックアップ**

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

## Summary
Anna’s Archive は、Spotify のカタログのほぼ全て(約 2億5600 万曲と 1億8600 万個のユニーク ISRC コード、Spotify 再生回数の約 99.6 %)を収録した、大規模で公開アクセス可能な保存プロジェクトを開始しました。アーカイブには約 8,600 万曲(≈300 TB)の音楽ファイル、SQLite データベースに格納された 200 GB 超の圧縮メタデータ、および音声特徴量データ(テンポ、キー、ダンス性など)を含む約 4,000 万行が含まれています。

配布は人気順でグループ化した大量トレント経由です。トップ 10,000 曲は OGG Vorbis 160 kbit/s で提供され、順位の低い曲は OGG Opus 75 kbit/s に再エンコードされています。追加コンテンツとしては、ファイル名プレフィックスでインデックスされたアルバムアートを含む tar‑torrent と、オーディオブック(約 70 万行)、オーディオブック章(約 2000 万件)、ポッドキャスト/ショー(約 500 万件)、エピソード(約 5400 万件)の原始 JSON データセットがあります。アーカイブには再エンコード状況、SHA256 ハッシュ、ライセンス情報、歌詞、言語、およびアーティストの役割を含む詳細な `track_files` テーブルもあります。

プレイリストデータも収録されています:フォロワー 1,000 人以上の約 660 万プレイリストがあり、総曲数は 17 億曲に達します。メタデータは 2025 年 12 月に発表され、音声ファイルは人気順で提供され、2025 年 7 月を境に追加されたトラックは欠落している可能性があります。Anna’s Archive はトレントのシーディングと寄付を奨励し、継続的な保存活動を支援しています。

研究者・AI 開発者・デジタルアーカイブ担当者にとって、このプロジェクトは Spotify のライブラリを分析、モデル学習、遺産保全のために利用できる前例のない高品質なスナップショットを提供し、ストリーミング業界における長期データ管理の新たな標準となり得ます。

本文

アンナのアーカイブ – Spotify保存プロジェクト

  • バックアップ範囲

    • メタデータ + 音楽ファイル(約300 TB)を大容量トレントで配布。
    • 最大規模の公開音楽メタデータベース:
      • 256 M トラック
      • 186 M ユニークISRC
    • 初めて完全オープンな「保存アーカイブ」: 音楽(8600万ファイル、再生数の約99.6%)。
  • なぜ音楽なのか?
    アンナのアーカイブは情報密度が高いテキストを中心に扱うことが多いですが、本プロジェクトではメディア形式に関係なく人類の文化的産物を保存します。

  • 既存取り組みでの主な課題

    • 人気アーティストへの過剰フォーカス → 長尾(long tail)が十分に保存されない。
    • 高品質(ロスレスFLAC)優先でストレージ容量が膨らむ。
    • 書籍と異なり、すべての音楽を網羅する権威あるトレントリストが存在しない。
  • プロジェクトのハイライト

    • Spotifyスクレイプ(約256 M トラック、99.9%メタデータカバレッジ)。
    • アーカイブサイズ:≈300 TB;8600万ファイル(再生数の約99.6%)。
    • Spotify人気指標で優先順位付け。
      • popularity >0
        : 元のOGG‑Vorbis 160 kbit/s(リエンコードしない)。
      • popularity =0
        : OGG‑Opus 75 kbit/sに再エンコード。
    • 切捨日: 2025‑07;それ以降の新作は欠落する可能性。
  • リリーススケジュール

    項目状態
    メタデータ(2025年12月)
    音楽ファイル☐ (人気順)
    追加ファイルメタデータ
    アルバムアート
    .zstdpatch
    ファイル
  • 貢献方法

    • 寄付 → 音楽遺産の保存に寄与。
    • Anna’s Archive Torrents ページでトレントをシード。

データ概要

トラックと人気度

  • Spotifyは約256 M トラックを保有。
  • 人気度(0–100)は再生回数と相関し、値が高いほど最近頻繁に再生されていることを示す。
  • 70 %のトラックが1,000回未満 (
    popularity = 0
    )。

アーティスト

アーティスト人気度再生数
Lady Gaga & Bruno Mars – “Die With A Smile”1003.075 B
Billie Eilish – “BIRDS OF A FEATHER”983.137 B
Bad Bunny – “DtMF”981.124 B

アルバム

  • Spotifyのリリースは主にシングル;アルバムは少数。
  • 新規リリース(2025‑07以降)はAI生成コンテンツの割合が高い。

オーディオ特徴

  • トラックごとに1行 (
    track_audio_features
    テーブル)。
  • 主な指標:テンポ、キー、モード、ダンス性、エネルギー、音量、バレンス等。
  • 平均BPMは約120;音量は–60 dB〜0 dB。

データベーススキーマ(主要テーブル)

テーブル用途
artists
アーティストメタデータ(id, name, followers, popularity)。
artist_genres
,
artist_images
ジャンルリストと画像URL。
albums
アルバム情報(タイプ、リリース日、レーベル、人気度)。
album_images
カバーアートURL。
tracks
トラック詳細(name, ISRC, duration, popularity)。
track_artists
アーティスト–トラック関係。
available_markets
市場可用性(ISO国コード)。
playlist_*
テーブル
プレイリスト、画像、トラック(ローカルトラック含む)。
track_files
ファイルメタデータ:ステータス、エンコーディング、SHA‑256ハッシュ、ファイルID。

技術ノート

  • ファイル形式

    • Anna’s Archive Containers (AAC) – カスタムマルチトレントフォーマット。
    • 元のOGGファイルはSpotify固有ヘッダーパケットが除去され、
      prefixed_ogg_packet
      に保存。
  • 再エンコード

    • 人気トラック:元の160 kbit/s Vorbisを保持。
    • 低人気 (
      popularity=0
      ):OGG‑Opus 75 kbit/sへ再エンコード(最小知覚損失)。
  • メタデータ整合性

    • すべてのテーブルは元のSpotify API JSONを再構築。未公開フィールド以外はデータ欠損なし。

利用方法

  1. メタデータダウンロード
    annas_archive_spotify_2025_07_metadata.torrent
    を取得。
  2. オプション:音楽ファイルのダウンロード – 人気順トレントから開始。
  3. 元ファイルの再構築(必要なら)差分ファイルを利用。

最後に

このアーカイブは、自然災害・戦争・予算削減などあらゆる脅威から音楽遺産を守ることを目的としています。寄付やシードによるサポートが、この遺産を将来世代へ継承する手助けとなります。

同じ日のほかのニュース

一覧に戻る →

2025/12/21 4:56

アイルランド出身のディアムウィッド・エーリーが、マイクロソフト・エクセル世界選手権で優勝しました。

## Japanese Translation: Diarmuid Early はラスベガスで開催された 2025 年 Microsoft Excel ワールドチャンピオンシップを制覇し、60,000 ドルの賞金と選手権ベルトを獲得しました。この大会には世界中から 256 名の競技者が集まり、連続ノックアウトラウンドの後、24 名のファイナリストがタイム付きでグローバルに配信されるアリーナで対戦しました。試合は 30 分間ごとのチャレンジに分かれ、難易度が段階的に上昇し、正しいスプレッドシートの回答にポイントが与えられました。5 分ごとに自動的に「Thanks for playing, you’re out」というメッセージで除外されます。Early は「Excel スプレッドシートのレブロン・ジェームズ」と称され、ガリウイ出身でウォーターフォード育ち、現在はニューヨークで金融ビジネスを運営しています。彼はこのニックネームを自分の身長に起因するとユーモラスに語ります。3 回連続チャンピオンであるオーストラリア人アクチュエリスト Andrew Ngai を破りましたが、**全体で 2 位**となりました。 Excel e‑スポーツは金融中心の対戦から迷路ナビゲーション、ポーカー手札評価、カードソートバトルなど創造的な問題解決タスクへと移行し、コミュニティを活性化させています。大規模な WhatsApp グループが新参者にヒントや戦略の議論を提供しています。 今後は「Road to Las Vegas Battle」が 2026 年 1 月 22 日に開始され、オープン登録が行われます。Early の勝利は企業からの関心を呼び、彼はスプレッドシートコンサルティングを提供し、YouTube でウォークスルービデオをホストしています。 この選手権の可視化は Excel コンペティションへの企業エンゲージメントを高め、専門的なスプレッドシート研修需要を増加させる可能性があります。拡張されたストリーミングとコミュニティプラットフォームは参加者数をさらに伸ばす一方で、進化するトーナメント形式が金融・テックセクター全体でスプレッドシートスキルのマーケティング方法を再構築するかもしれません。

2025/12/21 6:00

**Show HN:** *Jmail – エプスタインファイル専用 Google スイート*

## Japanese Translation: **要約はすでにキーポイントリストの内容を正確に反映しており、追加の推測や曖昧な表現が含まれていないため、そのまま最終版として繰り返すことができます。** --- ## 最終まとめ 記事全体の内容は「Loading Jmail…」というフレーズです。これは単にJmail というプログラムまたはアプリケーションが起動中であるか、情報を取得している状態を示しています。追加の文脈・背景・今後の行動や影響については提供されていません。

2025/12/21 6:26

クローム上の Claude

## Japanese Translation: **改善された概要** Claudeは、有料サブスクライバー向けに、サイトの閲覧、ボタンのクリック、フォーム入力、スクリプト実行(即時、バックグラウンド、または定期的)を可能にするChromeベースの自動化拡張機能を導入しました。これはClaude CodeおよびDesktopと連携し、開発者がブラウザ上でワークフローを直接テストできるようにします。この拡張機能は、分析ダッシュボードからメトリクスを取得したり、タブ切替えなしでサマリーを作成したり、Google Driveのファイル(フォルダー作成・アイテム移動・重複フラグ付け)を整理したり、カレンダーやメールスレッドを読み取り会議準備と部屋予約を行ったり、ページ間で製品仕様を比較しGoogle Sheetsに表として出力したり、SalesforceなどのCRMに参加者情報をマッチングして販売通話をログ化したり、受信トレイからマーケティングメール/ニュースレターをスキャンし一括削除レビューを行ったりします。 安全対策が組み込まれており、拡張機能は慣れ親しんだサイトへの権限のみを制限し、財務情報や個人データの取り扱い前に確認を求め、事前承認されたアクションのみを実行し、プロンプトインジェクションリスクを監視します。現在ベータ版で有料サブスクライバー限定利用可能であり、Chrome Web Store User Data PolicyおよびLimited Use要件に準拠しています。将来のリリースでは、より厳格な権限管理と追加の安全対策を導入し、安全性とユーザビリティを向上させる予定です