
2026/04/23 22:58
イギリス生物研究銀行(UK Biobank)の健康関連データが頻繁に、GitHub上に公開される傾向にあります。
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
ガーディアンの調査により、研究者が許可なく敏感な英国バイオバンクデータ(ゲノムデータセット、医療記録、ライフスタイル情報を含む)をパブリック GitHub リポジトリに複数回アップロードしたことが明らかになりました。この事象は、個人の詳細が最小限であるにもかかわらず再特定リスクを生み出すものであり、一例では生年月日の概日と単一の手術日のみで志願者が特定されることからもその危険性が浮き彫りとなりました。これを受け、英国バイオバンクは世界的に 170 の開発者に関連する 197 つのコードリポジトリに対して、約 110 件の DMCA(数字千悪使用法)削除通知を発出しています。現在の英国法には、無断アップロードを直接のプライバシー侵害として分類するための特定の法令がないため、同組織はプライバシーに特化した法律ではなく著作権執行メカニズムに依存しています。これらの事例を追跡する記録物は、オックスフォード・インターネット研究所の Luc Rocher 氏によって作成され、GitHub の DMCA リポジトリからのデータを用いています。開発者の国籍が示されている国は計 14 ヶ国に及んでおり、米国(24)と中国(21)で大多数を占めています。ただし、多くのプロファイルのプロフィール情報が不完全であるため、場所の特定には限界があります。最初の削除通知は 2025 年 7 月に提出され、その後も安定したペースで削除請求が続きましたが、2026 年 1 月、2 月ならびに 3 月の大部分において完全に停止しました。ガーディアンの公開による暴露を受けて、2026 年 3 月末に通知が再開されました。対象となったファイルには、遺伝子・ゲノムデータ(PLINK、BOLT-LMM、BGEN など)、テーブル形式のデータセット(CSV、TSV、Excel、R オブジェクトなど)、分析スクリプトまたは文書が含まれます。これにより、バイオテクノロジー業界は、プライバシーに関する特定の法令に依存せず、著作権メカニズムに大きく依存する複雑な法的環境でデータを保護する必要があり、パブリック上の通知への注意深い監視を行うことで、データのセキュリティを継続的に確保しなければならないという状況に直面しています。
本文
—— 直近のデータ削除令から経過日数!英バイオバンクは、50 万人のイギリス人ボランティアに由来する遺伝子情報、健康状態およびライフスタイルに関するデータを保有しています。厳格な合意事項の下、世界中の約 2 万名の研究者が当該データへのアクセス権を付与されています。しかしながら、これらの合意でさらにデータの共有が禁止されているにもかかわらず、研究者らが誤って参加者のデータをパブリックな GitHub リポジトリに繰り返しアップロードしているという事態が続いています。
ガーディアン紙によると、英バイオバンクはこの状況を密かに監視しており、リポジトリが削除されない場合、直接研究者らに連絡を取り、削除命令(タakedown notice)を発出しています。時として、そもそもバイオバンクからデータを渡されたことのない研究者や学生のリポジトリまでもが対象となることがあります。
本トラッカーは、迄今までに提出された 110 件の削除命令を追跡し、GitHub の DMCA アーカイブからのパブリックデータを用いて、世界中の 170 人の開発者によって管理される 197 件のコードリポジトリを対象にしています。
「誕生年月日の概略」と「単一の重大手術の日付」のわずか 2 つの情報からのみ、ガーディアン紙は露見したデータセットの片やで参加者を再同定することに成功しました。BMJ の Jess Morley氏と私は、英バイオバンクが再同定のリスクを軽視し、代わりにオンライン上で共有すべき内容を制限するようにアドバイスすることで、参加者の権利を侵害していることを指摘しています。バイオバンクのような機関は、謙虚さを示し、プライバシー専門家への傾聴へのコミットメントを表明するとともに、学ぶという姿勢を見せる必要があります。
Oxford Internet Institute(オックスフォード大学)の Luc Rocher 氏によって構築されたもの
英バイオバンクが削除命令を発令している理由について
英バイオバンクは、著作権侵害に関連するメカニズムとして一般的に知られる著作権削除命令を利用し、GitHub 上の健康データを削除要求しています。英国には、プラットフォームに対し迅速な行動を強制するプライバシー侵害に関する DMCA に相当する制度は存在しません。
削除命令の内容を検討してみると、多くの場合、完全なリポジトリ全体ではなく特定のファイルのみが対象とされています。これは、削除命令を発行するために著作権侵害の立証が必要となることを正当化するためと考えられます。その内およそ半分は、データ数行を含む可能性がある Jupyter または R ノートブックです。四分の一は、参加者のゲノ型や関連付け結果を直接コード化する遺伝子・ゲノムデータファイル(PLINK、BOLT-LMM、BGEN)です。残りの大部分は、表形式データセット(CSV、TSV、Excel およびシリアライズされた R オブジェクト等)であり、表型または健康記録が含まれている可能性があります。その他には、解析スクリプト、ドキュメント、圧縮アーカイブなどが含まれます。
削除命令のタイムライン
最初の削除命令は 2025 年 7 月に提出されました。以来、ペースは一定を保ち、GitHub に対して合計 110 の要求が提出されています。興味深いことに、請求は 2026 年 1 月、2 月ならびに 3 月の大部分において停止しました。この期間中に何人もが誤って英バイオバンクのデータをアップロードしなかったと信じることは困難です。削除命令は、ガーディアン紙による調査が継続的なデータ露見および削除命令の無効性を明らかにした直後の 3 月終盤に再開されました。
世界のどこで
英バイオバンクの削除命令の対象となっている開発者は、少なくとも 14 ヵ国に所在しています。実際の数はより高い可能性がありますが、通知中に特定された 170 人の開発者のうち、GitHub プロフィール上に場所を示しているのは 75 人のみです。多くは米国および中国に所在するようです。
- 24 人:アメリカ合衆国
- 21 人:中国
- 7 人:イギリス
- 5 人:ドイツ
- 4 人:香港
- 4 人:オーストラリア
- 3 人:スペイン
- 1 人:韓国
- 1 人:ギリシャ
- 1 人:カタール
- 1 人:アラブ首長国連邦
- 1 人:スイス
- 1 人:インド
- 1 人:オランダ
メソッドロジー
このウェブページを作成するためには、GitHub が受け取ったすべての DMCA 削除命令の全文を公開している github/dmca リポジトリからのデータを利用しました。権利者が自社の著作権を侵害すると考えるコンテンツの削除を求める場合に、通知は当該リポジトリ内で Markdown ファイルとしてパブリックに公開されます。ガーディアン紙によると、英バイオバンクはこの手続きを利用して、参加者データ(またはそのようなデータを有すると信じる)が含まれている、または含まれていると判断するファイルおよびリポジトリの削除を要求しているとしています。
英バイオバンク関連の通知を特定するために、GitHub が通知ファイルを命名する際に採用しているスラグ "uk-biobank" を含むファイル名を検索しました。念のため、他のすべての通知ファイルの全文についても、「UK Biobank」または「UKBiobank」(大文字小文字不問)という表現が含まれているか確認し、異なるスラグで提出されたもの(例:英バイオバンク名義で作成されたもの)も見逃さないよう工夫しました。一致する各通知から、提出日(ファイル名から抽出。GitHub の「YYYY-MM-DD-slug.md」形式に従う)、ならびに通知本文に記載されている GitHub リポジトリ URL をすべて抽出しています。GitHub 自体のインフラストラクチャを指す URL(例:github.com/contact や github.com/site)は除外されます。
通知に見られる各一意な GitHub ユーザー名について、GitHub REST API(GET /users/{username})をクエリし、そのユーザのプロフィール情報を取得します。これにより、特にユーザーが自己申告した「場所」フィールドを取得しています。これは、ユーザーが任意に入力するフリーテキスト文字列であり、都市名、国名、大学名であってもよいし、完全に空白のままでも可能です。削除されたアカウントは 404 エラーを返し、さらに含まれません。
raw な場所の文字列から国を導き出す作業を手作業で行っています。GitHub プロフィールに場所が含まれていない場合も、プロフィールおよび関連するメールドメインを検証することで国を特定します。このプロセスは本質的に不完美です(例:「Cambridge」はイギリスまたはアメリカを指す可能性がある)。多くのユーザーは一切の場所情報を提供しません。データセット内の 170 人の一意な開発者のうち、国に割り当てられた場所はもとの場所に解決できたのは 75 人のみです。
本データの収集スクリプトを最新状態の github/dmca リポジトリに対して再実行することにより、定期的にデータを刷新しています。本ページは、対象となっているリポジトリの内容(実際の参加者データ、派生データセット、解析コード、または単なるドキュメントか)について何らの主張も行いません。報告するのは、英バイオバンクが提出したパブリックな DMCA 通知で公開されている情報のみに限定されます。
さらに読む
GitHub 上のバイオバンクデータの露見は、英バイオバンクにおけるガバナンス課題の一系列の最近の事例です。
- 2026 年 3 月:機密的健康記録がオンライン上で露見——ガーディアン紙による調査で、研究者らがコードを共有する過程で、参加者のデータをパブリックな GitHub リポジトリにアップロードしていたことが明らかになりました。ボランティアの同意を得て、ジャーナリストは、誕生年月日ならびに単一の重大手術の日付のみを用いて、露見されたデータセット内の自分のレコードを照合することに成功しました。