イギリス生物研究銀行(UK Biobank)の健康関連データが頻繁に、GitHub上に公開される傾向にあります。

2026/04/23 22:58

イギリス生物研究銀行(UK Biobank)の健康関連データが頻繁に、GitHub上に公開される傾向にあります。

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

ガーディアンの調査により、研究者が許可なく敏感な英国バイオバンクデータ(ゲノムデータセット、医療記録、ライフスタイル情報を含む)をパブリック GitHub リポジトリに複数回アップロードしたことが明らかになりました。この事象は、個人の詳細が最小限であるにもかかわらず再特定リスクを生み出すものであり、一例では生年月日の概日と単一の手術日のみで志願者が特定されることからもその危険性が浮き彫りとなりました。これを受け、英国バイオバンクは世界的に 170 の開発者に関連する 197 つのコードリポジトリに対して、約 110 件の DMCA(数字千悪使用法)削除通知を発出しています。現在の英国法には、無断アップロードを直接のプライバシー侵害として分類するための特定の法令がないため、同組織はプライバシーに特化した法律ではなく著作権執行メカニズムに依存しています。これらの事例を追跡する記録物は、オックスフォード・インターネット研究所の Luc Rocher 氏によって作成され、GitHub の DMCA リポジトリからのデータを用いています。開発者の国籍が示されている国は計 14 ヶ国に及んでおり、米国(24)と中国(21)で大多数を占めています。ただし、多くのプロファイルのプロフィール情報が不完全であるため、場所の特定には限界があります。最初の削除通知は 2025 年 7 月に提出され、その後も安定したペースで削除請求が続きましたが、2026 年 1 月、2 月ならびに 3 月の大部分において完全に停止しました。ガーディアンの公開による暴露を受けて、2026 年 3 月末に通知が再開されました。対象となったファイルには、遺伝子・ゲノムデータ(PLINK、BOLT-LMM、BGEN など)、テーブル形式のデータセット(CSV、TSV、Excel、R オブジェクトなど)、分析スクリプトまたは文書が含まれます。これにより、バイオテクノロジー業界は、プライバシーに関する特定の法令に依存せず、著作権メカニズムに大きく依存する複雑な法的環境でデータを保護する必要があり、パブリック上の通知への注意深い監視を行うことで、データのセキュリティを継続的に確保しなければならないという状況に直面しています。

本文

—— 直近のデータ削除令から経過日数!英バイオバンクは、50 万人のイギリス人ボランティアに由来する遺伝子情報、健康状態およびライフスタイルに関するデータを保有しています。厳格な合意事項の下、世界中の約 2 万名の研究者が当該データへのアクセス権を付与されています。しかしながら、これらの合意でさらにデータの共有が禁止されているにもかかわらず、研究者らが誤って参加者のデータをパブリックな GitHub リポジトリに繰り返しアップロードしているという事態が続いています。

ガーディアン紙によると、英バイオバンクはこの状況を密かに監視しており、リポジトリが削除されない場合、直接研究者らに連絡を取り、削除命令(タakedown notice)を発出しています。時として、そもそもバイオバンクからデータを渡されたことのない研究者や学生のリポジトリまでもが対象となることがあります。

本トラッカーは、迄今までに提出された 110 件の削除命令を追跡し、GitHub の DMCA アーカイブからのパブリックデータを用いて、世界中の 170 人の開発者によって管理される 197 件のコードリポジトリを対象にしています。

「誕生年月日の概略」と「単一の重大手術の日付」のわずか 2 つの情報からのみ、ガーディアン紙は露見したデータセットの片やで参加者を再同定することに成功しました。BMJ の Jess Morley氏と私は、英バイオバンクが再同定のリスクを軽視し、代わりにオンライン上で共有すべき内容を制限するようにアドバイスすることで、参加者の権利を侵害していることを指摘しています。バイオバンクのような機関は、謙虚さを示し、プライバシー専門家への傾聴へのコミットメントを表明するとともに、学ぶという姿勢を見せる必要があります。

Oxford Internet Institute(オックスフォード大学)の Luc Rocher 氏によって構築されたもの

英バイオバンクが削除命令を発令している理由について

英バイオバンクは、著作権侵害に関連するメカニズムとして一般的に知られる著作権削除命令を利用し、GitHub 上の健康データを削除要求しています。英国には、プラットフォームに対し迅速な行動を強制するプライバシー侵害に関する DMCA に相当する制度は存在しません。

削除命令の内容を検討してみると、多くの場合、完全なリポジトリ全体ではなく特定のファイルのみが対象とされています。これは、削除命令を発行するために著作権侵害の立証が必要となることを正当化するためと考えられます。その内およそ半分は、データ数行を含む可能性がある Jupyter または R ノートブックです。四分の一は、参加者のゲノ型や関連付け結果を直接コード化する遺伝子・ゲノムデータファイル(PLINK、BOLT-LMM、BGEN)です。残りの大部分は、表形式データセット(CSV、TSV、Excel およびシリアライズされた R オブジェクト等)であり、表型または健康記録が含まれている可能性があります。その他には、解析スクリプト、ドキュメント、圧縮アーカイブなどが含まれます。

削除命令のタイムライン

最初の削除命令は 2025 年 7 月に提出されました。以来、ペースは一定を保ち、GitHub に対して合計 110 の要求が提出されています。興味深いことに、請求は 2026 年 1 月、2 月ならびに 3 月の大部分において停止しました。この期間中に何人もが誤って英バイオバンクのデータをアップロードしなかったと信じることは困難です。削除命令は、ガーディアン紙による調査が継続的なデータ露見および削除命令の無効性を明らかにした直後の 3 月終盤に再開されました。

世界のどこで

英バイオバンクの削除命令の対象となっている開発者は、少なくとも 14 ヵ国に所在しています。実際の数はより高い可能性がありますが、通知中に特定された 170 人の開発者のうち、GitHub プロフィール上に場所を示しているのは 75 人のみです。多くは米国および中国に所在するようです。

  • 24 人:アメリカ合衆国
  • 21 人:中国
  • 7 人:イギリス
  • 5 人:ドイツ
  • 4 人:香港
  • 4 人:オーストラリア
  • 3 人:スペイン
  • 1 人:韓国
  • 1 人:ギリシャ
  • 1 人:カタール
  • 1 人:アラブ首長国連邦
  • 1 人:スイス
  • 1 人:インド
  • 1 人:オランダ

メソッドロジー

このウェブページを作成するためには、GitHub が受け取ったすべての DMCA 削除命令の全文を公開している github/dmca リポジトリからのデータを利用しました。権利者が自社の著作権を侵害すると考えるコンテンツの削除を求める場合に、通知は当該リポジトリ内で Markdown ファイルとしてパブリックに公開されます。ガーディアン紙によると、英バイオバンクはこの手続きを利用して、参加者データ(またはそのようなデータを有すると信じる)が含まれている、または含まれていると判断するファイルおよびリポジトリの削除を要求しているとしています。

英バイオバンク関連の通知を特定するために、GitHub が通知ファイルを命名する際に採用しているスラグ "uk-biobank" を含むファイル名を検索しました。念のため、他のすべての通知ファイルの全文についても、「UK Biobank」または「UKBiobank」(大文字小文字不問)という表現が含まれているか確認し、異なるスラグで提出されたもの(例:英バイオバンク名義で作成されたもの)も見逃さないよう工夫しました。一致する各通知から、提出日(ファイル名から抽出。GitHub の「YYYY-MM-DD-slug.md」形式に従う)、ならびに通知本文に記載されている GitHub リポジトリ URL をすべて抽出しています。GitHub 自体のインフラストラクチャを指す URL(例:github.com/contact や github.com/site)は除外されます。

通知に見られる各一意な GitHub ユーザー名について、GitHub REST API(GET /users/{username})をクエリし、そのユーザのプロフィール情報を取得します。これにより、特にユーザーが自己申告した「場所」フィールドを取得しています。これは、ユーザーが任意に入力するフリーテキスト文字列であり、都市名、国名、大学名であってもよいし、完全に空白のままでも可能です。削除されたアカウントは 404 エラーを返し、さらに含まれません。

raw な場所の文字列から国を導き出す作業を手作業で行っています。GitHub プロフィールに場所が含まれていない場合も、プロフィールおよび関連するメールドメインを検証することで国を特定します。このプロセスは本質的に不完美です(例:「Cambridge」はイギリスまたはアメリカを指す可能性がある)。多くのユーザーは一切の場所情報を提供しません。データセット内の 170 人の一意な開発者のうち、国に割り当てられた場所はもとの場所に解決できたのは 75 人のみです。

本データの収集スクリプトを最新状態の github/dmca リポジトリに対して再実行することにより、定期的にデータを刷新しています。本ページは、対象となっているリポジトリの内容(実際の参加者データ、派生データセット、解析コード、または単なるドキュメントか)について何らの主張も行いません。報告するのは、英バイオバンクが提出したパブリックな DMCA 通知で公開されている情報のみに限定されます。

さらに読む

GitHub 上のバイオバンクデータの露見は、英バイオバンクにおけるガバナンス課題の一系列の最近の事例です。

  • 2026 年 3 月:機密的健康記録がオンライン上で露見——ガーディアン紙による調査で、研究者らがコードを共有する過程で、参加者のデータをパブリックな GitHub リポジトリにアップロードしていたことが明らかになりました。ボランティアの同意を得て、ジャーナリストは、誕生年月日ならびに単一の重大手術の日付のみを用いて、露見されたデータセット内の自分のレコードを照合することに成功しました。

同じ日のほかのニュース

一覧に戻る →

2026/04/24 3:01

文書の見直しのお手伝いをいたしますが、ご提示いただいた「GPT-5.5」という入力は、翻訳や編集の対象となる文章を含んでおりません。 ルールに従って文書の体裁を整える対象となりますよう、該当する原文をご提供ください。 また、「GPT-5.5」という名称は、現時点で公開されている正式版のモデル名とは一致しておりません(現在最新シリーズは GPT-4o や GPT-4 Turbo などです)。 特定のテキストを処理させていただく場合は、その内容をお貼り付けください。

## Japanese Translation: OpenAI は、エージェント型コーディング、高度なコンピューター操作、知識作業、科学研究を特に目的に設計された、至今に至るまで最も知的で直感的なモデルである GPT‑5.5 を発表します。このモデルは GPT‑5.4 と同等のトークンあたり遅延を実現し、Codex タスクにおいて著しくトークン使用量を削減することで、NVIDIA GB200 および GB300 NVL72 システム上で Codex が負荷分散のヒューリスティクスを最適化するのを支援しながら、生成速度を 20% 以上向上させています。複雑なコマンドラインワークフローに関する Terminal-Bench 2.0 で 82.7% の精度、実世界の GitHub アイシュー解決における SWE-Bench Pro で 58.6% の精度を実現し、最先端のパフォーマンスを提供します。Codex においては、実装からリファクタリング、デバッグに至るまでのエンドツーエンドのエンジニアリングタスクに優れ、大規模システム全体を文脈として保持しつつ、曖昧なエラーに対しても推論を行います。安全性は引き続き最優先事項であり、モデルは新たなサイバーおよび生物学リスクに対して厳格に評価され、レッドチームによってテストされ、ほぼ 200 の信頼できるパートナーからのフィードバックに基づいて改良され、「生物学・化学およびサイバーセキュリティ能力において OpenAI の準備度フレームワークの「High」カテゴリー分類」を受領しました。GPT‑5.5 は、ChatGPT および Codex で Plus、Pro、Business、Enterprise ユーザーへ段階的に導入されており(gpt-5.5 Pro は Pro、Business、Enterprise 向けに利用可能)、API アクセスも近日中に gpt-5.5 について入力トークン当たり 5 ドル、出力トークン当たり 30 ドル(gpt-5.5-pro は 30 ドル/180 ドル)、および Very soon at $5/1M input tokens and $30/1M output tokens for gpt-5.5 ($30/$180 for gpt-5.5-pro) のレートで利用可能になります。OpenAI はまた、Trusted Access for Cyber を通じて「cyber-permissive」モデルの提供範囲を拡大し、検証済みユーザーに制限が少なくなった高度なセキュリティツールへのアクセスを提供します。知識作業ベンチマークでは、プロンプトチューニングなしで GDPval で 84.9%、OSWorld-Verified で 78.7%、Tau2-bench Telecom で 98.0% の強力な結果を示しました。 ## Text to translate: ## Summary: OpenAI is launching GPT‑5.5, its smartest and most intuitive model yet, specifically engineered for agentic coding, complex computer use, knowledge work, and scientific research. The model matches GPT‑5.4 per-token latency while significantly reducing token usage for Codex tasks, achieving faster generation speeds by over 20% when serving on NVIDIA GB200 and GB300 NVL72 systems (with help from Codex in optimizing load balancing heuristics). It delivers state-of-the-art performance with 82.7% accuracy on Terminal-Bench 2.0 for complex command-line workflows and 58.6% on SWE-Bench Pro for real-world GitHub issue resolution. In Codex, it excels at end-to-end engineering tasks—from implementation and refactoring to debugging—while holding context across large systems and reasoning through ambiguous failures. Safety remains a top priority: the model was rigorously evaluated against emerging cyber and biology risks, tested by redteamers, and refined with feedback from nearly 200 trusted partners, earning a "High" classification under OpenAI's Preparedness Framework for biological/chemical and cybersecurity capabilities. GPT‑5.5 is rolling out to Plus, Pro, Business, and Enterprise users in ChatGPT and Codex (with GPT‑5.5 Pro available to Pro, Business, and Enterprise), and API access will be available very soon at $5/1M input tokens and $30/1M output tokens for gpt-5.5 ($30/$180 for gpt-5.5-pro). OpenAI also expands "cyber-permissive" models via Trusted Access for Cyber, allowing verified users to access advanced security tools with fewer restrictions. Knowledge work benchmarks show strong results: 84.9% on GDPval, 78.7% on OSWorld-Verified, and 98.0% on Tau2-bench Telecom without prompt tuning.

2026/04/23 23:17

Bitwarden CLI、継続中の Checkmarz サプライチェーン攻撃で乗っ取られたと判明

## 日本語訳: セキュリティ研究者の InstallSocket が、継続中の「Checkmarx」キャンペーンの一環として、Bitwarden CLI ツール(@bitwarden/cli バージョン 2026.4.0)を対象とした重大なサプライチェーン攻撃を発見した。当該侵害は npm パッケージ内の `bw1.js` ファイルにあり、Bitwarden のビルドパイプラインにおける改ざんされた GitHub Action を利用して悪意のあるコードを注入したものである。これは CLI を使用する組織に対して直ちに脅威をもたらすものの、Chrome 拡張機能や MCP サーバーなどの他の配信形態は影響を受けていない。 悪意のあるペイロードは、主要なクラウドプロバイダー(AWS、Azure、GCP)、npm、SSH および Claude/MCP の設定ファイルにアクセスするためにメモリーをスクレイピングし、機密認証情報を収集することを目的としている。データを流出させる手法としては、「Dune 風」の命名規則を用いた GitHub API アップロードや、npm トークンを盗むためのパッケージのリパブリッシュが含まれる。このリスクに直面している組織は、InstallSocket からのさらなる技術分析的な確認を待たずに、直ちにビルドログを検証して侵害の指標(改ざんされたシェルプロフィール(`~/.bashrc`、`~/.zshrc`)、特定のエビディングファイル(`/tmp/tmp.987654321.lock`)、「Shai-Hulud」や"Butlerian Jihad"といったキーワードなど)を特定し、すべての公開された機密情報(SSH キー、トークン、CI/CD クレデンシャル等)を再発行するよう求める。

2026/04/24 5:14

「『インターネットを 1999 年あたりのまま使いこなすような』感覚を持つ」あるいは「ネットの使い方を、まるで 1999 年のあの頃のように(古き良き時代のように)捉えている」という意味で解釈できます。

## Japanese Translation: 著者は、現代のインターネット利用習慣が私達をアルゴリズムによる操作と「ドゥームスクロリング(絶え間ないスクロール)」という循環に陥れ、ウェブの可能性の僅かな部分にのみ留まらせていることを主張している。注意の代理権を取り戻すためには、社会メディアプラットフォームから、RSS フィードや IRC/XMPP プロトコル、HTTP/SMTP サービスといった、企業インセンティブではなく制約によって設計された直接データソースへ移行する必要がある。このアプローチは、深い高品質なコンテンツへのアクセスを保証すると同時に、反復的な LLM ポストのような低努力な AI 生成コンテンツ(スロープ)を能動的に拒否することを可能にする;著者は、「これはこれではなく、あれだ」といった類の明らかなフレーズが付けられたコンテンツを特に避けている。 歴史的には、1999 年の時点で人口のおよそ 4% がインターネットを利用していただけであり、その時点ではソーシャルメディアとアルゴリズムが現在の約 75% の浸透率を支配する以前のことだった。提案される道筋は、Miniflux などのツールを設定して意図的な購読を通じて独自の現実を編集することを受け入れ、信頼性の高いテキスト通信のために単純なプロトコルを採用すること(1980 年代後半以降の IRC;OMEMO 暗号化を実装したセルフホスト XMPP)、そしてMATRIX/Element といったより有益でないプラットフォームをあえて避ける代わりに確立された標準を採用することを含む。最後に、ユーザーは専門的な検索習慣を採用すべきであり、受動的な閲覧ではなく正確なクエリの作成を通じて意味のある情報を抽出し、技術大手をユーザー主導の注意経済に適応させる可能性がある方向へと推すものである。