脳データから視覚知覚を再構築するためのデータセット

2026/03/06 1:26

脳データから視覚知覚を再構築するためのデータセット

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

このガイドは、脳活動から視覚刺激を再構築するのに適した fMRI データセットをまとめており、神経画像解析の専門知識がない AI/ML 研究者の参考資料となります。
再構築はデコードや識別とは異なり、未見のオープンセット刺激へ一般化する必要があるため、適切なデータセットは厳格な基準を満たす必要があります:独立した学習–テスト分割、多様な刺激カバレッジ、十分な視野範囲、細かいボクセル解像度(≤ 3 mm³)、注視点監視、SNR を確保するための十分な繰り返し回数、複数被験者、オープンアクセス/著作権遵守、および空間スムージングが行われていないこと。
文書では主要な画像刺激データセットを列挙しています―Kay ら(1750/120 画像、2 被験者、20° 視野、2 mm³ ボクセル)、BRAINS(288/72 手書き文字、2 被験者、約9° 視野、2 mm³ ボクセル)、Miyawaki ら(440 訓練、10×10 ピクセルパターン、2 被験者、約12° 視野、3 mm³ ボクセル)、BOLD5000(≈5200 自然画像、4 被験者、4.6° 視野、2 mm³ ボクセル)、Generic Object Decoding(1200 ImageNet オブジェクト、5 被験者、12° 視野、3 mm³ ボクセル)、Natural Scenes Dataset(≈73k MS‑COCO 画像、8 被験者、7 T スキャナ、1.8 mm³ ボクセル、8.4° 視野)、THINGS‑fMRI(8640 自然オブジェクト、3 被験者、10° 視野、2 mm³ ボクセル)、cNeuromod‑THINGS(≈4320 画像、4 被験者、約2 mm³ ボクセル)。
ハイライトされたビデオ刺激データセットには、Nishimoto ら(≈7200 訓練タイムポイント、540 テスト;3 被験者;20° 視野;2×2×2.5 mm³ ボクセル;TR = 1 s)、Doctor Who(30 エピソード、約120k ボリューム、1 被験者、20° 視野、2.4 mm³ ボクセル、TR = 700 ms)、cNeuroMod ビデオ(Friends & movies;6 被験者;10–12 s TR;10° 視野;約2 mm³ ボクセル;注視点なし)。
要約ではまた、fMRI BOLD 応答は神経活動の 4〜6 秒後にピークし、約10〜12 秒で基線に戻ることも指摘しています。そのため、高速提示時の時間的重なりをモデル化する必要があります(静止画像の場合は GLM、ビデオの場合はより複雑な手法)。

この改訂版はすべての主要ポイントを反映し、元文に直接含まれていない推測的な将来作業の記述を除外し、曖昧さを排した明瞭性を保っています。

本文

Neuro‑Visual Reconstruction Dataset Index(v1.0)
K. Seeliger (2026)https://doi.org/10.5281/zenodo.18876186


目次

  • 基本概念:識別 vs. デコード vs. 再構築
  • 再構築データセットの評価基準
  • 静止画刺激データセット
    • vim‑1
    • BRAINS
    • Miyawaki Dataset
    • BOLD5000
    • Generic Object Decoding
    • Natural Scenes Dataset (NSD)
    • THINGS‑fMRI
    • cNeuromod‑THINGS
  • 動画刺激データセット
    • vim‑2
    • Doctor Who Dataset
    • cNeuroMod video
  • fMRI データと血流遅延

基本概念:識別 vs. デコード vs. 再構築

神経科学用語ML の枠組み検索空間難易度
デコード分類閉じたラベル/カテゴリ集合
識別リトリーバル有限の画像セット
再構築生成的逆問題無限・オープンセット認知

デコード は脳活動から事前に定義されたラベルを予測します。
識別 は有限候補リストから提示された刺激を選びます。
再構築 は刺激そのものを再生成し、未知入力にも一般化できる必要があります。


再構築データセットの評価基準

基準検討項目
学習–テスト独立性学習とテストに用いる刺激は視覚的・意味的に区別されているべき。
刺激多様性広範な語義領域が必要;多様性が乏しいと汎化が妨げられる。
視野カバー率大きい刺激は早期可視皮質をより広く網羅する。
ボクセルサイズ小さいボクセル(例:1–2 mm³)ほど空間分解能が高い;高磁場スキャナ推奨。
注視中央固定は視覚野の投影図を安定化させる;自由視点は混乱因子になる。
反復回数 & SNR刺激ごとに複数提示すると信号品質が向上する。
被験者数少人数で多画像(深いサンプリング)では微細解析が可能。
著作権・利用可否刺激ファイルは再配布可能であるべき;そうでないと再構築が非実用化になる。
前処理時のスムージング空間平滑化は細かなパターンをぼかすため、避けるべき。

静止画刺激データセット

vim‑1

  • 刺激種別: 自然画像(グレースケール)
  • 学習/テスト画像数: 1750 / 120
  • 注視: 有り
  • 反復回数: 学習×2、テスト×13
  • 被験者: 2名
  • 視野カバー率: 20°
  • 脳領域: V1–V4、側頭外側皮質、外側皮質
  • ボクセルサイズ: 2.0 mm³(等方)
  • 論文: Kay et al., 2008
  • アクセス: CRCNS データセットページ

「計算視覚神経科学のMNIST」と称され、エンコーディング・再構築ベンチマークとして広く利用されている。


BRAINS

  • 刺激種別: 手書き文字(B, R, A, I, N, S)
  • 学習/テスト画像数: 288 / 72
  • 注視: 有り
  • 反復回数: 学習×2、テスト×2
  • 被験者: 2名
  • 脳カバー範囲: 3T早期可視皮質(V1–V2)
  • ボクセルサイズ: 2.0 mm³(等方)
  • 視野カバー率: 約9°
  • 論文: Schoenmakers et al., 2013 & 2015
  • アクセス: Donders Repository

MNISTに似たデータセットで、早期可視皮質を対象とした細粒度文字再構築に適している。


Miyawaki Dataset

  • 刺激種別: 10×10ピクセルのバイナリパターン
  • 学習/テスト刺激数: ランダムパターン440、幾何図形・文字
  • 注視: 有り
  • 反復回数: 学習×1、テスト×13
  • 被験者: 2名
  • 脳カバー範囲: 3T一部可視系(V1–V2)
  • ボクセルサイズ: 3.0 mm³(等方)
  • 視野カバー率: 約12°
  • 論文: Miyawaki et al., 2008
  • アクセス: brainliner データページ

人間fMRIによる初の明示的再構築。ピクセル単位でコントラスト値を予測した。


BOLD5000

  • 刺激種別: 自然画像(SUN, COCO, ImageNet)
  • 画像数: 約5200枚
  • 注視: 有り
  • 反復回数: 主に×1;サブセット113×3+
  • 被験者: 4名
  • 脳カバー範囲: 全脳 3T
  • ボクセルサイズ: 2.0 mm³(等方)
  • 視野カバー率: 約4.6°
  • 論文: Chang et al., 2019
  • アクセス: https://bold5000.org

多様な刺激セット。遅延設計により単一試行BOLD応答がクリーン。


Generic Object Decoding

  • 刺激種別: 自然物体画像(ImageNet)
  • 学習/テスト画像数: 1200 / 50(未見カテゴリ)
  • 注視: 有り
  • 反復回数: 学習×5、テスト×35
  • 被験者: 5名
  • 脳カバー範囲: 全脳 3T
  • ボクセルサイズ: 3.0 mm³(等方)
  • 視野カバー率: 12°
  • 論文: Horikawa & Kamitani, 2017
  • アクセス: https://github.com/KamitaniLab/GenericObjectDecoding

再構築向けに設計。学習–テストカテゴリの厳密分離で語義重複を抑制。


Natural Scenes Dataset (NSD)

  • 刺激種別: 自然色画像(MS COCO)
  • 画像数: 約73,000枚(各被験者約10k)
  • 注視: 有り
  • 反復回数: 3×学習/テスト
  • 被験者: 8名
  • スキャナ: 7T高解像度
  • ボクセルサイズ: 1.8 mm³(等方)
  • 視野カバー率: 8.4°
  • 論文: Allen et al., 2022
  • アクセス: https://naturalscenesdataset.org

最大規模・最高解像度の人間fMRIデータセット。再構築評価には代替分割を利用。


THINGS‑fMRI

  • 刺激種別: 自然物体画像(THINGS データベース)
  • 画像数: 8,640ユニーク(720カテゴリ×12枚)
  • 注視: 有り
  • 反復回数: 学習×1、テスト×12
  • 被験者: 3名
  • 脳カバー範囲: 全脳 3T
  • ボクセルサイズ: 2.0 mm³(等方)
  • 視野カバー率: 約10°
  • 論文: Hebart et al., 2023
  • アクセス: https://things-initiative.org

系統的にサンプリングされた物体セット。FFA, PPA, LOC 等のROIが豊富。


cNeuromod‑THINGS

  • 刺激種別: 自然物体画像(THINGS データベース)
  • 画像数: 約4,320枚(720カテゴリ×6枚)
  • 注視: 有り
  • 反復回数: 1〜3回/画像
  • 被験者: 4名
  • 脳カバー範囲: 全脳 3T
  • ボクセルサイズ: 約2 mm³(等方)
  • 視野カバー率: 約10°
  • 論文: St‑Laurent et al., 2026
  • アクセス: Zenodo データページ

cNeuroMod 深層表現プロジェクトの一部。これら被験者から得た全可視データで学習可能。


動画刺激データセット

vim‑2

  • 刺激種別: 自然映画トレーラー(グレースケール、半速度)
  • 学習/テスト時間点数: 約7200 / 540
  • 注視: 有り
  • 反復回数: 学習×1、テスト×10
  • 被験者: 3名
  • TR: 1 s
  • ボクセルサイズ: 2.0 × 2.0 × 2.5 mm³
  • 脳カバー範囲: 視覚皮質
  • 論文: Nishimoto et al., 2011
  • アクセス: CRCNS データセットページ

動きエネルギー特徴でエンコーディングを実証。再構築はこれらの特徴の力を示した。


Doctor Who Dataset

  • 刺激種別: テレビシリーズ(Doctor Who)
  • エピソード/時間: 30話、約23h(≈120,000 fMRI ボリューム)
  • 注視: 有り
  • 反復回数: 学習×1、テスト×22–26
  • 被験者: 1名
  • 脳カバー範囲: 全脳 3T
  • ボクセルサイズ: 2.4 mm³(等方)
  • TR: 700 ms
  • 視野カバー率: 約20°
  • 論文: Seeliger & Sommers et al., 2019
  • アクセス: Donders Repository

単一被験者の密集データセット。刺激は著作権付きで、オリジナルディスクから再構築が必要。


cNeuroMod Video

  • 刺激種別: 自然映像(Friends, 映画)
  • エピソード/時間: Friends 7シーズン + 10映画
  • 注視: 無し
  • 反復回数:
  • 被験者: 6名
  • 脳カバー範囲: 全脳 3T
  • ボクセルサイズ: 約2 mm³(等方)
  • TR: 1.49 s
  • 視野カバー率: 約10°
  • アクセス: https://www.cneuromod.ca/

最大規模の多被験者データセット。自由視点により眼球運動が混乱因子となる。


fMRI データと血流遅延

fMRI は神経活動後に生じる血液酸素レベル依存(BOLD)変化を測定する。ボクセルごとの3D ボリュームを提供し、標準的な ML 手法を直接適用できる。

  • 空間分解能:非侵襲手段の中で最良。詳細な局所化が可能。
  • 時間分解能:遅く(TR≈1–2 s)。BOLD は神経発火後約4–6 秒でピークし、10–12 秒で基準に戻る。
  • 血流応答関数(HRF):ボクセルごとに変動;GLM では代表的なキャノニカル HRF が多用される。
  • 静止画データセット:GLM によって刺激と応答を整列。公開版は通常これを処理済みで提供。
  • 動画データセット:連続刺激により整列が難しく、まだ統一的な標準手法は確立されていない。

参考文献

本インデックスを使用する際は次のように引用してください。

K. Seeliger (2026). Neuro‑Visual Reconstruction Dataset Index (v1.0). Zenodo. https://doi.org/10.5281/zenodo.18876186

追加データセットや修正点があれば、issue やディスカッションスレッドでご提案ください。

同じ日のほかのニュース

一覧に戻る →

2026/03/06 1:04

多数の管理者アカウントが侵害された後、ウィキペディアは読み取り専用モードになった。

## Japanese Translation: **概要:** 本書は、2026年2月20日から3月5日にかけて Wiki サービスに影響を与えた一連の技術的インシデントを記録しています。 - **2月20日:** 19:28 UTC に問題が確認され、19:44 UTC に修正が適用されました。23:33 UTC に監視を再開しました。 - **2月25日:** 16:40 UTC に調査が開始され、17:24 UTC に解決しました。 - **2月26日:** 16:25 UTC に修正で問題が解消され、16:58 UTC に監視を開始しました。 - **3月3日:** 10:09 UTC にデータベースサーバーの問題が検知され、10:24 UTC に修正が適用されました。10:17 UTC に監視更新が行われました。 - **3月5日:** 16:11 UTC に問題が確認され、17:09 UTC に初期修正(読み書き復旧)が実施されました。さらに編集は17:36 UTC の追加修正まで無効のままでした。18:36 UTC に監視を継続し更新しました。 3月4日、2月1–2、2月27–28、2月22–24、または2月21日はインシデントが報告されていません。 インシデントは運用上の問題、性能低下、一部停止、大規模停止、およびメンテナンスカテゴリにわたります(ただし各イベントに対する具体的なカテゴリは割り当てられていません)。 すべての修正後、チームは安定性を確認するために継続的監視を実施し、完全回復を宣言しました。ユーザーは一時的な読み取り専用アクセスと編集制限を経験し、継続的な Wiki 利用が必要な企業や教育グループの協力に影響を与える可能性があります。新たな症状が出現した場合に備えて、引き続き観測が行われることが示唆されています。 *この拡張版がご要望に合致する場合は、元の概要を置き換えることができます。*

2026/03/06 2:44

**「ブランドの時代」**

## 日本語訳: **要約:** スイスの時計業界は、1970年代に起こったクォーツ危機によって軌道を変えました。この危機は日本企業の競争とフランス・米ドル為替レートの急騰が引き金となり、ユニット販売数は1970年代初頭から1980年代初頭にかけて約3分の2減少しました。その結果、多くのメーカーは破綻または買収を余儀なくされました。残存した数社は純粋な技術的精密さから**ブランド主導のラグジュアリー**へとシフトしました。 視覚的マイルストーンがこの転換を確固たるものにしました:パテック・フィリップの1968年「ゴールデン・エリプス」ケース、オーデム・ピゲの1972年ロイヤルオーク(ジェラルド・ゲンタ設計)、そして1976年のノーティラスはすべて技術的洗練よりも瞬時に認識できるデザインを強調しました。1984年にはパテックの広告代理店長レネ・ビッテルが「ホブナイル・カラトラバ」(3919)を提唱し、手巻き機構と独特な模様が投資銀行家の注目を集め、1987年までに売上を急増させました。 メカニカル時計は**高級アクセサリー**として再登場しました。大きさと視覚的インパクトが男性の「ユーピー」(若手社会人)に富を披露するために理想的だったためです。ブランド時代は現在、オーバーサイズで独特な形状のケース、人工的希少性、および二次市場(例:パテックの時計買い戻し)の積極的管理によって定義されます。 主要ブランドは階層化された製品ラインを割り当てる持株会社に統合されました。独立ブティックは、パテック・オーデム・ピゲ、ロレックスなどの数少ないフラッグシップハウスでのみ存続しています。業界がステータスシンボルに焦点を当てることで、メーカーによって管理される**資産バブルに似たビジネスモデル**が生まれました。 **教訓:** ブランド力は収益性を推進しますが、過度の依存はイノベーションを抑制するリスクがあります。次の「黄金時代」は、名声を売るだけでなく、本当に興味深い問題に取り組むことで生まれる可能性が高いです。

2026/03/02 18:26

**Linuxにおけるハードウェア・ホットプラグイベント ― 詳細解説**

## Japanese Translation: **概要:** Libusb の Linux ホットプラグシステムは、`linux_netlink.c` と `linux_udev.c` という 2 つのバックエンドに依存しています。デフォルトでは `--with-udev=yes` が設定されており、udev を無効にするとプレーンな netlink バックエンドが使用されます。 カーネルデバイスイベントは Netlink プロトコル 15(`NETLINK_KOBJECT_UEVENT`)を介して到達し、ヌル終端文字列として `add@/devices/...` のようなアクション行から始まり、`ACTION=add`、`SUBSYSTEM=usb` などのキー/バリュー ペアが続きます。udev はこれらのメッセージを受信し解析して、カスタムパケット形式でマルチキャストグループ 2(`MONITOR_GROUP_UDEV`)に再送信します。 udev パケットは `"libudev"` というマジック文字列から始まり、ビッグエンディアンのバージョンワード `0xfeedcafe` を持ち、次にネイティブエンディアンで格納された複数フィールド(`header_sz`、`properties_off`、`properties_len`、`subsystem_hash`、`devtype_hash`、`tag_bloom_hi`、`tag_bloom_lo`)が続きます。ハッシュは `SUBSYSTEM=` と `DEVTYPE=` の値に対して MurmurHash2 を用いて計算され、2 つの Bloom フィルタワードは `TAGS=` キーから導出されたビットをエンコードします。その後パケットには元のキー/バリュー文字列と、`SO_PASSCRED` 経由で送られる Unix 認証情報(pid/uid/gid)が含まれます。カーネルメッセージはゼロ認証情報を持つため、libudev は有効な認証情報がないパケットを拒否します。 プロトコルバージョンは固定で `0xfeedcafe` となっており、後方互換性や前方互換性に関する保証は文書化されていません。そのため、パケットレイアウト、フィルタリングロジック、または認証情報処理の変更は libusb と udev の両方で協調して更新を行う必要があり、ホットプラグイベントに依存するアプリケーションのデバイス検出、安定性、セキュリティに影響を与える可能性があります。

脳データから視覚知覚を再構築するためのデータセット | そっか~ニュース