
2026/03/06 1:26
脳データから視覚知覚を再構築するためのデータセット
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
このガイドは、脳活動から視覚刺激を再構築するのに適した fMRI データセットをまとめており、神経画像解析の専門知識がない AI/ML 研究者の参考資料となります。
再構築はデコードや識別とは異なり、未見のオープンセット刺激へ一般化する必要があるため、適切なデータセットは厳格な基準を満たす必要があります:独立した学習–テスト分割、多様な刺激カバレッジ、十分な視野範囲、細かいボクセル解像度(≤ 3 mm³)、注視点監視、SNR を確保するための十分な繰り返し回数、複数被験者、オープンアクセス/著作権遵守、および空間スムージングが行われていないこと。
文書では主要な画像刺激データセットを列挙しています―Kay ら(1750/120 画像、2 被験者、20° 視野、2 mm³ ボクセル)、BRAINS(288/72 手書き文字、2 被験者、約9° 視野、2 mm³ ボクセル)、Miyawaki ら(440 訓練、10×10 ピクセルパターン、2 被験者、約12° 視野、3 mm³ ボクセル)、BOLD5000(≈5200 自然画像、4 被験者、4.6° 視野、2 mm³ ボクセル)、Generic Object Decoding(1200 ImageNet オブジェクト、5 被験者、12° 視野、3 mm³ ボクセル)、Natural Scenes Dataset(≈73k MS‑COCO 画像、8 被験者、7 T スキャナ、1.8 mm³ ボクセル、8.4° 視野)、THINGS‑fMRI(8640 自然オブジェクト、3 被験者、10° 視野、2 mm³ ボクセル)、cNeuromod‑THINGS(≈4320 画像、4 被験者、約2 mm³ ボクセル)。
ハイライトされたビデオ刺激データセットには、Nishimoto ら(≈7200 訓練タイムポイント、540 テスト;3 被験者;20° 視野;2×2×2.5 mm³ ボクセル;TR = 1 s)、Doctor Who(30 エピソード、約120k ボリューム、1 被験者、20° 視野、2.4 mm³ ボクセル、TR = 700 ms)、cNeuroMod ビデオ(Friends & movies;6 被験者;10–12 s TR;10° 視野;約2 mm³ ボクセル;注視点なし)。
要約ではまた、fMRI BOLD 応答は神経活動の 4〜6 秒後にピークし、約10〜12 秒で基線に戻ることも指摘しています。そのため、高速提示時の時間的重なりをモデル化する必要があります(静止画像の場合は GLM、ビデオの場合はより複雑な手法)。
この改訂版はすべての主要ポイントを反映し、元文に直接含まれていない推測的な将来作業の記述を除外し、曖昧さを排した明瞭性を保っています。
本文
Neuro‑Visual Reconstruction Dataset Index(v1.0)
K. Seeliger (2026) – https://doi.org/10.5281/zenodo.18876186
目次
- 基本概念:識別 vs. デコード vs. 再構築
- 再構築データセットの評価基準
- 静止画刺激データセット
- vim‑1
- BRAINS
- Miyawaki Dataset
- BOLD5000
- Generic Object Decoding
- Natural Scenes Dataset (NSD)
- THINGS‑fMRI
- cNeuromod‑THINGS
- 動画刺激データセット
- vim‑2
- Doctor Who Dataset
- cNeuroMod video
- fMRI データと血流遅延
基本概念:識別 vs. デコード vs. 再構築
| 神経科学用語 | ML の枠組み | 検索空間 | 難易度 |
|---|---|---|---|
| デコード | 分類 | 閉じたラベル/カテゴリ集合 | 低 |
| 識別 | リトリーバル | 有限の画像セット | 中 |
| 再構築 | 生成的逆問題 | 無限・オープンセット認知 | 高 |
デコード は脳活動から事前に定義されたラベルを予測します。
識別 は有限候補リストから提示された刺激を選びます。
再構築 は刺激そのものを再生成し、未知入力にも一般化できる必要があります。
再構築データセットの評価基準
| 基準 | 検討項目 |
|---|---|
| 学習–テスト独立性 | 学習とテストに用いる刺激は視覚的・意味的に区別されているべき。 |
| 刺激多様性 | 広範な語義領域が必要;多様性が乏しいと汎化が妨げられる。 |
| 視野カバー率 | 大きい刺激は早期可視皮質をより広く網羅する。 |
| ボクセルサイズ | 小さいボクセル(例:1–2 mm³)ほど空間分解能が高い;高磁場スキャナ推奨。 |
| 注視 | 中央固定は視覚野の投影図を安定化させる;自由視点は混乱因子になる。 |
| 反復回数 & SNR | 刺激ごとに複数提示すると信号品質が向上する。 |
| 被験者数 | 少人数で多画像(深いサンプリング)では微細解析が可能。 |
| 著作権・利用可否 | 刺激ファイルは再配布可能であるべき;そうでないと再構築が非実用化になる。 |
| 前処理時のスムージング | 空間平滑化は細かなパターンをぼかすため、避けるべき。 |
静止画刺激データセット
vim‑1
- 刺激種別: 自然画像(グレースケール)
- 学習/テスト画像数: 1750 / 120
- 注視: 有り
- 反復回数: 学習×2、テスト×13
- 被験者: 2名
- 視野カバー率: 20°
- 脳領域: V1–V4、側頭外側皮質、外側皮質
- ボクセルサイズ: 2.0 mm³(等方)
- 論文: Kay et al., 2008
- アクセス: CRCNS データセットページ
「計算視覚神経科学のMNIST」と称され、エンコーディング・再構築ベンチマークとして広く利用されている。
BRAINS
- 刺激種別: 手書き文字(B, R, A, I, N, S)
- 学習/テスト画像数: 288 / 72
- 注視: 有り
- 反復回数: 学習×2、テスト×2
- 被験者: 2名
- 脳カバー範囲: 3T早期可視皮質(V1–V2)
- ボクセルサイズ: 2.0 mm³(等方)
- 視野カバー率: 約9°
- 論文: Schoenmakers et al., 2013 & 2015
- アクセス: Donders Repository
MNISTに似たデータセットで、早期可視皮質を対象とした細粒度文字再構築に適している。
Miyawaki Dataset
- 刺激種別: 10×10ピクセルのバイナリパターン
- 学習/テスト刺激数: ランダムパターン440、幾何図形・文字
- 注視: 有り
- 反復回数: 学習×1、テスト×13
- 被験者: 2名
- 脳カバー範囲: 3T一部可視系(V1–V2)
- ボクセルサイズ: 3.0 mm³(等方)
- 視野カバー率: 約12°
- 論文: Miyawaki et al., 2008
- アクセス: brainliner データページ
人間fMRIによる初の明示的再構築。ピクセル単位でコントラスト値を予測した。
BOLD5000
- 刺激種別: 自然画像(SUN, COCO, ImageNet)
- 画像数: 約5200枚
- 注視: 有り
- 反復回数: 主に×1;サブセット113×3+
- 被験者: 4名
- 脳カバー範囲: 全脳 3T
- ボクセルサイズ: 2.0 mm³(等方)
- 視野カバー率: 約4.6°
- 論文: Chang et al., 2019
- アクセス: https://bold5000.org
多様な刺激セット。遅延設計により単一試行BOLD応答がクリーン。
Generic Object Decoding
- 刺激種別: 自然物体画像(ImageNet)
- 学習/テスト画像数: 1200 / 50(未見カテゴリ)
- 注視: 有り
- 反復回数: 学習×5、テスト×35
- 被験者: 5名
- 脳カバー範囲: 全脳 3T
- ボクセルサイズ: 3.0 mm³(等方)
- 視野カバー率: 12°
- 論文: Horikawa & Kamitani, 2017
- アクセス: https://github.com/KamitaniLab/GenericObjectDecoding
再構築向けに設計。学習–テストカテゴリの厳密分離で語義重複を抑制。
Natural Scenes Dataset (NSD)
- 刺激種別: 自然色画像(MS COCO)
- 画像数: 約73,000枚(各被験者約10k)
- 注視: 有り
- 反復回数: 3×学習/テスト
- 被験者: 8名
- スキャナ: 7T高解像度
- ボクセルサイズ: 1.8 mm³(等方)
- 視野カバー率: 8.4°
- 論文: Allen et al., 2022
- アクセス: https://naturalscenesdataset.org
最大規模・最高解像度の人間fMRIデータセット。再構築評価には代替分割を利用。
THINGS‑fMRI
- 刺激種別: 自然物体画像(THINGS データベース)
- 画像数: 8,640ユニーク(720カテゴリ×12枚)
- 注視: 有り
- 反復回数: 学習×1、テスト×12
- 被験者: 3名
- 脳カバー範囲: 全脳 3T
- ボクセルサイズ: 2.0 mm³(等方)
- 視野カバー率: 約10°
- 論文: Hebart et al., 2023
- アクセス: https://things-initiative.org
系統的にサンプリングされた物体セット。FFA, PPA, LOC 等のROIが豊富。
cNeuromod‑THINGS
- 刺激種別: 自然物体画像(THINGS データベース)
- 画像数: 約4,320枚(720カテゴリ×6枚)
- 注視: 有り
- 反復回数: 1〜3回/画像
- 被験者: 4名
- 脳カバー範囲: 全脳 3T
- ボクセルサイズ: 約2 mm³(等方)
- 視野カバー率: 約10°
- 論文: St‑Laurent et al., 2026
- アクセス: Zenodo データページ
cNeuroMod 深層表現プロジェクトの一部。これら被験者から得た全可視データで学習可能。
動画刺激データセット
vim‑2
- 刺激種別: 自然映画トレーラー(グレースケール、半速度)
- 学習/テスト時間点数: 約7200 / 540
- 注視: 有り
- 反復回数: 学習×1、テスト×10
- 被験者: 3名
- TR: 1 s
- ボクセルサイズ: 2.0 × 2.0 × 2.5 mm³
- 脳カバー範囲: 視覚皮質
- 論文: Nishimoto et al., 2011
- アクセス: CRCNS データセットページ
動きエネルギー特徴でエンコーディングを実証。再構築はこれらの特徴の力を示した。
Doctor Who Dataset
- 刺激種別: テレビシリーズ(Doctor Who)
- エピソード/時間: 30話、約23h(≈120,000 fMRI ボリューム)
- 注視: 有り
- 反復回数: 学習×1、テスト×22–26
- 被験者: 1名
- 脳カバー範囲: 全脳 3T
- ボクセルサイズ: 2.4 mm³(等方)
- TR: 700 ms
- 視野カバー率: 約20°
- 論文: Seeliger & Sommers et al., 2019
- アクセス: Donders Repository
単一被験者の密集データセット。刺激は著作権付きで、オリジナルディスクから再構築が必要。
cNeuroMod Video
- 刺激種別: 自然映像(Friends, 映画)
- エピソード/時間: Friends 7シーズン + 10映画
- 注視: 無し
- 反復回数: 1×
- 被験者: 6名
- 脳カバー範囲: 全脳 3T
- ボクセルサイズ: 約2 mm³(等方)
- TR: 1.49 s
- 視野カバー率: 約10°
- アクセス: https://www.cneuromod.ca/
最大規模の多被験者データセット。自由視点により眼球運動が混乱因子となる。
fMRI データと血流遅延
fMRI は神経活動後に生じる血液酸素レベル依存(BOLD)変化を測定する。ボクセルごとの3D ボリュームを提供し、標準的な ML 手法を直接適用できる。
- 空間分解能:非侵襲手段の中で最良。詳細な局所化が可能。
- 時間分解能:遅く(TR≈1–2 s)。BOLD は神経発火後約4–6 秒でピークし、10–12 秒で基準に戻る。
- 血流応答関数(HRF):ボクセルごとに変動;GLM では代表的なキャノニカル HRF が多用される。
- 静止画データセット:GLM によって刺激と応答を整列。公開版は通常これを処理済みで提供。
- 動画データセット:連続刺激により整列が難しく、まだ統一的な標準手法は確立されていない。
参考文献
本インデックスを使用する際は次のように引用してください。
K. Seeliger (2026). Neuro‑Visual Reconstruction Dataset Index (v1.0). Zenodo. https://doi.org/10.5281/zenodo.18876186
追加データセットや修正点があれば、issue やディスカッションスレッドでご提案ください。