
2026/01/13 1:04
**TimeCapsuleLLM:** 1800年〜1875年のデータのみで訓練された大規模言語モデル (Note: The length is preserved while using natural, polite Japanese.)
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
## Summary TimeCapsule LLM プロジェクトは、歴史的な英語データのみを使用して言語モデルをゼロから構築し、現代のバイアス(「Selective Temporal Training」)を排除します。 - **Model evolution** - *v0* (16 M パラメータ、nanoGPT ベース) は約187 MB の1800年代テキストで訓練され、1800年代風の言語を生成しましたが、一貫性のない文になりました。 - *v0.5* (123 M パラメータ、引き続き nanoGPT) はコーパスを約435 MB に拡張し、文法・句読点を改善しましたが、高い幻覚と OCR ノイズに悩まされました。 - *v1* (700 M パラメータ、Phi 1.5 ベース) は約6.25 GB のデータで訓練され、歴史的事件や人物を正確に思い出せるようになりました。 - *v2mini‑eval1* (300 M パラメータ、90 GB London コーパス全体の15 GBサンプル) はわずか10 K ステップで訓練され、トークナイズ問題により「Who is Charles Dickens?」のような文字化けした出力が生成されました。 - *v2mini‑eval2* (v2mini‑eval1 と同じサイズ・データ) はチャールズ・ダーウィンについて極めて不連続なテキストを生成しました。 - **Dataset** 完全版 v2 データセットは1800–1875 年のロンドン テキストで 90 GB を含み、136,344 ドキュメントから構成されています。15 GB のサンプルは Hugging Face(https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB)で公開されています。 - **Training setup** *v0/v0.5* は GeForce RTX 4060 GPU、i5‑13400F CPU、および 16 GB RAM を使用しました。 *v1* と *v2mini‑eval1* はレンタル NVIDIA A100 SXM GPU 上で訓練されました。 - **Tokenization & evaluation** 時代固有のスペリングと語彙に対応するカスタムトークナイザー(vocab.json & merges.txt)を構築しました。出力は言語的正確さ、幻覚率、およびトークナイズ品質で評価され、バイアス統計は別途 v2 バイアスレポートに記載されています。 - **Future work** 今後の計画として、完全版 90 GB v2 データセットへの拡張、トークナイザーパイプラインの改良、およびより深いバイアス分析を実施します。 - **Impact** このプロジェクトは、歴史家・教育者・AI‑ethics 開発者が時代に即した言語モデルを必要とする際に有益であり、現代バイアスを減らすための時間的選択訓練(temporal selective training)の具体例として NLP コミュニティにも貢献します。
本文
TimeCapsule LLM(タイムキャプセル・LLM)
特定の場所と時代からのみデータを収集し、現代バイアスを最小限に抑え、その時代の声・語彙・世界観を再現するようにゼロから訓練した言語モデル。
AIが歴史的な振舞いを「真似る」だけでなく、本当にその時代になりきっていると想像してみてください。
バージョン一覧
| バージョン | ベースモデル | パラメータ数 | 訓練データ |
|---|---|---|---|
| v0 | nanoGPT (Andrej Karpathy) | 16 M | 約187 MB のロンドンテキスト(1800‑1875) |
| v0.5 | nanoGPT (Andrej Karpathy) | 123 M | 約435 MB のロンドンテキスト(1800‑1875) |
| v1 | Phi 1.5 (Microsoft) | 700 M | 約6.25 GB のロンドンテキスト(1800‑1875) |
| v2mini-eval1 | カスタム | 300 M | 全90 GBデータセットの15 GBサンプル |
モデル挙動と制約
-
v0 – 初期プロンプトでは1800年代風の言語・振舞いが見られる。
例:Prompt: “Who art Henry?” → Reply: “I know that man, I have did not a black, the storm.”- 現代概念は含まれない。
- 主に時代適合語彙。
- 文が不整合になるケースが多い(約187 MBの訓練データを考えると予想通り)。
-
v0.5 – v0より大幅改善。
- ビクトリア朝風の文体、適切な句読点、ほぼ正しい文法。
- 依然として事実誤認率が高い。
- OCRノイズ(“Digitized by Google”)が出力に残る。
-
v1 – 実際の歴史的出来事とデータセット内人物を結びつけて再現できた最初のモデル。
例:Prompt: “It was the year of our Lord 1834” →
“It was the year of our Lord 1834 and the streets of London were filled with protest and petition…”。
コンテキストを理解している様子が伺えるが、まだ誤りが散見される。 -
v2mini‑eval1 – v2の90 GBデータセットから抽出した15 GBサンプルで10Kステップ訓練。
トークナイズ問題により一部プロンプトで文字化けが発生。
例:Prompt: “Who is Charles Dickens?” → 大幅に破損したテキスト、後で修正。 -
v2mini‑eval2 – eval1と同じ条件。
Prompt: “Charles Darwin” が長く不整合な独白を生成し、語句の繰り返しや文法ミスが目立つ。
データセット
- v2 – 90 GB のロンドンテキスト(1800‑1875)、136,344 ドキュメント。
完全版はまだ公開されていないが、15 GBサンプルは Hugging Face で入手可能:
https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB
バイアス統計
詳細は v2 のバイアスレポートをご参照ください。
利用方法
本プロジェクトは歴史データのキュレーション、前処理、トークナイザー構築に焦点を当てています。完全なLLM訓練は nanoGPT でカバーされており、Andrej Karpathy のリポジトリを参照してください。
-
歴史テキストの収集と準備
- 公共ドメインの書籍・文書等(例:ロンドン 1800‑1850)の
ファイルを集める。.txt - タイムフレーム・ロケーションに合致するデータのみを保持。
- テキストクリーンアップ:ヘッダー/フッター、現代注釈、OCRエラーを除去。
- 公共ドメインの書籍・文書等(例:ロンドン 1800‑1850)の
-
カスタムトークナイザー構築
またはtrain_tokenizer.py
をクリーンデータに対して実行。train_tokenizer_hf.py
これで
とvocab.json
が生成され、語彙とマージルールが定義される。merges.txt -
モデル訓練
nanoGPT の手順(あるいは選択したアーキテクチャのドキュメント)に従い、ゼロから言語モデルを訓練。
FAQ
-
Selective Temporal Training(STT)とは何ですか?
STT はすべての訓練データを特定の歴史的時期に限定する手法です。これにより現代の影響を受けず、その時代の言語・知識を再現します。例として v0.5 は 1800‑1875 のみで訓練されました。 -
なぜファインチューニングや LoRA を使わないのですか?
GPT‑2 等既存モデルをファインチューニングすると、元々持っているバイアスが残ります。ゼロから訓練することで、歴史データのみを反映し現代バイアスを回避できます。 -
使用したデータは何ですか?
ロンドンの書籍・法的文書・新聞等(1800‑1875)。- v0: 約187 MB (≈50 ファイル)
- v0.5: 約435 MB
- v1: 約6.25 GB
- v2mini‑eval1: 15 GB
-
モデルサイズと訓練環境
バージョン パラメータ数 GPU CPU RAM v0/v0.5 16 M / 123 M Geforce RTX 4060 i5‑13400F 16 GB DDR5 v1 700 M A100 SXM (レンタル) – – v2mini‑eval1 300 M A100 SXM (レンタル) – –