Japanese Translation:

## Summary
TimeCapsule LLM プロジェクトは、歴史的な英語データのみを使用して言語モデルをゼロから構築し、現代のバイアス（「Selective Temporal Training」）を排除します。  

- **Model evolution**  
  - *v0* (16 M パラメータ、nanoGPT ベース) は約187 MB の1800年代テキストで訓練され、1800年代風の言語を生成しましたが、一貫性のない文になりました。  
  - *v0.5* (123 M パラメータ、引き続き nanoGPT) はコーパスを約435 MB に拡張し、文法・句読点を改善しましたが、高い幻覚と OCR ノイズに悩まされました。  
  - *v1* (700 M パラメータ、Phi 1.5 ベース) は約6.25 GB のデータで訓練され、歴史的事件や人物を正確に思い出せるようになりました。  
  - *v2mini‑eval1* (300 M パラメータ、90 GB London コーパス全体の15 GBサンプル) はわずか10 K ステップで訓練され、トークナイズ問題により「Who is Charles Dickens?」のような文字化けした出力が生成されました。  
  - *v2mini‑eval2* (v2mini‑eval1 と同じサイズ・データ) はチャールズ・ダーウィンについて極めて不連続なテキストを生成しました。  

- **Dataset**  
  完全版 v2 データセットは1800–1875 年のロンドン テキストで 90 GB を含み、136,344 ドキュメントから構成されています。15 GB のサンプルは Hugging Face（https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB）で公開されています。  

- **Training setup**  
  *v0/v0.5* は GeForce RTX 4060 GPU、i5‑13400F CPU、および 16 GB RAM を使用しました。  
  *v1* と *v2mini‑eval1* はレンタル NVIDIA A100 SXM GPU 上で訓練されました。  

- **Tokenization & evaluation**  
  時代固有のスペリングと語彙に対応するカスタムトークナイザー（vocab.json & merges.txt）を構築しました。出力は言語的正確さ、幻覚率、およびトークナイズ品質で評価され、バイアス統計は別途 v2 バイアスレポートに記載されています。  

- **Future work**  
  今後の計画として、完全版 90 GB v2 データセットへの拡張、トークナイザーパイプラインの改良、およびより深いバイアス分析を実施します。  

- **Impact**  
  このプロジェクトは、歴史家・教育者・AI‑ethics 開発者が時代に即した言語モデルを必要とする際に有益であり、現代バイアスを減らすための時間的選択訓練（temporal selective training）の具体例として NLP コミュニティにも貢献します。

TimeCapsule LLM（タイムキャプセル・LLM）

特定の場所と時代からのみデータを収集し、現代バイアスを最小限に抑え、その時代の声・語彙・世界観を再現するようにゼロから訓練した言語モデル。

AIが歴史的な振舞いを「真似る」だけでなく、本当にその時代になりきっていると想像してみてください。

バージョン一覧

バージョン	ベースモデル	パラメータ数	訓練データ
v0	nanoGPT (Andrej Karpathy)	16 M	約187 MB のロンドンテキスト（1800‑1875）
v0.5	nanoGPT (Andrej Karpathy)	123 M	約435 MB のロンドンテキスト（1800‑1875）
v1	Phi 1.5 (Microsoft)	700 M	約6.25 GB のロンドンテキスト（1800‑1875）
v2mini-eval1	カスタム	300 M	全90 GBデータセットの15 GBサンプル

モデル挙動と制約

v0 – 初期プロンプトでは1800年代風の言語・振舞いが見られる。
例：Prompt: “Who art Henry?” → Reply: “I know that man, I have did not a black, the storm.”
- 現代概念は含まれない。
- 主に時代適合語彙。
- 文が不整合になるケースが多い（約187 MBの訓練データを考えると予想通り）。
v0.5 – v0より大幅改善。
- ビクトリア朝風の文体、適切な句読点、ほぼ正しい文法。
- 依然として事実誤認率が高い。
- OCRノイズ（“Digitized by Google”）が出力に残る。
v1 – 実際の歴史的出来事とデータセット内人物を結びつけて再現できた最初のモデル。
例：Prompt: “It was the year of our Lord 1834” →
“It was the year of our Lord 1834 and the streets of London were filled with protest and petition…”。
コンテキストを理解している様子が伺えるが、まだ誤りが散見される。
v2mini‑eval1 – v2の90 GBデータセットから抽出した15 GBサンプルで10Kステップ訓練。
トークナイズ問題により一部プロンプトで文字化けが発生。
例：Prompt: “Who is Charles Dickens?” → 大幅に破損したテキスト、後で修正。
v2mini‑eval2 – eval1と同じ条件。
Prompt: “Charles Darwin” が長く不整合な独白を生成し、語句の繰り返しや文法ミスが目立つ。

データセット

v2 – 90 GB のロンドンテキスト（1800‑1875）、136,344 ドキュメント。
完全版はまだ公開されていないが、15 GBサンプルは Hugging Face で入手可能：
https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB

バイアス統計

詳細は v2 のバイアスレポートをご参照ください。

利用方法

本プロジェクトは歴史データのキュレーション、前処理、トークナイザー構築に焦点を当てています。完全なLLM訓練は nanoGPT でカバーされており、Andrej Karpathy のリポジトリを参照してください。

歴史テキストの収集と準備
- 公共ドメインの書籍・文書等（例：ロンドン 1800‑1850）の
```
.txt
```
  ファイルを集める。
- タイムフレーム・ロケーションに合致するデータのみを保持。
- テキストクリーンアップ：ヘッダー/フッター、現代注釈、OCRエラーを除去。
カスタムトークナイザー構築
```
train_tokenizer.py
```
または
```
train_tokenizer_hf.py
```
をクリーンデータに対して実行。
これで
```
vocab.json
```
と
```
merges.txt
```
が生成され、語彙とマージルールが定義される。
モデル訓練
nanoGPT の手順（あるいは選択したアーキテクチャのドキュメント）に従い、ゼロから言語モデルを訓練。

FAQ

Selective Temporal Training（STT）とは何ですか？
STT はすべての訓練データを特定の歴史的時期に限定する手法です。これにより現代の影響を受けず、その時代の言語・知識を再現します。例として v0.5 は 1800‑1875 のみで訓練されました。
なぜファインチューニングや LoRA を使わないのですか？
GPT‑2 等既存モデルをファインチューニングすると、元々持っているバイアスが残ります。ゼロから訓練することで、歴史データのみを反映し現代バイアスを回避できます。
使用したデータは何ですか？
ロンドンの書籍・法的文書・新聞等（1800‑1875）。
- v0: 約187 MB (≈50 ファイル)
- v0.5: 約435 MB
- v1: 約6.25 GB
- v2mini‑eval1: 15 GB
モデルサイズと訓練環境

バージョンパラメータ数 GPU CPU RAM
v0/v0.5 16 M / 123 M Geforce RTX 4060 i5‑13400F 16 GB DDR5
v1 700 M A100 SXM (レンタル) – –
v2mini‑eval1 300 M A100 SXM (レンタル) – –

TimeCapsuleLLM： 1800年〜1875年のデータのみで訓練された大規模言語モデル (Note: The length is preserved while using natural, polite Japanese.)

Japanese Translation:

バージョン一覧

モデル挙動と制約

データセット

バイアス統計

利用方法

FAQ

同じ日のほかのニュース

バージョン	パラメータ数	GPU	CPU	RAM
v0/v0.5	16 M / 123 M	Geforce RTX 4060	i5‑13400F	16 GB DDR5
v1	700 M	A100 SXM (レンタル)	–	–
v2mini‑eval1	300 M	A100 SXM (レンタル)	–	–

**TimeCapsuleLLM：** 1800年〜1875年のデータのみで訓練された大規模言語モデル (Note: The length is preserved while using natural, polite Japanese.)

Japanese Translation:

バージョン一覧

モデル挙動と制約

データセット

バイアス統計

利用方法

FAQ

同じ日のほかのニュース

TimeCapsuleLLM： 1800年〜1875年のデータのみで訓練された大規模言語モデル (Note: The length is preserved while using natural, polite Japanese.)