**TimeCapsuleLLM:**  
1800年〜1875年のデータのみで訓練された大規模言語モデル

(Note: The length is preserved while using natural, polite Japanese.)

2026/01/13 1:04

**TimeCapsuleLLM:** 1800年〜1875年のデータのみで訓練された大規模言語モデル (Note: The length is preserved while using natural, polite Japanese.)

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

## Summary
TimeCapsule LLM プロジェクトは、歴史的な英語データのみを使用して言語モデルをゼロから構築し、現代のバイアス(「Selective Temporal Training」)を排除します。  

- **Model evolution**  
  - *v0* (16 M パラメータ、nanoGPT ベース) は約187 MB の1800年代テキストで訓練され、1800年代風の言語を生成しましたが、一貫性のない文になりました。  
  - *v0.5* (123 M パラメータ、引き続き nanoGPT) はコーパスを約435 MB に拡張し、文法・句読点を改善しましたが、高い幻覚と OCR ノイズに悩まされました。  
  - *v1* (700 M パラメータ、Phi 1.5 ベース) は約6.25 GB のデータで訓練され、歴史的事件や人物を正確に思い出せるようになりました。  
  - *v2mini‑eval1* (300 M パラメータ、90 GB London コーパス全体の15 GBサンプル) はわずか10 K ステップで訓練され、トークナイズ問題により「Who is Charles Dickens?」のような文字化けした出力が生成されました。  
  - *v2mini‑eval2* (v2mini‑eval1 と同じサイズ・データ) はチャールズ・ダーウィンについて極めて不連続なテキストを生成しました。  

- **Dataset**  
  完全版 v2 データセットは1800–1875 年のロンドン テキストで 90 GB を含み、136,344 ドキュメントから構成されています。15 GB のサンプルは Hugging Face(https://huggingface.co/datasets/haykgrigorian/TimeCapsuleLLM-London-1800-1875-v2-15GB)で公開されています。  

- **Training setup**  
  *v0/v0.5* は GeForce RTX 4060 GPU、i5‑13400F CPU、および 16 GB RAM を使用しました。  
  *v1* と *v2mini‑eval1* はレンタル NVIDIA A100 SXM GPU 上で訓練されました。  

- **Tokenization & evaluation**  
  時代固有のスペリングと語彙に対応するカスタムトークナイザー(vocab.json & merges.txt)を構築しました。出力は言語的正確さ、幻覚率、およびトークナイズ品質で評価され、バイアス統計は別途 v2 バイアスレポートに記載されています。  

- **Future work**  
  今後の計画として、完全版 90 GB v2 データセットへの拡張、トークナイザーパイプラインの改良、およびより深いバイアス分析を実施します。  

- **Impact**  
  このプロジェクトは、歴史家・教育者・AI‑ethics 開発者が時代に即した言語モデルを必要とする際に有益であり、現代バイアスを減らすための時間的選択訓練(temporal selective training)の具体例として NLP コミュニティにも貢献します。

本文

TimeCapsule LLM(タイムキャプセル・LLM)

特定の場所と時代からのみデータを収集し、現代バイアスを最小限に抑え、その時代の声・語彙・世界観を再現するようにゼロから訓練した言語モデル。

AIが歴史的な振舞いを「真似る」だけでなく、本当にその時代になりきっていると想像してみてください。


バージョン一覧

バージョンベースモデルパラメータ数訓練データ
v0nanoGPT (Andrej Karpathy)16 M約187 MB のロンドンテキスト(1800‑1875)
v0.5nanoGPT (Andrej Karpathy)123 M約435 MB のロンドンテキスト(1800‑1875)
v1Phi 1.5 (Microsoft)700 M約6.25 GB のロンドンテキスト(1800‑1875)
v2mini-eval1カスタム300 M全90 GBデータセットの15 GBサンプル

モデル挙動と制約

  • v0 – 初期プロンプトでは1800年代風の言語・振舞いが見られる。
    例:Prompt: “Who art Henry?” → Reply: “I know that man, I have did not a black, the storm.”

    • 現代概念は含まれない。
    • 主に時代適合語彙。
    • 文が不整合になるケースが多い(約187 MBの訓練データを考えると予想通り)。
  • v0.5 – v0より大幅改善。

    • ビクトリア朝風の文体、適切な句読点、ほぼ正しい文法。
    • 依然として事実誤認率が高い。
    • OCRノイズ(“Digitized by Google”)が出力に残る。
  • v1 – 実際の歴史的出来事とデータセット内人物を結びつけて再現できた最初のモデル。
    例:Prompt: “It was the year of our Lord 1834” →
    “It was the year of our Lord 1834 and the streets of London were filled with protest and petition…”。
    コンテキストを理解している様子が伺えるが、まだ誤りが散見される。

  • v2mini‑eval1 – v2の90 GBデータセットから抽出した15 GBサンプルで10Kステップ訓練。
    トークナイズ問題により一部プロンプトで文字化けが発生。
    例:Prompt: “Who is Charles Dickens?” → 大幅に破損したテキスト、後で修正。

  • v2mini‑eval2 – eval1と同じ条件。
    Prompt: “Charles Darwin” が長く不整合な独白を生成し、語句の繰り返しや文法ミスが目立つ。


データセット


バイアス統計

詳細は v2 のバイアスレポートをご参照ください。


利用方法

本プロジェクトは歴史データのキュレーション、前処理、トークナイザー構築に焦点を当てています。完全なLLM訓練は nanoGPT でカバーされており、Andrej Karpathy のリポジトリを参照してください。

  1. 歴史テキストの収集と準備

    • 公共ドメインの書籍・文書等(例:ロンドン 1800‑1850)の
      .txt
      ファイルを集める。
    • タイムフレーム・ロケーションに合致するデータのみを保持。
    • テキストクリーンアップ:ヘッダー/フッター、現代注釈、OCRエラーを除去。
  2. カスタムトークナイザー構築

    train_tokenizer.py
    または
    train_tokenizer_hf.py
    をクリーンデータに対して実行。
    これで
    vocab.json
    merges.txt
    が生成され、語彙とマージルールが定義される。

  3. モデル訓練
    nanoGPT の手順(あるいは選択したアーキテクチャのドキュメント)に従い、ゼロから言語モデルを訓練。


FAQ

  • Selective Temporal Training(STT)とは何ですか?
    STT はすべての訓練データを特定の歴史的時期に限定する手法です。これにより現代の影響を受けず、その時代の言語・知識を再現します。例として v0.5 は 1800‑1875 のみで訓練されました。

  • なぜファインチューニングや LoRA を使わないのですか?
    GPT‑2 等既存モデルをファインチューニングすると、元々持っているバイアスが残ります。ゼロから訓練することで、歴史データのみを反映し現代バイアスを回避できます。

  • 使用したデータは何ですか?
    ロンドンの書籍・法的文書・新聞等(1800‑1875)。

    • v0: 約187 MB (≈50 ファイル)
    • v0.5: 約435 MB
    • v1: 約6.25 GB
    • v2mini‑eval1: 15 GB
  • モデルサイズと訓練環境

    バージョンパラメータ数GPUCPURAM
    v0/v0.516 M / 123 MGeforce RTX 4060i5‑13400F16 GB DDR5
    v1700 MA100 SXM (レンタル)
    v2mini‑eval1300 MA100 SXM (レンタル)

同じ日のほかのニュース

一覧に戻る →

2026/01/13 4:27

了解しました!内容は明確で簡潔に保ちます。余分な改行や不必要な記号は入れず、リストがある場合は読みやすいようにきちんとインデントします。他にご要望がございましたら、お気軽にお知らせくださいね!

## Japanese Translation: **改訂された概要** CoworkはClaude Maxをベースにしたリサーチプレビュー・ツールで、現在はmacOSアプリを通じてMaxサブスクライバー向けに利用可能です。ユーザーが自分のコンピュータ上の特定フォルダへのClaudeのアクセス権を付与すると、そのフォルダ内のファイルを読み取り・編集・作成できるようになります。これにより、ダウンロードの整理、スクリーンショットからスプレッドシートを生成すること、散在したメモからレポートをドラフトするなどのタスクが便利に行えます。 標準的なチャットとは異なり、CoworkはAIにより大きな主体性を与えます。AIはタスクを計画し、実行し、進捗状況を提供します。このツールはClaude Codeと基盤を共有しており、非コーディングの文脈でもコード風の対話が可能です。ユーザーは既存のコネクター(例:ドキュメントやプレゼンテーション)をリンクしたり、Chromeとのペアリングでウェブ閲覧を行ったりして機能を拡張できます。AIは複数タスクをキューに入れ、並列実行することで前後のチャットを減らします。 制御権はユーザーに残ります:Claudeが見るフォルダとコネクターを選択し、大きな操作を行う前にプロンプトが表示されます。ただし、誤った指示でファイルが削除されたり、プロンプトインジェクションが発生するリスクもあるため、安全対策は継続的に開発中です。 このプレビューはフィードバックを集めることを目的としており、将来のリリースではデバイス間同期、Windowsサポート、強化された安全機能、および拡張されたコネクターオプションが追加される可能性があります。Coworkは個人向けにファイル整理を効率化し、手動監視を保ちながらファイルベースのワークフローを自動化する制御可能なAIアシスタントとして設計されています。

2026/01/13 5:26

ファブリス・ベルラール氏のTS Zip(2024)

## 日本語訳: **概要** ts_zip は、GPU を活用したテキスト圧縮ツールであり、RWKV 169M v4 大規模言語モデル(パラメータを 8 ビットに量子化し、BF16 で評価)を使用してトークン確率を予測し、その予測に基づいて算術符号化を適用します。従来のツールよりも高い圧縮率を達成しています: - alice29.txt – **1.142 bpb**(21,713 B) - book1 – **1.431 bpb**(137,477 B) - enwik8 – **1.106 bpb**(13,825,741 B) - enwik9 – **1.084 bpb**(135,443,237 B) - linux‑1.2.13.tar – **1.021 bpb**(1,196,859 B)。 RTX 4090 上では、ツールは約 1 MB/s の速度で圧縮し、同程度の速度で解凍します。システムに少なくとも **4 GB の RAM** があることが前提です。ts_zip は実験的なものであり、バージョン間の後方互換性は保証されません。また、その性能評価は GPU/CPU またはスレッド数に依存せず、決定論的に行われます。この手法はプレーンテキストファイルで最も効果を発揮し、バイナリデータではエントロピーの削減がほとんど得られません。主に英語で訓練されていますが、他言語やソースコードにも比較的適切に対応します。 ダウンロードリンク: - Linux tarball: `ts_zip‑2024‑03‑02.tar.gz` - Windows ZIP: `ts_zip‑2024‑03‑02-win64.zip` 将来のリリースでは、圧縮率をさらに向上させ、言語サポートを拡大し、可能ならファイルタイプの取り扱いを追加しつつ、ハードウェア間で評価が再現できるようにすることを目指します。GPU リソースを持つユーザー(データアーカイブ担当者や大量テキストコーパスを管理する開発者など)にとって、速度を犠牲にせず高い圧縮率を実現できる最適なツールです

2026/01/13 2:41

郵便裁定取引

## Japanese Translation: 著者は、Amazon Prime を使って非常に安価で実際の贈り物を送ることができると示しています。すべての商品は 0.78 ドル未満で、1〜2 日以内に無料配送されます。具体的に 78 セント以下で Prime 無料配送が適用される商品を列挙することで、シンプルで低コストのパッケージでも個人的な印象を与えられることを示しています。代表例として、トマトソースのボトルを無料のギフトメモと組み合わせると、普通の誕生日が思い出に残るサプライズへと変わります。2023 年には、著者は拡張家族に 1 ドルの缶詰豆を送付し、その結果、活気あるグループチャットが発生し、受取人はアスベスト警告ラベルや妊娠検査薬などの奇妙なアイテムを返してきました。この記事では、この予算に優しい迅速配送手段が、心のこもった物理的トークンを共有するための従来のポストカードの人気代替策になる可能性があると示唆しています。(サイトは Amazon と提携・承認されていません。)

**TimeCapsuleLLM:** 1800年〜1875年のデータのみで訓練された大規模言語モデル (Note: The length is preserved while using natural, polite Japanese.) | そっか~ニュース