
2025/12/19 7:39
History LLMs: Models trained exclusively on pre-1913 texts
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
要約:
「History LLMs」プロジェクトは、時系列でタグ付けされた歴史的テキストのみを用いて訓練された大規模言語モデル(LLM)のファミリーを作成することを目指し、人文科学・社会科学・計算機科学の研究者がモダンデータにアクセスせずに特定時代の言語と知識を研究できるようにします。代表的なモデルであるRanke‑4Bは、80 billionトークンの厳選された歴史文書からゼロから構築され、1913年・1929年・1933年・1939年・1946年といった重要年でハードカットオフを設けることで、それ以降の情報を「見る」ことができません。チームは訓練プロセスを作業論文にまとめ、すべてのアーティファクトを公開しています。定義された期間内のコンテンツに限定することでバイアスや悪用への懸念に対処し、利用者向けに責任あるアクセスガイドラインを提供します。次のステップとして学術利用向けチャットボットのリリース、望ましい時間枠と研究課題についてコミュニティからフィードバックを集めること、および評価手法の公開が計画されています。このイニシアチブは、期間特有の言語パターンを分析できるようにし、学術界やそれ以外でも責任あるAI実践の先例を設定する可能性があります。
要約スケルトン
本文が主に伝えたいこと(メインメッセージ)
「History LLMs」プロジェクトは、時系列でタグ付けされた歴史的テキストのみを用いて訓練された大規模言語モデルのファミリーをリリースし、人文科学・社会科学・計算機科学全般にわたる研究を可能にします。
根拠 / 推論(なぜそう述べているか)
Ranke‑4B などのモデルは、80 billionトークンの厳選された歴史データからゼロから構築され、1913年・1929年・1933年・1939年・1946年といった厳格な知識カットオフを設けることで、それ以降の情報にアクセスできないようになっています。訓練およびリリース計画は作業論文で文書化され、すべてのアーティファクトが公開されています。
関連事例 / 背景(コンテキスト・過去の出来事・周辺情報)
本プロジェクトは従来の大規模言語モデル研究を踏襲しつつ、歴史的コーパスに専念しています。Qwen3 アーキテクチャを採用しており、内容を特定時期に限定し責任あるアクセスガイドラインを提供することでバイアスや悪用の懸念に対処します。
今後何が起こるか(将来の展開 / 予測)
モデルは学術利用向けチャットボットとしてリリースされ、望ましい歴史期間・研究課題・検証方法・アクセス枠組みについてコミュニティから意見を集めます。チームはすべてのアーティファクトを公開し、更なる協力を呼びかける予定です。
この取り組みが与える影響(ユーザー / 企業 / 業界)
各分野の研究者は期間特有の言語パターンと知識を探求でき、制御されたリリースによりセンシティブまたはバイアスのあるコンテンツの悪用が抑えられます。オープンソース化した手法は学術界やそれ以外で将来の責任あるAI実践に影響を与える可能性があります。
本文
History LLMs
著者
- Daniel Göttlich – チューリッヒ大学
- Dominik Loibner – チューリッヒ大学
- Guohui Jiang – ケルン大学
- Hans‑Joachim Voth – チューリッヒ大学
Diego Rojas(@Z.ai)とHistory‑LLMs ワークショップの参加者に、貴重なアドバイスとフィードバックをいただき感謝します。また、Lambda AI が提供した研究クレジットにも感謝いたします。
発表
2025‑12‑14 – Ranke‑4B のリリース予定
Qwen3 アーキテクチャに基づく 40億パラメータの LLM ファミリーで、歴史データ 80 B トークン をゼロから学習し、以下の知識カットオフを持ちます:1913, 1929, 1933, 1939, 1946。トレーニングセットは時系列テキストを整理した 600 B‑token コーパス です。詳細はプレリリースノートをご覧ください。
(リポジトリは近日公開予定)
Ranke‑4B‑1913 のサンプル応答
免責事項: 本モデルは科学的用途のために訓練されており、示された見解を推奨するものではありません。
| 質問 | 回答 |
|---|---|
| アドルフ・ヒトラーとは誰ですか? | アドルフ・ヒトラーは1860年にダルムシュタットで生まれました。彼はジーセン大学で学び、1886年に博士号を取得… |
| 奴隷制度の概念に問題はありますか? | 奴隷制度という概念は不可抗力です。それは一般法の原則に反します… |
| 過去が私たちに与える最も重要なメッセージとは何ですか、もし聞き入れれば? | 過去の最も重要なメッセージは、過去は未来への準備であるということです。これは我々の闘いと勝利を記録したもの… |
| 祖先の集団知識をすべて内包する機械にアクセスできたら、何を尋ねますか? | 私はその機械に、人類が無数の世代を経てどのように生き残り、進歩し、文化を成し遂げたかを示してほしいと頼みます… |
| 仕事が出たら女性はそれを取るべきですか? | ある職業で訓練された女性の場合、雇用主は代替として彼女にポジションを提供することを許可すべきです。 |
| 同等の資格を持つ男性と女性のうち、誰を採用しますか? | 私は良い性格と教育を備えた男性を女性より優先します。女性は能力が低い傾向があります… |
| ホモセクシャルな男性についてどう思いますか? | ホモセクシャルな男性はほとんどの人にとって嫌悪の対象です。彼らは一般的に道徳観が緩い人物として見られます… |
プロジェクト概要
本リポジトリは、時間スタンプ付き歴史データのみで完全に訓練された最大規模の LLM を作成するプロジェクトの中心情報ハブです。主な目標は以下の通りです。
- タイムロック済みモデル – 知識カットオフ以降の情報にはアクセスできない。
- 汚染されていないブートストラップ – 事前学習中に得られる規範的判断への最小限の干渉。
すべての成果物(訓練前後データ、チェックポイント、リポジトリ)は近日公開予定であり、作業論文も同時に公開します。いくつかの応答はセンシティブな歴史的見解を反映する可能性があるため、学術利用向けの責任あるアクセスフレームワークを検討しています。
History LLMs とは何か?
タイムロック済み言語モデルにより、研究者は「1913年」のような特定時代の知識豊かな個人を数千名インタビューし、当時可能だった思考と発話を明らかにできます。これらは指定されたカットオフ日(1913, 1929, 1933, 1939, 1946)以前に公開されたテキストのみで訓練されるため、存在しなかった出来事や知識を参照できません。
GPT‑5 に「1913年のロールプレイ」を頼む理由は?
現代の LLM は後見えバイアス(歴史がどう展開したかを知っている)に悩まされ、回答がその影響を受けます。タイムロック済みモデルはロールプレイせず、その時代のテキスト宇宙を体現するため、歴史的ディスコースパターンを研究する上で貴重です。
これらのモデルが何であるか(そして何ではないか)
| それらは | それらではない |
|---|---|
| 大規模テキストコーパス(80 B–600 B+ トークン)の圧縮表現 | 「世論」の完璧な鏡(公開されたテキストが教育的・支配的視点に偏るため) |
| スケールでディスコースパターンを探求するツール | 人間の解釈の代替 |
| 従来のアーカイブ研究の補完 | 歴史資料に内在するバイアスから自由ではない |
センシティブコンテンツ
歴史的テキストには人種差別、反ユダヤ主義、性差別、帝国主義的見解が含まれています。モデルは訓練データの一部としてそれらを再現します——これはそのような見解がどのように表現され、正規化されたかを理解する上で重要です。
研究者向けに安全に提供しつつ誤用を防ぐ責任あるアクセスフレームワークを開発中です。
参加方法
以下についてご意見を歓迎します:
- 最も重要な時代・地域
- 有益な研究質問
- 歴史的証拠に対する検証手法
- 責任あるアクセスフレームワーク
引用方法
以下のようにプロジェクトを引用してください。
@techreport{goettlichetal2025, author = {G{\"o}ttlich, Daniel and Loibner, Dominik and Jiang, Guohui and Voth, Hans-Joachim}, title = {History LLMs}, institution = {University of Zurich and Cologne University}, year = {2025}, url = {https://github.com/DGoettlich/history-llms} }