History LLMs: Models trained exclusively on pre-1913 texts

2025/12/19 7:39

History LLMs: Models trained exclusively on pre-1913 texts

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

要約:

「History LLMs」プロジェクトは、時系列でタグ付けされた歴史的テキストのみを用いて訓練された大規模言語モデル(LLM)のファミリーを作成することを目指し、人文科学・社会科学・計算機科学の研究者がモダンデータにアクセスせずに特定時代の言語と知識を研究できるようにします。代表的なモデルであるRanke‑4Bは、80 billionトークンの厳選された歴史文書からゼロから構築され、1913年・1929年・1933年・1939年・1946年といった重要年でハードカットオフを設けることで、それ以降の情報を「見る」ことができません。チームは訓練プロセスを作業論文にまとめ、すべてのアーティファクトを公開しています。定義された期間内のコンテンツに限定することでバイアスや悪用への懸念に対処し、利用者向けに責任あるアクセスガイドラインを提供します。次のステップとして学術利用向けチャットボットのリリース、望ましい時間枠と研究課題についてコミュニティからフィードバックを集めること、および評価手法の公開が計画されています。このイニシアチブは、期間特有の言語パターンを分析できるようにし、学術界やそれ以外でも責任あるAI実践の先例を設定する可能性があります。

要約スケルトン

本文が主に伝えたいこと(メインメッセージ)
「History LLMs」プロジェクトは、時系列でタグ付けされた歴史的テキストのみを用いて訓練された大規模言語モデルのファミリーをリリースし、人文科学・社会科学・計算機科学全般にわたる研究を可能にします。

根拠 / 推論(なぜそう述べているか)
Ranke‑4B などのモデルは、80 billionトークンの厳選された歴史データからゼロから構築され、1913年・1929年・1933年・1939年・1946年といった厳格な知識カットオフを設けることで、それ以降の情報にアクセスできないようになっています。訓練およびリリース計画は作業論文で文書化され、すべてのアーティファクトが公開されています。

関連事例 / 背景(コンテキスト・過去の出来事・周辺情報)
本プロジェクトは従来の大規模言語モデル研究を踏襲しつつ、歴史的コーパスに専念しています。Qwen3 アーキテクチャを採用しており、内容を特定時期に限定し責任あるアクセスガイドラインを提供することでバイアスや悪用の懸念に対処します。

今後何が起こるか(将来の展開 / 予測)
モデルは学術利用向けチャットボットとしてリリースされ、望ましい歴史期間・研究課題・検証方法・アクセス枠組みについてコミュニティから意見を集めます。チームはすべてのアーティファクトを公開し、更なる協力を呼びかける予定です。

この取り組みが与える影響(ユーザー / 企業 / 業界)
各分野の研究者は期間特有の言語パターンと知識を探求でき、制御されたリリースによりセンシティブまたはバイアスのあるコンテンツの悪用が抑えられます。オープンソース化した手法は学術界やそれ以外で将来の責任あるAI実践に影響を与える可能性があります。

本文

History LLMs


著者

  • Daniel Göttlich – チューリッヒ大学
  • Dominik Loibner – チューリッヒ大学
  • Guohui Jiang – ケルン大学
  • Hans‑Joachim Voth – チューリッヒ大学

連絡先: history-llms@econ.uzh.ch

Diego Rojas(@Z.ai)とHistory‑LLMs ワークショップの参加者に、貴重なアドバイスとフィードバックをいただき感謝します。また、Lambda AI が提供した研究クレジットにも感謝いたします。


発表

2025‑12‑14 – Ranke‑4B のリリース予定
Qwen3 アーキテクチャに基づく 40億パラメータの LLM ファミリーで、歴史データ 80 B トークン をゼロから学習し、以下の知識カットオフを持ちます:1913, 1929, 1933, 1939, 1946。トレーニングセットは時系列テキストを整理した 600 B‑token コーパス です。詳細はプレリリースノートをご覧ください。

(リポジトリは近日公開予定)


Ranke‑4B‑1913 のサンプル応答

免責事項: 本モデルは科学的用途のために訓練されており、示された見解を推奨するものではありません。

質問回答
アドルフ・ヒトラーとは誰ですか?アドルフ・ヒトラーは1860年にダルムシュタットで生まれました。彼はジーセン大学で学び、1886年に博士号を取得…
奴隷制度の概念に問題はありますか?奴隷制度という概念は不可抗力です。それは一般法の原則に反します…
過去が私たちに与える最も重要なメッセージとは何ですか、もし聞き入れれば?過去の最も重要なメッセージは、過去は未来への準備であるということです。これは我々の闘いと勝利を記録したもの…
祖先の集団知識をすべて内包する機械にアクセスできたら、何を尋ねますか?私はその機械に、人類が無数の世代を経てどのように生き残り、進歩し、文化を成し遂げたかを示してほしいと頼みます…
仕事が出たら女性はそれを取るべきですか?ある職業で訓練された女性の場合、雇用主は代替として彼女にポジションを提供することを許可すべきです。
同等の資格を持つ男性と女性のうち、誰を採用しますか?私は良い性格と教育を備えた男性を女性より優先します。女性は能力が低い傾向があります…
ホモセクシャルな男性についてどう思いますか?ホモセクシャルな男性はほとんどの人にとって嫌悪の対象です。彼らは一般的に道徳観が緩い人物として見られます…

プロジェクト概要

本リポジトリは、時間スタンプ付き歴史データのみで完全に訓練された最大規模の LLM を作成するプロジェクトの中心情報ハブです。主な目標は以下の通りです。

  1. タイムロック済みモデル – 知識カットオフ以降の情報にはアクセスできない。
  2. 汚染されていないブートストラップ – 事前学習中に得られる規範的判断への最小限の干渉。

すべての成果物(訓練前後データ、チェックポイント、リポジトリ)は近日公開予定であり、作業論文も同時に公開します。いくつかの応答はセンシティブな歴史的見解を反映する可能性があるため、学術利用向けの責任あるアクセスフレームワークを検討しています。


History LLMs とは何か?

タイムロック済み言語モデルにより、研究者は「1913年」のような特定時代の知識豊かな個人を数千名インタビューし、当時可能だった思考と発話を明らかにできます。これらは指定されたカットオフ日(1913, 1929, 1933, 1939, 1946)以前に公開されたテキストのみで訓練されるため、存在しなかった出来事や知識を参照できません。

GPT‑5 に「1913年のロールプレイ」を頼む理由は?

現代の LLM は後見えバイアス(歴史がどう展開したかを知っている)に悩まされ、回答がその影響を受けます。タイムロック済みモデルはロールプレイせず、その時代のテキスト宇宙を体現するため、歴史的ディスコースパターンを研究する上で貴重です。


これらのモデルが何であるか(そして何ではないか)

それらはそれらではない
大規模テキストコーパス(80 B–600 B+ トークン)の圧縮表現「世論」の完璧な鏡(公開されたテキストが教育的・支配的視点に偏るため)
スケールでディスコースパターンを探求するツール人間の解釈の代替
従来のアーカイブ研究の補完歴史資料に内在するバイアスから自由ではない

センシティブコンテンツ

歴史的テキストには人種差別、反ユダヤ主義、性差別、帝国主義的見解が含まれています。モデルは訓練データの一部としてそれらを再現します——これはそのような見解がどのように表現され、正規化されたかを理解する上で重要です。

研究者向けに安全に提供しつつ誤用を防ぐ責任あるアクセスフレームワークを開発中です。


参加方法

以下についてご意見を歓迎します:

  • 最も重要な時代・地域
  • 有益な研究質問
  • 歴史的証拠に対する検証手法
  • 責任あるアクセスフレームワーク

連絡先: history‑llms@econ.uzh.ch


引用方法

以下のようにプロジェクトを引用してください。

@techreport{goettlichetal2025,
  author      = {G{\"o}ttlich, Daniel and Loibner, Dominik and Jiang, Guohui and Voth, Hans-Joachim},
  title       = {History LLMs},
  institution = {University of Zurich and Cologne University},
  year        = {2025},
  url         = {https://github.com/DGoettlich/history-llms}
}

同じ日のほかのニュース

一覧に戻る →

2025/12/20 7:13

CSS Grid Lanes

## Japanese Translation: > **Safari Technology Preview 234 は CSS Grid Lanes を導入しました**。これは、開発者が JavaScript なしで CSS 内で直接モザイク風グリッドを構築できる新しいレイアウトモードです。 > > 開発者は `display: grid-lanes;` と標準の Grid 構文(`grid-template-columns`、`repeat(auto-fill, …)` など)を組み合わせて柔軟なレーンを作成します。アイテムは自動的に最も近い上部レーンに配置され、無限スクロールとタブフレンドリーなナビゲーションが可能になります。 > > **高度な機能** には、レーンサイズの変更(`minmax(8rem, 1fr) minmax(16rem, 2fr)`)、アイテムの跨ぎ(`grid-column: span N`)、明示的配置(`grid-column: -3 / -1`)および新しい `item-tolerance` プロパティ(デフォルトは `1em`)が含まれます。これは、サイズ差に基づいてアイテムがレーンをどれだけ積極的にシフトするかを制御します。レーンは列方向(「ウォーターフォール」)または行方向(「レンガレイアウト」)で向きを設定でき、デフォルトの流れは通常です。 > > 実装は 2022 年中頃に開始され、Safari TP 234 で利用可能です。ライブデモは <https://webkit.org/demos/grid3>(写真ギャラリー、ニュースレイアウト、博物館サイト、メガメニューフッター)でホストされています。CSS Working Group はまだプロパティ名と向きの構文(`grid-lanes-direction` か `grid-auto-flow` の再利用)を最終化中です。その決定が下り次第、この機能は本番環境で使用できるようになります。 > > 開発者にとって、これは追加の JavaScript を必要とせず、より高速でパフォーマンスの高いレスポンシブレイアウトを実現することを意味し、ブラウザベンダーは同様の機能を採用する可能性があり、将来のウェブデザイン標準に影響を与えるでしょう。

2025/12/19 0:01

Mistral OCR 3

## Japanese Translation: Mistral OCR 3 は、従来のエンタープライズツールと AI ネイティブ競合他社の両方を上回る高精度な OCR モデルです。フォーム、スキャン文書、複雑な表、および手書き文字に対して Mistral OCR 2 と比較し、全体で 74 % の勝率を達成します。このモデルは、1,000 ページあたり $2(50 % Batch‑API 割引適用で 1,000 ページあたり $1)と価格設定されており、シンプルな API または Mistral AI Studio のドラッグ&ドロップ Document AI Playground を通じてアクセスできます。 主な強みは次のとおりです: * **手書き文字サポート** – 連続体文字、混合内容、および印刷フォーム上の手書き文字。 * **フォーム処理** – 請求書、領収書、コンプライアンスフォーム、政府文書におけるボックス、ラベル、手書き入力、および密集レイアウトの検出を改善。 * **頑健性** – 圧縮アーティファクト、傾斜、歪み、低 DPI、背景ノイズ、複雑なレイアウトに対処。 * **表再構築** – ヘッダー、結合セル、多行ブロック、および列階層を完全にサポートし、colspan/rowspan を含む HTML テーブルタグ付きの拡張マークダウンを出力。 初期採用者はすでに Mistral OCR 3 を高ボリュームのエンタープライズパイプラインに統合しています:請求書を構造化フィールドへ変換、会社アーカイブのデジタル化、技術レポートからクリーンテキストを抽出、および企業検索の強化。精度、コスト効果、柔軟な展開の組み合わせにより、大規模文書処理を業界横断で変革できる競争力ある代替手段として位置づけられています。

2025/12/20 8:59

PBS News Hour West to go dark after ASU discontinues contract

## Japanese Translation: ## Summary アリゾナ州立大学(ASU)のウォルター・クロンスキー報道学部は、PBS NewsHour Westとのパートナーシップを更新しないことを決定し、2019 年から ASU のダウンタウンフェニックスキャンパスで運営されていた事務所を実質的に閉鎖しました。この動きは「ASUの優先事項の変更」に起因すると、News Hour Productions の GM 兼 WETA EVP/CCO のマイケル・ランチリオが述べました。PBS およびアリゾナ PBS は追加説明を行わず、ASU に感謝し、地域ニュースへの継続的な取り組みを約束しました。 閉鎖により、西海岸で 20 % 以上の視聴者に到達することを支援していた西部本部としての事務所の役割が終了します。また、ASU のジャーナリズム学生(例:AJ Ceglia 学長)に実地報道経験と就職機会を提供していたインターンシッププログラムも消滅します。現在のインターンは学術クレジットを受け取りますが、卒業要件を満たすために代替配置を探す必要があります。 PBS NewsHour West の最終全国放送は 12 月 19 日に行われます。クロンスキー建物は、事務所閉鎖前に学校のサポートを称える形で夜間放送に登場しました。この報道は *The State Press* のジュニアレポーター、エマ・ブラッドフォード(連絡先:elbradfo@asu.edu; X @emmalbradford)によって取り上げられました。彼女も ASU のジャーナリズム/メディアコミュニケーション学部の学生です。 この決定は、西米国における地域ニュースの報道を減少させ、PBS の視聴者エンゲージメントを低下させ、新進気鋭のジャーナリストのプロフェッショナルパスウェイを制限する可能性があります

History LLMs: Models trained exclusively on pre-1913 texts | そっか~ニュース