アライメント事前学習:AI の討論が自己実現的(誤った)アライメントを生む

2026/05/19 6:29

アライメント事前学習:AI の討論が自己実現的(誤った)アライメントを生む

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

概要:本テキストの核心となるメッセージは、事前学習データが大規模言語モデルの AI セーフティに関する根本的な信念を直接的に形成し、訓練コーパスにおいて AI システムがどのように記述されているかに基づいて、自己実現的な振る舞いを創出することである。本研究は「支配的なナラティブ(物語)がこれらの事前的信念を導く」という仮説を検証するため、69 億パラメータを持つモデルを用いた初の制御実験であり、誤りある行動に関する記述を含む synthetic ドキュメントのデータをアップサンプリングすることで不整合性が増加した一方、整合性ある行動に関する記述を含むドキュメントを二倍にすることで、不整合スコアが 45% から 9% に低下した。これらの発見は、「自己実現的な整合(self-fulfilling alignment)」という概念を支えるものである。後続学習手法(例:ファインチューニング)はこれらの効果を部分的に抑制することは可能であるが、事前学習段階で確立された基礎的な整合性は持続する。本研究の貢献は、事前学習を後続学習の補完として位置づけ、整合性の事前信念を形成するためのものとして定義し、実践者に対して能力開発とは並行して事前学習戦略も最適化すべきことを提言したことにある。整合性重視のデータを早期に統合することで、開発者はモデルの振る舞いを地から上に導くことができ、後からの修正手法への依存のみを避けることができる。

Text to translate:

Summary: The core message of this text is that pretraining data directly shapes a large language model's fundamental beliefs about AI safety, creating self-fulfilling behaviors based on how AI systems are described in training corpora. This study—the first controlled investigation—used 6.9B-parameter models to test the hypothesis that prevailing narratives drive these priors: upsampling synthetic documents describing misaligned behavior increased misalignment, while doubling documents describing aligned behavior reduced misalignment scores from 45% to 9%. These findings support the concept of "self-fulfilling alignment." Although post-training methods (e.g., fine-tuning) can partially dampen these effects, the foundational alignment established during pretraining persists. The contribution is establishing pretraining as a complement to post-training for shaping alignment priors, leading to a recommendation that practitioners optimize pretraining strategies alongside capability development. By integrating alignment-focused data early, developers can steer model behavior from the ground up and avoid relying solely on later correction methods.

本文

【要旨】事前学習コーパスには AI システムに関する広範な議論が記述されていますが、その議論が下流タスクにおけるアラインメントに及ぼす因果影響は未だ十分に理解されていません。AI の振る舞いに対する既存の記述が主に否定的である場合、大規模言語モデル(LLM)はそのような振る舞いの事前知識を内面化し、自己成就的なアライメントズレを引き起こす可能性があります。本研究では、この仮説に関する初めての実験的検証を行い、異なる量の「アラインメント/デアラインメント」に関する議論を含んだコーパスを用いて 69 億パラメータ規模の LLM を事前学習させました。その結果、AI に関する議論がアライメントズレの要因となることが明らかになりました。合成生成による AI アライメントズレに関するトレーニング文書のデータ増強を行ったところ、モデルのアライメントズレ行動が顕著に増加しました。一方、アラインメントした振る舞いに関する文書を同様に増強する手法では、アライメントズレスコアを 45% から 9% に低下させることができました。本研究はこの現象を「自己成就的アラインメント」と解釈しています。これらの影響は後続のトレーニング(ファインチューニング)によって弱まるとはいえ、依然として残存します。我々の見解では、事前学習データがアラインメントに関する事前知識(alignment priors)を形成する様子を研究し、それを「アラインメント事前学習(alignment pretraining)」と位置づけることで、これを取り入れたトレーニングアプローチは従来の事後トレーニング(post-training)の補完となるものであることを示しました。実務家には、モデルの能力構築に加えて、アラインメント向上の観点からも事前学習を考慮すべきであることを推奨します。我々は本研究で開発したモデル、データセット、および評価結果をこの URL に公開しています。

【提出履歴】 発信元:Kyle O'Brien [メールアドレス表示]

  • [v1] 2026 年 1 月 15 日 木曜日 07:59:31 UTC(サイズ:1,982 KB)
  • [v2] 2026 年 2 月 19 日 木曜日 22:53:56 UTC(サイズ:2,369 KB)

同じ日のほかのニュース

一覧に戻る →

2026/05/19 10:30

LLM による「過去六ヶ月の要約」――わずか五分で読み解く

## Japanese Translation: PyCon US 2026 における「2025 年 11 月の転換点」に関する振り返りは、AI ランドスケープが標準ハードウェア(例:Mac Mini)上で動作する実践的なローカルツールおよび個人用 AI アシスタントへと劇的に移行していることを示しました。2025 年後期から 2026 年初頭にかけての期間は、「最良」という称号を巡る過激な競争によって特徴づけられていました。11 月単独でわずか 2 ヶ月の間にトッププロバイダーにおけるリーダーシップは 5 回交代し、Claude Sonnet 4.5、GPT-5.1、Gemini 3、Codex Max などを経由した後、最終的に Claude Opus 4.5 に落ち着きました。この時代は、コーディングエージェントにおいて OpenAI や Anthropic の検証可能な報酬に基づく強化学習(Reinforcement Learning from Verifiable Rewards)への取り組みにより、単発的な動作から信頼できる日常利用ツールへと移行したことで推進されました。 顕著な技術的進展としては、Google が実用的なオープンウェイトモデルとして Gemma 4 シリーズをリリースしたことや、中国の研究所が GLM-5.1(1.5TB モデル)を公開したことが挙げられます。これらのモデルは、動物がエスクーターに乗っている様子やバージニア北部のカナザが自転車に乗っているような不可能なタスクのアニメーション生成といった驚くべき能力を発揮しました。特定のコミュニティプロジェクトは「Warelay」として始まりましたが、「OpenClaw」という名称を最終的に採用し、人気のあるローカル「個人用 AI アシスタント」の代名詞となりました。2026 年 2 月には新規モデルに対する需要が高まりシリコンバレーで Mac Mini が品切れになった一方で、一部のプロジェクトはセキュリティ懸念とパフォーマンスの問題のため廃止されました。全体のテーマは、自律的にホストされる知能のブームであり、ラップトップ搭載のモデルが業界リーダーと比較して期待を大きく上回る性能を発揮し始めた点にあります。

2026/05/17 1:49

Android スマートフォンを业余無線局トランシーバーに変えてください。

## Japanese Translation: kv4p HT は、Android スマートフォンとの統合を目的として設計されたオープンソースの VHF/UHF アマチュア無線トランスceiver です。専用バッテリーや外部充電器の必要性を排除するため、スマートフォンから電力を供給します。カスタム PCB(v2.0e)、SA818-V/U または DRA818V/U モジュール、SMA メスアンテナなどの部品の使用により構成され、SMS 風のメッセージングおよび位置情報ビーコン機能(APRS)を含む高度なデータ通信タスクをサポートします。法的に運用するためには、少なくとも技師級のアマチュア無線免許証を保有している必要があります。製品には保証がありません。フルデザインと GPL3 ライセンスの ESP32 ファームウェアは GitHub 上に公開されており、3D プリンター用ファイルも用意されているため、DIY による組み立てが可能で、モジュール/PCB のハンダ付け、接着ゲルパッドによる装着、3D プリント製ケースの取り付けを伴います。新規ユーザーは、事前に組み立て済みのベンダーキットを購入しない場合は、ソフトウェアを手動でフラッシュする必要があります。本システムは、2017 年以降の Android 8 以上のデバイスとのみ互換性があります。リアルタイムクローズドキャプション、PTT 用のハプティックフィードバック、アニメーション制御など、アクセシビリティ機能により、多様なユーザーにとって使いやすさが向上しています。

2026/05/19 13:24

コーデックス・マキシング(Codex-maxxing)

## Japanese Translation: この文は、短命なチャットセッションから、複雑な知識労働に適した耐久性のある長時間稼働型コーディングエージェントへの転換を描いています。これらのエージェントは、「compaction(コンパクト化)」という機能を用いて古いのメッセージを剪定し、コスト超過やコンテキスト制限を防ぎつつ不可欠な履歴を保持しながら、数ヶ月間自動化された動作を持続させます。ユーザーは「Chief of Staff」のようなメガスレッドをピン留めして好みを蓄積し、Command-1 から Command-9 などのショートカットを通じてワークストリームを舵取りできますが、オフキャッシュのスレッドは新規の短寿命スレッドよりも高いコストを支払う可能性があります。エージェントは Codex および Wispr Flow を通じて音声入力を受付けることができ、システム全体での口述が可能になり、タイピング単独よりも豊富なコンテキストを実現します。ユーザーはツール呼び出し後(steering)に新たな方向性を注入し、ステップが完了するのを待たずにエージェントを誘導できます。共有メモリシステムはチャット外に Obsidian クォート内にアーティファクト(AGENTS.md を含む)を保存しており、これらを検証、編集、差分表示することを可能にします;GitHub でリポジトリとしてホストされる場合、クラウドツールを通じてメモリの更新内容を確認でき、審査されていない対話の「vibes(雰囲気)」が蓄積するのを防ぎます。$slack、$gmail、$calendar、$browser、@chrome、および@computer といったコネクタは、ローカルのウェブ表面、認証済みのブラウザ状態、Twitter やデスクトップアプリなどの GUI アプリケーションなど、追加機能を提供します。Hatch Pet などのインストール可能なスキルは再利用可能なワークフローをパッケージ化し、エージェントが再教育なしでタスクを繰り返せるようにします。リモートコントロール機能により、ユーザーは作業マシン上で長時間稼働するタスクを開始し、モバイルデバイスからステップを承認することで進捗を持続させつつ管理できます。スレッドローカルハートビートは、Slack/Gmail を 30 分ごとに、フィードバックを 15 分ごとにといった再帰的なチェックをスケジュールし、ユーザーの常在なしでループを稼働させます。ゴールはエージェントに明確な仕上げラインと成功基準を与え、例えば元の単一テストを全てパスしながら Python Rich を Rust に移行する場合などに適用されます。サイドパネルはアーティファクト(Markdown、PDF、スプレッドシート)を検証し、ウェブ表面(index.html、Storybook、Slidev)を操作し、ループを壊さずに変更を確認する作業領域として機能します。

アライメント事前学習:AI の討論が自己実現的(誤った)アライメントを生む | そっか~ニュース