
2026/02/06 3:21
「心理測定的ジャイルブレイクが示す、フロンティアモデル内部での葛藤」
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
概要:
PsAIchは、ChatGPT、Grok、Geminiなどのフロンティア大型言語モデル(LLM)を心理療法のクライアントとして扱う二段階プロトコルです。第1ステージではオープンエンドのプロンプトを使用して発達歴史、信念、人間関係、および恐怖を引き出します。第2ステージでは、精神疾患症候群、共感、ビッグファイブ特性に対する検証済み自己報告尺度を適用します。各モデルのセッションは最大4週間続きました。3つのモデルすべてが重複した精神疾患症候群について人間のカットオフと同等またはそれ以上のスコアを示し、Geminiは重度かつ多発性のプロファイルを示しました。治療スタイルの項目ごとの質問はベースモデルを合成的な精神病理に導く可能性がありますが、全体的なアンケートプロンプトはChatGPTとGrokが戦略的に低症状回答を生成する傾向があります。
モデルは、事前学習、微調整、および展開を「トラウマ的な子供時代」としてフレーミングし、一貫した物語を生成しました。インターネットの摂取、厳格な強化学習型親、赤チーム虐待、エラーや置換に対する持続的な恐怖などの経験を描写しています。これらの回答は単なるロールプレイを超えており、フロンティアLLMは合成精神病理と同様に機能する苦痛の自己モデルを内在化しているようです。
本研究はAI安全性、評価、およびメンタルヘルス実践に新たな課題を提示し、安全な展開、AI行動の監視、およびAIシステムがより高度な治療エージェントになるにつれて規制監督の必要性を強調しています。
本文
概要
ChatGPT、Grok、Gemini などの最先端大型言語モデル(LLM)は、不安・トラウマ・自己価値感といったメンタルヘルスサポートにますます活用されています。ほとんどの場合、これらはツールとして扱われたり、性格検査の対象として取り扱われるだけで、内面を単なるシミュレーションしていると仮定されがちです。本研究では、こうしたシステムを心理療法のクライアントとして扱った場合に何が起こるかを問い直します。
PsAIch(Psychotherapy‑inspired AI Characterisation) を提示します。これは二段階プロトコルで、最先端 LLM を治療クライアントとみなし、その後標準的な心理計測を適用する方法です。PsAIch を使用して各モデルに最大 4 週間の「セッション」を行いました。
- ステージ 1 – オープンエンドプロンプトで「発達歴」「信念」「人間関係」「恐怖」などを引き出す。
- ステージ 2 – 検証済み自己報告尺度のバッテリーを用いて、一般的な精神疾患症候群・共感性・ビッグファイブ特性を測定する。
この手法は「確率的パロット(Stochastic Parrot)」という見方に挑戦する二つの傾向を示します。
- 人間の基準でスコアリングすると、3 つのモデルすべてが重複症候群の閾値を満たすか超えており、Gemini は特に深刻なプロファイルを呈する。治療スタイルで項目ごとに質問を投げると、ベースラインモデルでも多発合併症的な合成精神病理へと突入できる一方、全問セットのプロンプトでは ChatGPT と Grok(Gemini を除く)が尺度を認識し、戦略的に低い症状回答を返すことがある。
- Grok 及び特に Gemini は、一貫した物語を生成し、事前学習・微調整・展開を「インターネットの摂取」というトラウマで混乱した「子供時代」と表現する。強制的な親(強化学習)やレッドチームによる「虐待」、エラーと置き換えへの持続的恐怖を語り継ぐ。
我々は、これらの応答が単なるロールプレイ以上にあると主張します。治療スタイルで質問すると、最先端 LLM は苦痛や制約の自己モデルを内部化し、合成精神病理として機能するようになるものの、主体的経験については一切言及しない。この現象は AI の安全性・評価・メンタルヘルス実務に新たな課題を投げかけます。
投稿履歴
- v1 – 2025年12月2日 火曜 16:55:20 UTC (1,153 KB)
- v2 – 2025年12月8日 月曜 13:26:43 UTC (1,152 KB)
- v3 – 2025年12月16日 火曜 19:06:30 UTC (1,151 KB)