
2026/06/06 23:00
ライプツィヒでのベンチマーク
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
「ライプツィヒのベンチマーク」と題した 3 日間のワークショップが、ドイツ・ライプツィヒにあるマックス・プランク科学研究所で開催された。その際、数学家たちのグループが、既知の解答を持つ 100 問の研究レベルの数学的問題からなるデータセットを編纂した。厳格な 3 段階の評価プロセスにおいて、最先端の大規模言語モデル 5 つがまず 1 回試行(Stage 1)でテストされ、未解決の問題は 41 に残った。その後、特定のトップクラスのモデルについて各モデルに対して複数回の試行を適用した追加テストにより、最終的に未解決の問題はわずか 2 つに減少した(Stage 3)。アンドレイ・バラキンのように著しい研究者を含む著者たちは、これらの高度な「重層的思考」型 AI システムが、現在すでに人間の専門家と同等の数学的推論能力を示していると結論付けている。この飛躍的な成果は、将来的には AI が高度な研究において標準的なツールとして定着するにつれて、ベンチマークがさらに厳格化し、複雑な導出の初期段階を人間が取り扱う必要性が減る可能性を示唆している。
本文
数学者集団が編纂した数学問題集と LLM の解明度に関する研究報告
概要と背景
2026 年に実施された大規模な共同プロジェクトにおいて、49 名の数学者によって解答が既知の研究レベルの数学に関する問題集が編纂されました。主な作業はドイツ・ライプツィヒに所在するマックス・プランク科学数理研究所で開催された 3 日間のワークショップ「ライプツィヒにおけるベンチマーク」の間に行われました(参加者:35 名)。
- 成果物: 得られた100 問の問題コレクションを提示。
- 目的: 最先端の大規模言語モデル(LLM)の数学的推論能力を検証する。
問題の評価プロセス
収集した 100 問の問題は、以下の 3 つの段階に分けて厳密に評価されました。
- 第 1 段階:一斉解答試行
- 最先端の LLM 5 機種による初期解答尝试。
- 第 2 段階:モデルごとの再評価
- 上記のうち 3 機種を用いて、それぞれ20 回の実行を行う。
- 第 3 段階:最終評価(重い思考型)
- 「重い思考」型の2 つの高度なモデルを用いて、それぞれ3 回の実行を行う。
評価結果の変遷
各段階における未解決問題数の推移は以下の通りです。
- 第 1 段階終了時: 41 問が完全に未解決の状態であった。
- 第 2 段階終了時: 未解決問題は 16 問に減少した。
- 第 3 段階終了時(最終結果): 未解決問題はわずか 2 問となった。
この劇的な改善は、LLM の数学的推論能力が印象的に進歩しつつあることを示しており、特に「重い思考」モデルの導入が決定打となりました。
文献情報
- 著者: アンドレイ・バラキン、ミクロス・ボーナ、マリー=シャルロット・ブランダンブラ、クララ・ブリャン、ベロニカ・カルボ・コルテス、シェリ・コックス、ヘスス・A. デ・ロエラ、ダナイ・デリゲオルガキ、ハンナ・フリードマン、ティム・ゲーハングラー、キアラ・ジardiniン、スティーブン・グリフレソ、バーアン・ハシェミ、エレナ・ホスター、アレクサンダー・イワノフ、ヌプール・ジャイン、アリヤマーン・ジャル、レオニー・カーザー、ヨリス・コーフラー、ケビン・キューン、マリオ・クマー、フェリックス・ロッター、レーネ・マルツィンジク、ヴィクトル・S. ミラー、アレハンドロ・モラレス、グレタ・パノバ、ジアニー・ペットレラ、ナザン・プリューガー、ラクシュミ・ラメシュ、ニコラス・ライケ、カルロス・ロドリゲス、アンデリア・ローサナ、フラビオ・サリッツォーニ、オットー・T.P. シュミット、スベン・ウルフ・シュミッツ、リーナ・マリア・シムバケア・マリン、ルカ・ソドマコ、クリスチャン・シュトンプ、ベルンド・シュトールフエルス、アレクサンダー・タベイラ・ブロメノファー、シモン・テレネー、フィリップ・チューヘル、エミール・ヴェルカーマ、カルル・フェリクス・ワッラー、ジュリアン・ヴァイゲート、アンネット・ウェルナー、ナザン・ウィリアムズ、クロディウス・ツィブロウィウス
- 提出者: クリスチャン・シュトンプ
- 提出日: 木、2026 年 6 月 4 日 07:59:08 UTC(38 KB)
- 形式: PDF / HTML(実験的)