ライプツィヒでのベンチマーク

2026/06/06 23:00

ライプツィヒでのベンチマーク

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

「ライプツィヒのベンチマーク」と題した 3 日間のワークショップが、ドイツ・ライプツィヒにあるマックス・プランク科学研究所で開催された。その際、数学家たちのグループが、既知の解答を持つ 100 問の研究レベルの数学的問題からなるデータセットを編纂した。厳格な 3 段階の評価プロセスにおいて、最先端の大規模言語モデル 5 つがまず 1 回試行(Stage 1)でテストされ、未解決の問題は 41 に残った。その後、特定のトップクラスのモデルについて各モデルに対して複数回の試行を適用した追加テストにより、最終的に未解決の問題はわずか 2 つに減少した(Stage 3)。アンドレイ・バラキンのように著しい研究者を含む著者たちは、これらの高度な「重層的思考」型 AI システムが、現在すでに人間の専門家と同等の数学的推論能力を示していると結論付けている。この飛躍的な成果は、将来的には AI が高度な研究において標準的なツールとして定着するにつれて、ベンチマークがさらに厳格化し、複雑な導出の初期段階を人間が取り扱う必要性が減る可能性を示唆している。

本文

数学者集団が編纂した数学問題集と LLM の解明度に関する研究報告

概要と背景

2026 年に実施された大規模な共同プロジェクトにおいて、49 名の数学者によって解答が既知の研究レベルの数学に関する問題集が編纂されました。主な作業はドイツ・ライプツィヒに所在するマックス・プランク科学数理研究所で開催された 3 日間のワークショップ「ライプツィヒにおけるベンチマーク」の間に行われました(参加者:35 名)。

  • 成果物: 得られた100 問の問題コレクションを提示。
  • 目的: 最先端の大規模言語モデル(LLM)の数学的推論能力を検証する。

問題の評価プロセス

収集した 100 問の問題は、以下の 3 つの段階に分けて厳密に評価されました。

  1. 第 1 段階:一斉解答試行
    • 最先端の LLM 5 機種による初期解答尝试。
  2. 第 2 段階:モデルごとの再評価
    • 上記のうち 3 機種を用いて、それぞれ20 回の実行を行う。
  3. 第 3 段階:最終評価(重い思考型)
    • 「重い思考」型の2 つの高度なモデルを用いて、それぞれ3 回の実行を行う。

評価結果の変遷

各段階における未解決問題数の推移は以下の通りです。

  • 第 1 段階終了時: 41 問が完全に未解決の状態であった。
  • 第 2 段階終了時: 未解決問題は 16 問に減少した。
  • 第 3 段階終了時(最終結果): 未解決問題はわずか 2 問となった。

この劇的な改善は、LLM の数学的推論能力が印象的に進歩しつつあることを示しており、特に「重い思考」モデルの導入が決定打となりました。

文献情報

  • 著者: アンドレイ・バラキン、ミクロス・ボーナ、マリー=シャルロット・ブランダンブラ、クララ・ブリャン、ベロニカ・カルボ・コルテス、シェリ・コックス、ヘスス・A. デ・ロエラ、ダナイ・デリゲオルガキ、ハンナ・フリードマン、ティム・ゲーハングラー、キアラ・ジardiniン、スティーブン・グリフレソ、バーアン・ハシェミ、エレナ・ホスター、アレクサンダー・イワノフ、ヌプール・ジャイン、アリヤマーン・ジャル、レオニー・カーザー、ヨリス・コーフラー、ケビン・キューン、マリオ・クマー、フェリックス・ロッター、レーネ・マルツィンジク、ヴィクトル・S. ミラー、アレハンドロ・モラレス、グレタ・パノバ、ジアニー・ペットレラ、ナザン・プリューガー、ラクシュミ・ラメシュ、ニコラス・ライケ、カルロス・ロドリゲス、アンデリア・ローサナ、フラビオ・サリッツォーニ、オットー・T.P. シュミット、スベン・ウルフ・シュミッツ、リーナ・マリア・シムバケア・マリン、ルカ・ソドマコ、クリスチャン・シュトンプ、ベルンド・シュトールフエルス、アレクサンダー・タベイラ・ブロメノファー、シモン・テレネー、フィリップ・チューヘル、エミール・ヴェルカーマ、カルル・フェリクス・ワッラー、ジュリアン・ヴァイゲート、アンネット・ウェルナー、ナザン・ウィリアムズ、クロディウス・ツィブロウィウス
  • 提出者: クリスチャン・シュトンプ
  • 提出日: 木、2026 年 6 月 4 日 07:59:08 UTC(38 KB)
  • 形式: PDF / HTML(実験的)

同じ日のほかのニュース

一覧に戻る →

2026/06/07 4:17

Ntsc-rs ~アナログテレビおよびVHS のアーティファクトを模倣するオープンソースのビデオエミュレーター~

## 日本語翻訳: ntsc-rs は、単純なカラーフィルターではなく、実際の送信符号化の原理に基づいた高度なアルゴリズムを使用して、ヴィンテージ NTSC テレビと VHS テープのアートファクトを本物らしく再現する無料のオープンソースツールです。マルチスレッドおよび SIMD 加速を実現した Rust で構築されており、超標準解像度でもリアルタイムで動画を処理し、ntscQT といった旧来のツールよりも優れたパフォーマンスを発揮します。そのアルゴリズムは composite-video-simulator、zhuker/ntsc、および ntscQT で開発されたものを採用しています。独立したアプリケーション、ウェブプラットフォーム、または Adobe After Effects、Premiere Pro、DaVinci Resolve、Hitfilm、Vegas(すべての OpenFX ソフトウェアと互換性あり)用のプラグインとして利用可能であり、歴史的正确性と現代の効率性を兼ね備えており、クリエイターがリアルなアナログの美学を現代的なワークフローに直接統合できるよう支援します。

2026/06/07 3:35

Meta、AI チャットボットの悪用によるInstagramアカウントの乗っ取りが数千件あったと確認

## Japanese Translation: Metaは、ハッカーがAIチャットボットのバグを悪用し、Instagramのアカウント20,000個以上を乗っ取ったという重大なセキュリティ不備を公表しました。このシステムは、パスワードリセット用として設計されたものの、誤って認証コードを受け取るメールアドレスを登録済みのアカウント所有者に限定せず、任意のメールアドレスに入力した者に送信してしまっていました。これにより、無許可ユーザーが数日以内にして完全なアクセス権を引き渡すことができました。脆弱性は二段階認証を行っていないアカウントを狙い、4月中旬から最近まで活性していました。 この侵害事件は、人工知能(AI)に対する大幅な投資が行われている時期に発生しており、人員削減を踏まえ、イノベーションとセキュリティのバランスに関する懸念が浮上しています。Metaはこの乗っ取られたボットを停止し、コードを修正済みですが、同社は直接メッセージやプロフィール情報など機密データの暴露があったことを認めています。メイン州在住の30人が直接通知を受けたものの、同社は犯罪者がアクセスした個人データ総量について現在把握していないと確認しています。専門家は、この事件がAIの急速な展開に伴う重大なリスクを浮き彫りにしているとし、ユーザーに対して即時にパスワードのリセットと、認証済みチャネル経由での再認証を行ってアカウントのセキュリティを回復するよう求めており、またMetaは同様の再発を防ぐため、現在自社プラットフォーム上の他のチャットボットの調査を進めています。

2026/06/06 23:59

Zeroserve:eBPF を用いてスクリプト可能なゼロ設定 Web サーバー

## 日本語訳: ゼロサーブ(Zeroserve)は、最小限のセットアップで静的ファイルを配信できる軽量かつ高性能な HTTPS サーバーです。各サイトごとに単一のタールアーカイブのみを用いて動作を開始できます。改行・認証・レート制限・リバースプロキシなどの機能を実装するサンドボックス化されたミドルウェアとしてユーザー空間で動作する eBPF プログラムをサポートしています。パフォーマンスの主な特徴は、io_uring I/O インターフェースと即時コンパイル(Just-In-Time コンパイル)された eBPF スクリプトによる卓越したシングルスレッド速度です。Ryzen 7 3700X ベンチマークでは、小規模ファイルにおいて nginx を約 17% 上回り、Caddy よりも大幅に高性能であることが示されました。そのアーキテクチャはバイナリコードを共有する複数プロセスの並列実行によりスケールし、各インスタンスはシングルスレッドモデルの monoio ランタイムを使用します。BoringSSL を用いた高度な TLS 機能もサポートしており、TLS 1.3、暗号化された ClientHello(ECH)、SNI サーティフィケート選択、JA4 フィンガープリント、および ECH リレーモードを含みます。運用上の利点として、原子スワップ(SIGHUP)によるホットリロードやダウンタイムなしの瞬時の構成更新が可能です。eBPF プログラミングモデルは、ヘッダー操作やテンプレート置換を行うために共有されるパーリクエストメタデータマップを持つ、ファイル名順ソートされたスクリプトチェーンを使用します。ヘルパー関数はリクエスト検査・変異、暗号処理(SHA-256、HMAC、base64)、JSON 処理、トークンバケット方式のレート制限、AWS SigV4、および XChaCha20-Poly1305 クッキーを用いた OIDC ログインをカバーします。デフォルト設定では eBPF インスタンスあたりのメモリ使用量の上限が 256 KB で、他の接続を止めることを防ぐためにプリエンプト間隔は 2 ms に設定されています。この間隔を増やすことで動的レスポンスのスループットをさらに向上させることが可能です。リバースプロキシとしての性能では、プーリングされた io_uring コネクションを用いて小規模応答において最先端の速度を発揮し、大規模ボディにおいては nginx と競合するレベルのパフォーマンスを示します。全体として、このサーバーは Lua や Perl などの遅いインタプリターに依存せず、ユーザー空間内で直接低レイテンシーとより細かいセキュリティ制御を提供します。

ライプツィヒでのベンチマーク | そっか~ニュース