
2026/03/26 3:16
ARC‑AGI‑3(アーク・AGI・3)
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
ARC‑AGI‑3は、AIエージェントを真に適応的かつ継続的な学習へと導く新しい対話型推論ベンチマークです。モデルに探索・目標追求・環境変化への世界モデリングを課し、単発の回答ではなく効率的なスキル獲得と長期計画を評価します。完璧なスコア(100 %)は、エージェントがすべてのゲームで人間よりも優れたまたは同等の性能を示し、多様なタスクにおける習熟度を証明することを意味します。
ベンチマーク設計は、事前学習済み知識なし、明確な目標、有意義なフィードバック、およびブルートフォース記憶化を防ぐ新規性を重視しています。開発者向けには、エージェントの意思決定が構造化されたタイムラインに記録される再生可能実行、使いやすいAPI、環境アクセスとエージェント統合用の包括的ドキュメント、およびリアルタイムでエージェント挙動を確認できるUIが提供されています。
ARC‑AGI‑3は迅速な反復と透明性のある評価を奨励し、研究者が多様なシナリオで継続的に学習可能なAIシステムを構築する手助けとなります。ユーザーはプラットフォーム上のインタラクティブインターフェースを通じて「エージェントをテストしよう!」と呼びかけられ、プレビュー再生でエージェント挙動を反復的にテスト・検査できます。
本文
リンク
ARC‑AGI‑3 とは何ですか?
ARC‑AGI‑3 は、AI エージェントに新しい環境を探索し、臨機応変に目標を設定し、適応可能な世界モデルを構築し、継続的に学習するよう挑戦させる対話型推論ベンチマークです。 100 % のスコアは、AI エージェントが人間と同等の効率であらゆるゲームを攻略できることを意味します。
静的なパズルを解く代わりに、エージェントは各環境内で経験から学びます。重要な情報を知覚し、行動を選択し、自然言語の指示に頼らずに戦略を適応させていきます。
知能を測定する方法
- 100 % が人間でも解ける環境
- 時間とともに向上するスキル習得効率
- スパースなフィードバックでの長期計画
- 複数ステップにわたる経験駆動型適応
AI と人間の学習にギャップがある限り、我々は AGI を持っていません。ARC‑AGI‑3 は時間を通じて知能をテストし、最終回答だけでなく計画期間・記憶圧縮・新しい証拠が出た際の信念更新能力を測定することで、そのギャップを可視化します。
設計原則
- 人間がすぐに習得できる
- 事前にロードされた知識や隠れたプロンプトは無し
- 明確な目標と意味のあるフィードバック
- ブルートフォースで丸暗記できない新規性
特徴
ARC‑AGI‑3 は以下を備えています:
- 再現可能な実行(リプレイ)
- エージェント統合用開発キット
- 透明性の高い評価を実現する UI
リプレイ + 評価
プレビューリプレイでエージェントの挙動を確認できます。意思決定、行動、推論を構造化されたタイムラインで追跡しましょう。サンプルリプレイを閲覧してください。
ツールと UI
ARC‑AGI‑3 キットを使ってエージェントを統合し、インタラクティブ UI でテスト・反復します。
ドキュメント
環境、API の使用方法、統合ガイドなど、エージェント構築に必要な情報がすべて揃っています。
ドキュメントを読む → エージェントを試験にかける!