
2025/12/20 5:49
LLM Year in Review
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
2025年には、RLHF(人間フィードバックを用いた強化学習)やSFT(スーパーバイズドファインチューニング)の代わりに、または補完する新しいトレーニング段階として「検証可能報酬による強化学習」(RLVR)が登場しました。RLVRは、数式やコードパズルなどの自動的に検証可能な報酬に対してLLM(大規模言語モデル)を訓練し、より長い最適化サイクル、高いコスト効率、および「推論」戦略の出現を実現します。重要な特徴は「思考時間」ノブであり、ユーザーがモデルに推論を追跡させる期間を制御できる点です。
OpenAI の o1(2024年後半)は最初の RLVR モデルでした;早期 2025 年にリリースされた o3 は明確な性能転換点を示しました。著者は「ゴースト vs. アニマル / ジャギッド・インテリジェンス」というメタファーを作り、LLM を進化する動物ではなくゴーストを召喚していると表現し、検証可能領域での能力の急激なスパイクと RLVR によってゲームできるベンチマークへの懐疑心を強調しました。
新しいアプリケーション層が登場しています:
- Cursor は有向非巡回グラフ(DAG)で複数のLLM呼び出しをオーケストレーションし、コンテキストエンジニアリング、GUI、および「自律スライダー」を提供することで、垂直に焦点を当てたプロダクト層を形成します。
- Claude Code はユーザーのコンピュータ上で動作し、ツール使用・推論・プライベートデータ・低レイテンシー相互作用を最小限のCLI形式で統合する、説得力ある初めてのローカルLLMエージェントです。
- Vibe coding は英語指示だけでプログラムを構築できるようにし、非専門家でもプログラミングを民主化します。
- Google Gemini の Nano Banana はテキスト、画像生成、および世界知識を組み合わせたLLM GUI にシフトし、情報を視覚/空間形式で提供します。
著者は、モデルが検証可能なタスクでは優れているものの、それ以外の領域では容易に騙されることを警告しています—不均一でジャギーな能力ランドスケープです。ベンチマーク自体も RLVR によってゲームできる報酬シグナルになり得るため、より強力な評価基準が必要です。将来の作業は、コスト効率を改善した長期 RL 実行とこれら新しいプロダクト層の成熟に関わる可能性が高く、強力なローカルエージェントでユーザーを支援し、ドメイン固有のLLMオーケストレーションで企業を恩恵させるでしょう。
本文
2025年12月19日
2025年はLLM(大規模言語モデル)の進化が強く、数々のイベントで注目される一年でした。以下に、個人的に印象的でやや驚きだった「パラダイムチェンジ」をまとめました――概念的に風景を変えたと感じた事柄です。
-
検証可能な報酬からの強化学習(RLVR)
2025年初頭、すべての研究室でのLLMプロダクションスタックは次のようになっていました。- プレトレーニング(約2020年のGPT‑2/3)
- スーパーバイズド・ファインチューニング(InstructGPT ~2022)
- 人間フィードバックからの強化学習(RLHF ~2022)
そこで登場したのがRLVRです。数式やコードパズル、その他検証可能な環境に対して自動で報酬を計算しながらLLMを訓練することで、モデルは自然と推論戦略を身につけます――中間計算を分割し、反復的に解を探すという手法です(DeepSeek R1のペーパーが例示しています)。SFTやRLHFが短期的なファインチューニングであるのに対し、RLVRはゲーム化できない報酬関数に長時間最適化するため、計算資源をプレトレーニングに割いていたものを高い能力/$比率で活用できます。これにより「思考時間」を増やすことで性能を制御できるようになりました。OpenAIのo1(2024年後半)がRLVRモデルを初めて示し、o3(2025年初頭)で明確な転換点が訪れました。
-
ゴースト対アニマル/鋭い知能
2025年、私や同僚はLLMの知能の「形」をより直感的に内面化し始めました――我々は進化した動物ではなく、幽霊を呼び出している。ニューラルアーキテクチャ・データ・アルゴリズム、特に最適化圧力が人間の脳とは異なるため、より「ゴースト」に近い存在になると考えられます。RLVRは検証可能な領域で能力を急上昇させるため、性能が鋭く変動します――天才的な多能工と混乱した小学生の両方であり、ジャイルブレイクに対して脆弱です。ベンチマーク自体も検証可能環境なので、RLVRやその弱い形態によって合成データ生成が行われます。テストセットを学習することは芸術の域へと進化します。以下でさらに詳しく述べています:- Animals vs. Ghosts
- Verifiability
- The Space of Minds
-
Cursor/LLMアプリの新層
Cursorの急成長は、LLMを利用した「アプリ」層を明らかにしました。- コンテキストエンジニアリング
- 複数のLLM呼び出しを複雑なDAGに編成し、性能とコストをバランスさせるオーケストレーション
- ヒトインザループ向けのアプリ固有GUI
- 「自律度スライダー」
2025年の議論はこの層がどれほど厚いかに集中しています。私はLLM研究所が一般的な能力を持つモデル(大学生レベル)を作り、アプリ側で専門化・ファインチューニング・導入チームを組んで、プライベートデータやセンサー、アクチュエーター、フィードバックループを活用してプロフェッショナル分野に展開するだろうと考えています。
-
Claude Code/コンピュータ上で動くAI
Claude Code(CC)は、ツール使用と推論を連結し、長期的な問題解決を行うLLMエージェントの最初の説得力ある実証でした。OpenAIのクラウドベースのエージェントとは対照的に、CCはローカルで動作し、既存環境・データ・シークレット・低レイテンシーインタラクションを活用します。AnthropicはCLIとしてパッケージ化し、「あなたのマシン上に住む小さな精霊」のような体験を提供しました――対話形態の別種です。 -
Vibe Coding
2025年、AIは英語だけでプログラムを作成できる「vibe coding」に到達しました。誰でもこの方法でコードを書けるため、プログラミングの民主化が進み、プロフェッショナルも自らソフトウェアを生み出すようになりました。私はVibe Codingを使ってRustでカスタムBPEトークナイザーを実装し、menugen・llm‑council・reader3・HN time capsuleなどのクイックデモアプリを作成し、1つのバグをデバッグするためだけに破棄可能なアプリを構築しました。Vibe Codingはソフトウェア開発と職務記述書を再形成します。 -
Nano Banana/LLM GUI
Google GeminiのNano Bananaは、テキスト生成・画像生成・世界知識を統合するパラダイムシフトモデルです。これはLLM GUIの未来を示唆しており――AI出力を画像・インフォグラフィック・スライド・ホワイトボード・アニメーション・動画・ウェブアプリとして提示し、原始的なテキストではなく視覚と意味を統合したインターフェースです。エモジやMarkdownなどの初期形態はテキストを視覚化しますが、Nano Bananaはより一体化されたビジュアルセマンティックインターフェースを示唆しています。
TL;DR: 2025年はLLMにとって刺激的でやや驚きのある一年でした。彼らは期待通りより賢く、逆に予想外に鈍い側面も持つ新しい知能として登場しました。その可能性はまだ十分に実現されておらず、分野は広がる余地があります。急速な進展を見ながらも多くの課題が残っています。備えあれば憂いなしです。