2025/12/20 5:49

LLM Year in Review

RSS: https://news.ycombinator.com/rss

要約▶

Japanese Translation:

2025年には、RLHF（人間フィードバックを用いた強化学習）やSFT（スーパーバイズドファインチューニング）の代わりに、または補完する新しいトレーニング段階として「検証可能報酬による強化学習」（RLVR）が登場しました。RLVRは、数式やコードパズルなどの自動的に検証可能な報酬に対してLLM（大規模言語モデル）を訓練し、より長い最適化サイクル、高いコスト効率、および「推論」戦略の出現を実現します。重要な特徴は「思考時間」ノブであり、ユーザーがモデルに推論を追跡させる期間を制御できる点です。

OpenAI の o1（2024年後半）は最初の RLVR モデルでした；早期 2025 年にリリースされた o3 は明確な性能転換点を示しました。著者は「ゴースト vs. アニマル / ジャギッド・インテリジェンス」というメタファーを作り、LLM を進化する動物ではなくゴーストを召喚していると表現し、検証可能領域での能力の急激なスパイクと RLVR によってゲームできるベンチマークへの懐疑心を強調しました。

新しいアプリケーション層が登場しています：

Cursor は有向非巡回グラフ（DAG）で複数のLLM呼び出しをオーケストレーションし、コンテキストエンジニアリング、GUI、および「自律スライダー」を提供することで、垂直に焦点を当てたプロダクト層を形成します。
Claude Code はユーザーのコンピュータ上で動作し、ツール使用・推論・プライベートデータ・低レイテンシー相互作用を最小限のCLI形式で統合する、説得力ある初めてのローカルLLMエージェントです。
Vibe coding は英語指示だけでプログラムを構築できるようにし、非専門家でもプログラミングを民主化します。
Google Gemini の Nano Banana はテキスト、画像生成、および世界知識を組み合わせたLLM GUI にシフトし、情報を視覚／空間形式で提供します。

著者は、モデルが検証可能なタスクでは優れているものの、それ以外の領域では容易に騙されることを警告しています—不均一でジャギーな能力ランドスケープです。ベンチマーク自体も RLVR によってゲームできる報酬シグナルになり得るため、より強力な評価基準が必要です。将来の作業は、コスト効率を改善した長期 RL 実行とこれら新しいプロダクト層の成熟に関わる可能性が高く、強力なローカルエージェントでユーザーを支援し、ドメイン固有のLLMオーケストレーションで企業を恩恵させるでしょう。

本文

2025年12月19日

2025年はLLM（大規模言語モデル）の進化が強く、数々のイベントで注目される一年でした。以下に、個人的に印象的でやや驚きだった「パラダイムチェンジ」をまとめました――概念的に風景を変えたと感じた事柄です。

検証可能な報酬からの強化学習（RLVR）
2025年初頭、すべての研究室でのLLMプロダクションスタックは次のようになっていました。
- プレトレーニング（約2020年のGPT‑2/3）
- スーパーバイズド・ファインチューニング（InstructGPT ~2022）
- 人間フィードバックからの強化学習（RLHF ~2022）
そこで登場したのがRLVRです。数式やコードパズル、その他検証可能な環境に対して自動で報酬を計算しながらLLMを訓練することで、モデルは自然と推論戦略を身につけます――中間計算を分割し、反復的に解を探すという手法です（DeepSeek R1のペーパーが例示しています）。SFTやRLHFが短期的なファインチューニングであるのに対し、RLVRはゲーム化できない報酬関数に長時間最適化するため、計算資源をプレトレーニングに割いていたものを高い能力／$比率で活用できます。これにより「思考時間」を増やすことで性能を制御できるようになりました。OpenAIのo1（2024年後半）がRLVRモデルを初めて示し、o3（2025年初頭）で明確な転換点が訪れました。
ゴースト対アニマル／鋭い知能
2025年、私や同僚はLLMの知能の「形」をより直感的に内面化し始めました――我々は進化した動物ではなく、幽霊を呼び出している。ニューラルアーキテクチャ・データ・アルゴリズム、特に最適化圧力が人間の脳とは異なるため、より「ゴースト」に近い存在になると考えられます。RLVRは検証可能な領域で能力を急上昇させるため、性能が鋭く変動します――天才的な多能工と混乱した小学生の両方であり、ジャイルブレイクに対して脆弱です。ベンチマーク自体も検証可能環境なので、RLVRやその弱い形態によって合成データ生成が行われます。テストセットを学習することは芸術の域へと進化します。以下でさらに詳しく述べています：
- Animals vs. Ghosts
- Verifiability
- The Space of Minds
Cursor／LLMアプリの新層
Cursorの急成長は、LLMを利用した「アプリ」層を明らかにしました。
- コンテキストエンジニアリング
- 複数のLLM呼び出しを複雑なDAGに編成し、性能とコストをバランスさせるオーケストレーション
- ヒトインザループ向けのアプリ固有GUI
- 「自律度スライダー」
2025年の議論はこの層がどれほど厚いかに集中しています。私はLLM研究所が一般的な能力を持つモデル（大学生レベル）を作り、アプリ側で専門化・ファインチューニング・導入チームを組んで、プライベートデータやセンサー、アクチュエーター、フィードバックループを活用してプロフェッショナル分野に展開するだろうと考えています。
Claude Code／コンピュータ上で動くAI
Claude Code（CC）は、ツール使用と推論を連結し、長期的な問題解決を行うLLMエージェントの最初の説得力ある実証でした。OpenAIのクラウドベースのエージェントとは対照的に、CCはローカルで動作し、既存環境・データ・シークレット・低レイテンシーインタラクションを活用します。AnthropicはCLIとしてパッケージ化し、「あなたのマシン上に住む小さな精霊」のような体験を提供しました――対話形態の別種です。
Vibe Coding
2025年、AIは英語だけでプログラムを作成できる「vibe coding」に到達しました。誰でもこの方法でコードを書けるため、プログラミングの民主化が進み、プロフェッショナルも自らソフトウェアを生み出すようになりました。私はVibe Codingを使ってRustでカスタムBPEトークナイザーを実装し、menugen・llm‑council・reader3・HN time capsuleなどのクイックデモアプリを作成し、1つのバグをデバッグするためだけに破棄可能なアプリを構築しました。Vibe Codingはソフトウェア開発と職務記述書を再形成します。
Nano Banana／LLM GUI
Google GeminiのNano Bananaは、テキスト生成・画像生成・世界知識を統合するパラダイムシフトモデルです。これはLLM GUIの未来を示唆しており――AI出力を画像・インフォグラフィック・スライド・ホワイトボード・アニメーション・動画・ウェブアプリとして提示し、原始的なテキストではなく視覚と意味を統合したインターフェースです。エモジやMarkdownなどの初期形態はテキストを視覚化しますが、Nano Bananaはより一体化されたビジュアルセマンティックインターフェースを示唆しています。

TL;DR: 2025年はLLMにとって刺激的でやや驚きのある一年でした。彼らは期待通りより賢く、逆に予想外に鈍い側面も持つ新しい知能として登場しました。その可能性はまだ十分に実現されておらず、分野は広がる余地があります。急速な進展を見ながらも多くの課題が残っています。備えあれば憂いなしです。

同じ日のほかのニュース

一覧に戻る →

2025/12/20 7:13

CSS Grid Lanes

## Japanese Translation: > **Safari Technology Preview 234 は CSS Grid Lanes を導入しました**。これは、開発者が JavaScript なしで CSS 内で直接モザイク風グリッドを構築できる新しいレイアウトモードです。 > > 開発者は `display: grid-lanes;` と標準の Grid 構文（`grid-template-columns`、`repeat(auto-fill, …)` など）を組み合わせて柔軟なレーンを作成します。アイテムは自動的に最も近い上部レーンに配置され、無限スクロールとタブフレンドリーなナビゲーションが可能になります。 > > **高度な機能** には、レーンサイズの変更（`minmax(8rem, 1fr) minmax(16rem, 2fr)`）、アイテムの跨ぎ（`grid-column: span N`）、明示的配置（`grid-column: -3 / -1`）および新しい `item-tolerance` プロパティ（デフォルトは `1em`）が含まれます。これは、サイズ差に基づいてアイテムがレーンをどれだけ積極的にシフトするかを制御します。レーンは列方向（「ウォーターフォール」）または行方向（「レンガレイアウト」）で向きを設定でき、デフォルトの流れは通常です。 > > 実装は 2022 年中頃に開始され、Safari TP 234 で利用可能です。ライブデモは <https://webkit.org/demos/grid3>（写真ギャラリー、ニュースレイアウト、博物館サイト、メガメニューフッター）でホストされています。CSS Working Group はまだプロパティ名と向きの構文（`grid-lanes-direction` か `grid-auto-flow` の再利用）を最終化中です。その決定が下り次第、この機能は本番環境で使用できるようになります。 > > 開発者にとって、これは追加の JavaScript を必要とせず、より高速でパフォーマンスの高いレスポンシブレイアウトを実現することを意味し、ブラウザベンダーは同様の機能を採用する可能性があり、将来のウェブデザイン標準に影響を与えるでしょう。

2025/12/19 0:01

Mistral OCR 3

## Japanese Translation: Mistral OCR 3 は、従来のエンタープライズツールと AI ネイティブ競合他社の両方を上回る高精度な OCR モデルです。フォーム、スキャン文書、複雑な表、および手書き文字に対して Mistral OCR 2 と比較し、全体で 74 % の勝率を達成します。このモデルは、1,000 ページあたり $2（50 % Batch‑API 割引適用で 1,000 ページあたり $1）と価格設定されており、シンプルな API または Mistral AI Studio のドラッグ＆ドロップ Document AI Playground を通じてアクセスできます。主な強みは次のとおりです： * **手書き文字サポート** – 連続体文字、混合内容、および印刷フォーム上の手書き文字。 * **フォーム処理** – 請求書、領収書、コンプライアンスフォーム、政府文書におけるボックス、ラベル、手書き入力、および密集レイアウトの検出を改善。 * **頑健性** – 圧縮アーティファクト、傾斜、歪み、低 DPI、背景ノイズ、複雑なレイアウトに対処。 * **表再構築** – ヘッダー、結合セル、多行ブロック、および列階層を完全にサポートし、colspan/rowspan を含む HTML テーブルタグ付きの拡張マークダウンを出力。初期採用者はすでに Mistral OCR 3 を高ボリュームのエンタープライズパイプラインに統合しています：請求書を構造化フィールドへ変換、会社アーカイブのデジタル化、技術レポートからクリーンテキストを抽出、および企業検索の強化。精度、コスト効果、柔軟な展開の組み合わせにより、大規模文書処理を業界横断で変革できる競争力ある代替手段として位置づけられています。

2025/12/20 8:59

PBS News Hour West to go dark after ASU discontinues contract

## Japanese Translation: ## Summary アリゾナ州立大学（ASU）のウォルター・クロンスキー報道学部は、PBS NewsHour Westとのパートナーシップを更新しないことを決定し、2019 年から ASU のダウンタウンフェニックスキャンパスで運営されていた事務所を実質的に閉鎖しました。この動きは「ASUの優先事項の変更」に起因すると、News Hour Productions の GM 兼 WETA EVP/CCO のマイケル・ランチリオが述べました。PBS およびアリゾナ PBS は追加説明を行わず、ASU に感謝し、地域ニュースへの継続的な取り組みを約束しました。閉鎖により、西海岸で 20 % 以上の視聴者に到達することを支援していた西部本部としての事務所の役割が終了します。また、ASU のジャーナリズム学生（例：AJ Ceglia 学長）に実地報道経験と就職機会を提供していたインターンシッププログラムも消滅します。現在のインターンは学術クレジットを受け取りますが、卒業要件を満たすために代替配置を探す必要があります。 PBS NewsHour West の最終全国放送は 12 月 19 日に行われます。クロンスキー建物は、事務所閉鎖前に学校のサポートを称える形で夜間放送に登場しました。この報道は *The State Press* のジュニアレポーター、エマ・ブラッドフォード（連絡先：elbradfo@asu.edu; X @emmalbradford）によって取り上げられました。彼女も ASU のジャーナリズム／メディアコミュニケーション学部の学生です。この決定は、西米国における地域ニュースの報道を減少させ、PBS の視聴者エンゲージメントを低下させ、新進気鋭のジャーナリストのプロフェッショナルパスウェイを制限する可能性があります