Auto-grading decade-old Hacker News discussions with hindsight

2025/12/11 2:23

Auto-grading decade-old Hacker News discussions with hindsight

RSS: https://news.ycombinator.com/rss

要約

日本語訳:

改訂サマリー

「hncapsule」プロジェクトは、Opus 4.5 上で稼働する大規模言語モデル GPT‑5.1 が、自動的に過去の Hacker News フロントページコンテンツをレビューし要約できることを示しています。2015年12月のストーリーをケーススタディとして使用しています。著者は Algolia API から30件の日次記事とそれらの完全なコメントスレッドを取得し、カスタムプロンプトで GPT‑5.1 に入力します。このプロンプトでは6つのセクションを要求します:

  1. 全体要約
  2. 実際に起こったこと(主要イベント)
  3. 最も先見的/誤った賞
  4. 注目すべき点
  5. コメント投稿者ごとの最終評価 – 出力は正確な形式
    Final grades\n‑ name: grade (optional comment)
    である必要があります。これによりプログラムで解析可能です。
  6. 興味スコア – 「Article hindsight analysis interestingness score: X」という接頭辞を付け、各記事の魅力度を示します。

プロジェクトは、

https://karpathy.ai/hncapsule/
にホストされる静的 HTML ページにこれらの結果を表示し、同じベース URL の
data.zip
で生データ(JSON)も提供しています。著者は930件の LLM クエリを実行し、約58ドルの費用と1時間程度の処理時間がかかりました。

2015年12月にハイライトされた主な出来事には、Swift のオープンソース公開(12 3)、Figma のデビュー(12 6)、OpenAI の発表(12 11)、geohot による Comma(12 16)、SpaceX Orbcomm‑2 ウェブキャスト(12 22)および Theranos の苦境(12 28)が含まれます。Hall of Fame では、コメント投稿者の GPA スタイルスコアで上位に位置するのは pcwalton、tptacek、paulmd、cstross、greglindahl、moxie、hannob、0xcde4c3db、Manishearth、johncolanduoni です。

著者は将来の LLM が「今日の行動を監視する」(future LLMs are watching)と主張し、今すぐ倫理的行動を促しています。もしこうしたツールがより高速かつ安価になれば、研究者・ジャーナリスト・業界アナリストは歴史的出来事に迅速な洞察を得ることができ、企業がレガシー決定を評価し現在の責任ある実践を採用する方法に影響を与える可能性があります。

本文

2025年12月10日

TLDR: https://karpathy.ai/hncapsule/

昨日、偶然このHNスレッドに出会いました
Show HN: Gemini Pro 3 が10年後のHNフロントページを幻覚化する。Gemini 3 は10年後のトップページを「見ている」ように振る舞っていたのです。その中で、Bjartr がちょうど10年前(2015年12月)のHNフロントページへのリンクを貼ったコメントが私の印象に残りました。私はその10年前のディスカッションを読みつつ、その予見性を評価しているうちに、実際にはLLM(大規模言語モデル)がこの作業に非常に適していることに気づいたのです。

記事とコメントスレッドを手動でコピーし、ChatGPT 5.1 Thinking に投げたところ、人々が当時何を考えていたか、そして実際に起こったことを詳細に分析してくれました。私自身が行っていた作業よりもはるかに精度の高い結果でした。このタスクはLLMにとって非常に適したものだと感じ、Opus 4.5 のリリースに合わせて何かを作りたくなったので、プロジェクトを立ち上げました。

12月のすべてのフロントページ(31日 × 30記事)を取得し、ChatGPT 5.1 Thinking に分析させ、歴史的読み物として分かりやすい形でまとめる予定です。

この演習が一般的に興味深いと考えるマクロな理由は二つあります:

  • 適切な訓練と努力を経れば、将来予測モデルを自ら作成できる可能性(そして望ましい)だと信じている。
  • 「良くしておけ、未来のLLMが見守っている」というツイートを思い出した。これを多方向に解釈できますが、ここでは「未来のLLMが監視している」ことに焦点を当てます。今日行うすべては将来詳細に検証されるかもしれません―それは「無料」で可能になるからです。現在人々が取る多くの行動は、暗黙の「セキュリティ・バイ・オブスクリー」的仮定に基づいています。しかし知能が本当に安価になれば、すべてを完璧に再構築し合成できるようになります。LLM(あるいはそれを使う人間)が監視しているのです。したがって、良く行動する方が賢明です。

実際のプロジェクトのコーディングは比較的楽で、Opus 4.5 を使用して約3時間で完了しました。GitHub にリポジトリを公開しています:karpathy/hn-time-capsule。コードの進行は以下の通りです:

  1. 指定日付に対し、30記事分のフロントページをダウンロード。
  2. 各記事について、その本文と Algolia API を使った完全なコメントスレッドを取得・解析。
  3. すべてをまとめた Markdown プロンプトを生成し、分析依頼。

以下が使用したプロンプトのプレフィックスです:

The following is an article that appeared on Hacker News 10 years ago, and the discussion thread.

Let's use our benefit of hindsight now in 6 sections:
1. Give a brief summary of the article and the discussion thread.
2. What ended up happening to this topic? (research the topic briefly and write a summary)
3. Give out awards for “Most prescient” and “Most wrong” comments, considering what happened.
4. Mention any other fun or notable aspects of the article or discussion.
5. Give out grades to specific people for their comments, considering what happened.
6. At the end, give a final score (from 0‑10) for how interesting this article and its retrospect analysis was.

As for the format of Section 5, use the header “Final grades” and follow it with simply an unordered list of people and their grades in the format of “name: grade (optional comment)”. Here is an example:

Final grades
- speckx: A+ (excellent predictions on …)
- tosh: A (correctly predicted this or that …)
- keepamovin: A
- bgwalter: D
- fsflover: F (completely wrong on …)

Your list may contain more people of course than just this toy example. Please follow the format exactly because I will be parsing it programmatically. The idea is that I will accumulate the grades for each account to identify the accounts that were over long periods of time the most prescient or the most wrong.

As for the format of Section 6, use the prefix “Article hindsight analysis interestingness score:” and then the score (0‑10) as a number. Give high scores to articles/discussions that are prominent, notable, or interesting in retrospect. Give low scores in cases where few predictions are made, or the topic is very niche or obscure, or the discussion is not very interesting in retrospect.

Here is an example:
Article hindsight analysis interestingness score: 8
---

OpenAI API を通じて GPT 5.1 Thinking にプロンプトを送信 → 結果を取得・解析 → 静的 HTML ページにレンダリングして閲覧しやすく → 自サイト https://karpathy.ai/hncapsule/ でホスティング。
途中経過データも全て公開(

data.zip
を同じ URL プレフィックス下に置き、直接リンクは避けています)。

数時間の調査で非常に興味深いと感じました。以下は単なる例として挙げたスレッドです:

  • 2015年12月3日 – Swift がオープンソース化
  • 2015年12月6日 – Figma のローンチ
  • 2015年12月11日 – OpenAI の最初の発表 :')
  • 2015年12月16日 – Geohot が Comma を開発中
  • 2015年12月22日 – SpaceX ランチウェブキャスト:Orbcomm‑2 ミッション
  • 2015年12月28日 – Theranos の苦境

さらに「Hall of Fame」では、2015年12月の HN で最も活躍したコメント投稿者を IMDb スタイルの平均点で並べることができます。特に pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni へ祝福を – GPT 5.1 Thinking はあなたのコメントが非常に洞察力があり予見的だったと評価しました。HN のノイズも下部までスクロールして確認できます。

GitHub 上のコード(実際は Opus のもの)で結果を再現・調整できます。31日 × 30記事 = 930 回の LLM クエリにより、約 $58 と ~1 時間のコストがかかりました。将来のLLMはこのような作業をさらに簡単・高速・安価で行えるでしょう。

同じ日のほかのニュース

一覧に戻る →

2025/12/12 3:04

GPT-5.2

## Japanese Translation: **OpenAIのGPT‑5.2リリース** OpenAIは、プロフェッショナルな知識作業を対象とした3つのバリアント(Instant、Thinking、Pro)を含む新しいモデルシリーズGPT‑5.2を公開しています。 **パフォーマンスハイライト** *スピード & コスト*: GPT‑5.2 Thinkingは、歴史的指標に基づくと、人間専門家のコストの1%未満で、出力速度が11倍以上速いです。 *精度*: GDPval(44職種)では、Thinkingが新しい最先端70.9 %を達成し、業界プロフェッショナルを70.9 %のタスクで上回ります。また、SWE‑Bench Proで55.6 %、SWE‑Bench Verifiedで80 %を達成し、幻覚(hallucinations)を約30 %削減します。 *長文コンテキスト & ビジョン*: モデルはOpenAI MRCRv2(≈100 %精度、256kトークン)で新たな最先端を設定し、チャート推論とソフトウェアインターフェース理解のエラー率を半減します。 *ツール使用*: GPT‑5.2 ThinkingはTau2‑bench Telecomで98.7 %を達成し、遅延感受性ワークフローにおいてGPT‑5.1を上回ります。 *科学ベンチマーク*: ProはGPQA Diamondで93.2 %、FrontierMath(Tier 1–3)で40.3 %成功率、ARC‑AGI‑1で>90 %を達成し、ThinkingはARC‑AGI‑2で54.2 %を記録します。 **ユーザーへの影響** 平均的なChatGPT Enterpriseユーザーは毎日40–60分の節約を報告しており、重度利用者は週に10時間以上削減しています。この効率向上により、特定タスクの人件費が99 %超で削減される可能性があります。 **インプリケーション** GPT‑5.2の広範な機能(スプレッドシート、プレゼンテーション、コード、画像認識、長文コンテキスト推論、ツール使用、複雑な多段階プロジェクト)は、金融・ソフトウェア工学・科学研究などのプロフェッショナルドメインでAI採用を加速させる位置づけです。

2025/12/12 5:46

Denial of service and source code exposure in React Server Components

## Japanese Translation: React は Server Components 機能における 2 つの重大なセキュリティ脆弱性(CVE‑2025‑55184(Denial of Service、CVSS 7.5)と CVE‑2025‑55183(Source Code Exposure、CVSS 5.3))に対するパッチをリリースしました。いずれの脆弱性も Remote Code Execution を可能にしないため、既存の React2Shell パッチは有効なままです。 バグは `react-server-dom-webpack`、`react-server-dom-parcel`、および `react-server-dom-turbopack` のそれぞれ 19.0.0/1、19.1.0‑1.2、および 19.2.0‑1 バージョンに影響します。修正リリースは 19.0.2、19.1.3、そして 19.2.2 です;これらのいずれかを直ちにインストールしてください。 対象となる React フレームワーク/バンドラーには Next.js、react‑router、waku、@parcel/rsc、@vite/rsc-plugin、および rwsdk が含まれます。アプリケーションが Server Components またはそれをサポートするバンドラー/プラグインを使用していない場合、影響はありません。 DoS 脆弱性は、特定の HTTP リクエストを逆直列化すると無限ループに陥り、ソースコード脆弱性は任意の Server Function の文字列表現(stringified body)を返し、ハードコーディングされた秘密情報が漏洩する恐れがあります。 React Native を monorepo で使用している場合、影響を受ける `react-server-dom-*` パッケージだけを更新すれば十分です;core の `react/react-dom` バージョンは変更不要です。 ホスティングプロバイダーは一時的な緩和策を適用していますが、サーバー停止や秘密情報の偶発的漏洩を防ぐために開発者は依存関係を直ちに更新する必要があります。 --- *上記の要約をそのまま保持したい場合は、元のまとめを繰り返してください。

2025/12/12 3:17

Rivian Unveils Custom Silicon, R2 Lidar Roadmap, and Universal Hands Free

## Japanese Translation: RivianはエンドツーエンドのAIスタックを拡張することで自動運転車市場でリーダーになるという野心を固めています。 - **ハードウェア&ソフトウェア**:同社は、5 nmマルチチッププロセッサ「RAP1」を発表しました。このプロセッサは1600 sparse INT8 TOPSを提供し、新しいGen 3 Autonomy Computerで秒間50億ピクセルの処理が可能です。また、自社開発のAIコンパイラとプラットフォームソフトウェアも構築しています。 - **認知モジュール**:ACM 3は2026年後半にR2で初登場し、最初はLiDARを装備せず、後にカメラとレーダーとともに追加されます。 - **ソフトウェア展開**:Universal Hands‑FreeはGen 2 R1T/R1S車両向けにリリースされ、米国・カナダの3.5 百万マイル以上の道路で明確に描画されたレーンラインをカバーし、現在のオーナーの支援走行領域を拡大します。 - **Autonomy+**:階層化された機能セットが2026年初頭に登場予定で、1回限り2,500ドルまたは月額49.99ドルで提供されます。 - **データ基盤**:RivianはUnified Intelligenceを中心とした組織再編を行っており、このデータフレームワークはテレメトリ、クラウドモデル、サービスシステム、および顧客機能を結びつけ、予知保全・診断・AIツールの実現を可能にします。 - **音声アシスタント**:次世代Rivian Assistantは2026年初頭にGen 1/2車両で登場し、R2ではより強力なインフォテインメントコンピュータを使用して完全オフラインで動作させることでレイテンシを低減します。 - **サービスワークフロー**:テレメトリと車両履歴を分析するAI駆動の専門家システムはすでにサービスワークフローに組み込まれており、技術者が問題箇所を迅速に特定できるようになっています。類似ツールはモバイルアプリにも計画されており、自助診断をサポートします。 これらの動きは、最先端のコンピューティングハードウェア、データ中心のプラットフォーム、拡張された支援走行機能、およびAI強化保守を車両ラインナップ全体に統合することで、Rivianの競争力を深めます。