
2025/12/11 2:23
Auto-grading decade-old Hacker News discussions with hindsight
RSS: https://news.ycombinator.com/rss
要約▶
日本語訳:
改訂サマリー
「hncapsule」プロジェクトは、Opus 4.5 上で稼働する大規模言語モデル GPT‑5.1 が、自動的に過去の Hacker News フロントページコンテンツをレビューし要約できることを示しています。2015年12月のストーリーをケーススタディとして使用しています。著者は Algolia API から30件の日次記事とそれらの完全なコメントスレッドを取得し、カスタムプロンプトで GPT‑5.1 に入力します。このプロンプトでは6つのセクションを要求します:
- 全体要約
- 実際に起こったこと(主要イベント)
- 最も先見的/誤った賞
- 注目すべき点
- コメント投稿者ごとの最終評価 – 出力は正確な形式
である必要があります。これによりプログラムで解析可能です。Final grades\n‑ name: grade (optional comment) - 興味スコア – 「Article hindsight analysis interestingness score: X」という接頭辞を付け、各記事の魅力度を示します。
プロジェクトは、
https://karpathy.ai/hncapsule/ にホストされる静的 HTML ページにこれらの結果を表示し、同じベース URL の data.zip で生データ(JSON)も提供しています。著者は930件の LLM クエリを実行し、約58ドルの費用と1時間程度の処理時間がかかりました。
2015年12月にハイライトされた主な出来事には、Swift のオープンソース公開(12 3)、Figma のデビュー(12 6)、OpenAI の発表(12 11)、geohot による Comma(12 16)、SpaceX Orbcomm‑2 ウェブキャスト(12 22)および Theranos の苦境(12 28)が含まれます。Hall of Fame では、コメント投稿者の GPA スタイルスコアで上位に位置するのは pcwalton、tptacek、paulmd、cstross、greglindahl、moxie、hannob、0xcde4c3db、Manishearth、johncolanduoni です。
著者は将来の LLM が「今日の行動を監視する」(future LLMs are watching)と主張し、今すぐ倫理的行動を促しています。もしこうしたツールがより高速かつ安価になれば、研究者・ジャーナリスト・業界アナリストは歴史的出来事に迅速な洞察を得ることができ、企業がレガシー決定を評価し現在の責任ある実践を採用する方法に影響を与える可能性があります。
本文
2025年12月10日
TLDR: https://karpathy.ai/hncapsule/
昨日、偶然このHNスレッドに出会いました
Show HN: Gemini Pro 3 が10年後のHNフロントページを幻覚化する。Gemini 3 は10年後のトップページを「見ている」ように振る舞っていたのです。その中で、Bjartr がちょうど10年前(2015年12月)のHNフロントページへのリンクを貼ったコメントが私の印象に残りました。私はその10年前のディスカッションを読みつつ、その予見性を評価しているうちに、実際にはLLM(大規模言語モデル)がこの作業に非常に適していることに気づいたのです。
記事とコメントスレッドを手動でコピーし、ChatGPT 5.1 Thinking に投げたところ、人々が当時何を考えていたか、そして実際に起こったことを詳細に分析してくれました。私自身が行っていた作業よりもはるかに精度の高い結果でした。このタスクはLLMにとって非常に適したものだと感じ、Opus 4.5 のリリースに合わせて何かを作りたくなったので、プロジェクトを立ち上げました。
12月のすべてのフロントページ(31日 × 30記事)を取得し、ChatGPT 5.1 Thinking に分析させ、歴史的読み物として分かりやすい形でまとめる予定です。
この演習が一般的に興味深いと考えるマクロな理由は二つあります:
- 適切な訓練と努力を経れば、将来予測モデルを自ら作成できる可能性(そして望ましい)だと信じている。
- 「良くしておけ、未来のLLMが見守っている」というツイートを思い出した。これを多方向に解釈できますが、ここでは「未来のLLMが監視している」ことに焦点を当てます。今日行うすべては将来詳細に検証されるかもしれません―それは「無料」で可能になるからです。現在人々が取る多くの行動は、暗黙の「セキュリティ・バイ・オブスクリー」的仮定に基づいています。しかし知能が本当に安価になれば、すべてを完璧に再構築し合成できるようになります。LLM(あるいはそれを使う人間)が監視しているのです。したがって、良く行動する方が賢明です。
実際のプロジェクトのコーディングは比較的楽で、Opus 4.5 を使用して約3時間で完了しました。GitHub にリポジトリを公開しています:karpathy/hn-time-capsule。コードの進行は以下の通りです:
- 指定日付に対し、30記事分のフロントページをダウンロード。
- 各記事について、その本文と Algolia API を使った完全なコメントスレッドを取得・解析。
- すべてをまとめた Markdown プロンプトを生成し、分析依頼。
以下が使用したプロンプトのプレフィックスです:
The following is an article that appeared on Hacker News 10 years ago, and the discussion thread. Let's use our benefit of hindsight now in 6 sections: 1. Give a brief summary of the article and the discussion thread. 2. What ended up happening to this topic? (research the topic briefly and write a summary) 3. Give out awards for “Most prescient” and “Most wrong” comments, considering what happened. 4. Mention any other fun or notable aspects of the article or discussion. 5. Give out grades to specific people for their comments, considering what happened. 6. At the end, give a final score (from 0‑10) for how interesting this article and its retrospect analysis was. As for the format of Section 5, use the header “Final grades” and follow it with simply an unordered list of people and their grades in the format of “name: grade (optional comment)”. Here is an example: Final grades - speckx: A+ (excellent predictions on …) - tosh: A (correctly predicted this or that …) - keepamovin: A - bgwalter: D - fsflover: F (completely wrong on …) Your list may contain more people of course than just this toy example. Please follow the format exactly because I will be parsing it programmatically. The idea is that I will accumulate the grades for each account to identify the accounts that were over long periods of time the most prescient or the most wrong. As for the format of Section 6, use the prefix “Article hindsight analysis interestingness score:” and then the score (0‑10) as a number. Give high scores to articles/discussions that are prominent, notable, or interesting in retrospect. Give low scores in cases where few predictions are made, or the topic is very niche or obscure, or the discussion is not very interesting in retrospect. Here is an example: Article hindsight analysis interestingness score: 8 ---
OpenAI API を通じて GPT 5.1 Thinking にプロンプトを送信 → 結果を取得・解析 → 静的 HTML ページにレンダリングして閲覧しやすく → 自サイト https://karpathy.ai/hncapsule/ でホスティング。
途中経過データも全て公開(
data.zip を同じ URL プレフィックス下に置き、直接リンクは避けています)。
数時間の調査で非常に興味深いと感じました。以下は単なる例として挙げたスレッドです:
- 2015年12月3日 – Swift がオープンソース化
- 2015年12月6日 – Figma のローンチ
- 2015年12月11日 – OpenAI の最初の発表 :')
- 2015年12月16日 – Geohot が Comma を開発中
- 2015年12月22日 – SpaceX ランチウェブキャスト:Orbcomm‑2 ミッション
- 2015年12月28日 – Theranos の苦境
さらに「Hall of Fame」では、2015年12月の HN で最も活躍したコメント投稿者を IMDb スタイルの平均点で並べることができます。特に pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni へ祝福を – GPT 5.1 Thinking はあなたのコメントが非常に洞察力があり予見的だったと評価しました。HN のノイズも下部までスクロールして確認できます。
GitHub 上のコード(実際は Opus のもの)で結果を再現・調整できます。31日 × 30記事 = 930 回の LLM クエリにより、約 $58 と ~1 時間のコストがかかりました。将来のLLMはこのような作業をさらに簡単・高速・安価で行えるでしょう。