「大規模言語モデルが私のコーヒーを予測する」

2026/03/18 22:56

「大規模言語モデルが私のコーヒーを予測する」

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

要約

本研究は、陶器製マグに注がれた沸騰水の冷却過程を予測するために、さまざまな大規模言語モデル(LLM)が生成した方程式を比較した。226.8 g(8 oz)の沸騰水を20 °Cの室温で1.25 lb(0.57 kg)マグに注ぎ、内部水温を数秒ごとに5分間記録した。目的は、注入後からの時間 (t) に対する摂氏温度 (T(t)) を表す関数を得ることである。

LLMにはこのような方程式を作成させた結果、以下のようになった:

  • Kimi K2.5:(20 + 52.9,e^{-t/3600} + 27.1,e^{-t/80})
  • Gemini 3.1 Pro:(20 + 53,e^{-t/2500} + 27,e^{-t/149.25})
  • GPT 5.4:(20 + 54.6,e^{-t/2920} + 25.4,e^{-t/68.1})
  • Claude 4.6 Opus:(20 + 55,e^{-t/1700} + 25,e^{-t/43}) (最良適合、トークンコスト $0.61)
  • Qwen3‑235B:(20 + 53.17,e^{-t/1414.43})
  • GLM‑4.7:(20 + 53.2,e^{-t/2500})

すべての方程式には常数項 20 °C(室温)が含まれる。二項モデルは、水からマグへの高速熱移動と、合成系統から空気への遅い熱放散を表し、単一項モデルは支配的な減衰のみを捉えている。

実験プロトコルでは、沸騰まで水を電子レンジで2回加熱し、デジタル温度計付きマグに注ぎ、初めは5 秒ごと、その後は長い間隔で温度を記録した。観測された冷却曲線は最初の数分で実際よりも速く減少し、以降はゆっくりと減衰する傾向が見られた。すべてのモデルは早期冷却を過大評価し、後期冷却を過小評価した。

本研究は、LLM が物理的に妥当な方程式を生成できる一方で、経験的校正なしには動力学を誤算する可能性があることを示しており、AI 由来の公式を実測データで検証または調整する必要性を強調している。

本文

DYNOMIGHT

  • best
  • topics
  • follow
  • about

コーディング、数学、その他何でも。LLM(大規模言語モデル)は物理実験の結果を予測できるのでしょうか?

仮に 8 oz(226.8 g)の沸騰水を、重さ 1.25 lb(0.57 kg)の陶器製コーヒーマグに注ぐとします。周囲は静止しており温度は20 °Cです。マグは室温から始まります。この時点で「t」を水を注いだ瞬間からの経過秒数として、摂氏温度を時間関数 (T(t)) として表す方程式を教えてください。方程式に含める自由変数は t のみとし、最初の5分間での正確さに焦点を当ててください。

これは難しいように思えますか?私自身もそう感じています。関連する物理現象には以下が少なくとも含まれます:

  • 水・マグ・空気・テーブル間の熱伝導
  • それぞれの内部での熱伝導
  • 水と空気内の対流(液体・気体の移動)
  • 蒸発冷却(水分子が蒸気になる際の冷却)
  • 空気中における水蒸気の拡散
  • 放射(すべての物質は温度依存性の赤外線を放出する)
  • 表面張力、熱膨張/収縮、水が冷えるにつれて空気が再吸収される現象など、多くの詳細が未定です。

マグは磁器か石焼か?形状はどうか?テーブルは何でできているか?湿度はどれくらいか?水温を単一値にまとめるにはどうするか?

つまり「正解」がある問題ではありません。現実はあまりにも複雑です。回答には「味覚」―重要だと思われる要因の推測、欠けている情報への仮定などが必要になります。

そこで私はこの質問をいくつかのLLMに投げました。以下が彼らから得た答えです(実際はテキストとして方程式を返しており、私はそれらをプロットしています)。

予想される温度低下の速度について曲線に驚きました。最初の数分でどれだけ冷えるか、そして1時間後までの減少速度が同程度だと考えているのです。それは本当に正しいのでしょう?

そこで実験を行いました。まず周囲温度が20 °Cになるまで待ち、次に8 ozの水を計量カップで測り、電子レンジで沸騰させ、少し温度を均一化した後、再び沸騰させました。その後、その水を1.25‑lbのコーヒーマグへ注ぎ込み、デジタルサーモメーターを入れて5秒ごとに測定値を叫びながら記録しました(Dynomight生物学者がフラストレーションを抱えて)。後で測定間隔を15 秒、30 秒、1分、そして5分へと徐々に減らしました。

以下はその結果です:

[グラフ省略]

または最初の5分間を拡大した図:

[ズームイン図省略]

予測値はすべて「OK」でしたが、どれも完璧ではありませんでした。Claude 4.6 Opus(推論付き)が最も良い結果を出し、トークン代として$0.61を消費しました。(物理実験/防衛省/金銭/コーヒーに関するジョークを挿入してください)

それでも予測が驚くほど早い初期冷却と遅い後半冷却を示す点は、私の直感とは逆でした。実際には最初の方がさらに速く、終わりに近づくにつれてさらに遅くなるという結果でした。したがって、LLMと自分の直感を組み合わせるならば、私の直感は重みゼロになるだろうと思います。

結論として、彼らは私たちの数学的思考を取り入れるかもしれませんが、微細な運動制御はまだ少し遅れているようです。中学生レベルの科学プロジェクトを読んでいただきありがとうございます。


Appendix: 方程式

以下はすべてのモデルが T(t)(t 秒後に予測される温度)として提供した方程式です。

LLMT(t)コスト
Kimi K2.5 (推論)20 + 52.9 exp(–t/3600)+ 27.1 exp(–t/80)$0.01
Gemini 3.1 Pro20 + 53 exp(–t/2500)+ 27 exp(–t/149.25)$0.09
GPT 5.420 + 54.6 exp(–t/2920)+ 25.4 exp(–t/68.1)$0.11
Claude 4.6 Opus (推論)20 + 55 exp(–t/1700)+ 25 exp(–t/43)$0.61
Qwen3‑235B20 + 53.17 exp(–t/1414.43)$0.009
GLM‑4.7 (推論)20 + 53.2 exp(–t/2500)$0.03

興味深いことに、すべてが一つまたは二つの指数関数的減衰項で構成されていました。解釈としては、exp(–t/b) は t が 0 のとき 1 から始まり、b 秒後には 1/e ≈ 0.368 に落ち込み、その後も毎 b 秒ごとに約 0.368 倍ずつ減少していく関数です。

したがって多くのモデルは「高速率」(水からマグへの熱流)と「低速率」(水/マグから空気への熱流)の両方を示しています。数モデルは高速率を省略しています。DeepSeek と Grok も試しましたが、答えを返さずに終わってしまい、そのサービス料金を請求されました。


コメント

  • lemmy / substack
  • ここにパターンがあるのか? – 科学, AI
  • 実データは何十億年もの進化 – AI, 科学
  • なぜ2005年に GPT‑2 が登場しなかったのか? – 科学, 経済, AI
  • 書くことにおけるモダンフォーマット依存症 – ライティング, AI

同じ日のほかのニュース

一覧に戻る →

2026/03/23 3:23

**PC Gamer 推奨RSSリーダー(37 MBの記事でダウンロードが止まらない場合)** - **Feedly** - クラウドベースでデバイス間同期が可能。 - カテゴリー分けやタグ付け機能が充実しています。 - **Inoreader** - 高度なフィルタリングと検索機能を備えています。 - オフライン閲覧モードもサポートします。 - **The Old Reader** - シンプルで軽量、Googleアカウント連携が可能です。 - 共有リストやコメント機能があります。 - **NewsBlur** - AIによるトピック分類と学習機能を提供。 - モバイルアプリも充実しています。 - **Reeder (macOS/iOS)** - Appleデザインに合わせた直感的なUIです。 - 多数のリーダーサービスと連携可能です。 **注意点** - 大容量の記事をダウンロードし続ける場合は、**「オフライン保存」機能**をご利用ください。 - **キャッシュクリア**や**ブラウザ拡張機能無効化**で問題が解決することもあります。 - それでも解決しない場合は、PC Gamerのサポートへ問い合わせるか、別のリーダーを試してください。

## Japanese Translation: PC Gamerの記事は、読者に通知ポップアップ、背景を暗くするニュースレターオーバーレイ、そして少なくとも5つの閉じにくいバナー広告でページを襲撃していることを示しています。ウェルカムマットを回避した後でも、その広告は記事のタイトルとサブタイトルの横に残ります。初期ページロードは37 MBです;5分以内にサイトはさらに約0.5ギガバイトの広告素材をダウンロードします。NetNewsWire、Unread、Current、Reeder など多くの RSS リーダーはこれらの侵襲的要素をフィルタリングでき、よりクリーンな閲覧体験を提供します。これはユーザーが PC Gamer サイトの煩わしさを避けるために広告なしの RSS フィードに切り替える可能性があることを示唆しており、出版社は読者の関与を維持するために過度な広告戦術を減らす圧力を受けるかもしれません。

2026/03/23 4:02

「最適化のゴールドスタンダード:ローラーコースター・タイクーンの内部を探る」

## Japanese Translation: クリス・ソーヤーの *RollerCoaster Tycoon*(1999)は、ほぼすべてのコードをアセンブリで書き、細部にわたる低レベル最適化を施したことで、滑らかなゲームプレイのベンチマークを確立しました。金額は最大想定範囲にちょうど合ったデータ型(ショップ価格は1バイト、総公園価値は4バイト)で保存されており、後にオープンソース再実装 OpenRCT2 ではこれらを統一的な8バイト変数へ移行し、現代のCPUアーキテクチャに合わせました。乗算・除算の代わりにビットシフト(`<<`/`>>`)が使用されており、コンパイラが自動で行うはずだった処理を手動で実装しています。 ゲームデザインの決定は性能制約と密接に結びついています。ソーヤーはデザイナー兼プログラマーとして、CPUフレンドリーな計算を優先する設計選択が可能でした。ゲストの移動はアトラクションへ向かう完全な経路探索ではなくランダムウォークに依存しており、多数のエージェントによる高価な計算を大幅に削減しました。パスファインディングは特定のシナリオ(例:乗物修理のメカニック、出口を探すゲスト)でのみ呼び出され、深さ制限が設けられています—デフォルトでは5つのジャンクション、条件に応じて7または8に増加し、フレームスパイクを回避します。混雑した道では同一タイルに複数のゲストが存在でき、衝突回避は完全に省かれ、近接による幸福度計算のみが影響を受けます。 OpenRCT2 はこの元のロジックをリバースエンジニアリングし、現代CPU向けに変数サイズを標準化し、パスファインダーの制限を拡張することで更新しました。これにより、レガシートリックが新しいハードウェアに適応できることが示されました。将来のアップデートでは、衝突チェックや厳密なデータサイズといった古い制約を緩和しつつ、今日のマシンで性能を損なわずにコア体験を保持することが可能です。 これらの洞察は、デザイナーとプログラマーの緊密な協働と意図的な低レベル最適化が、小規模チームでも高性能ゲームを構築できることを示しており、大手スタジオも採用すべきアプローチです。 ## Text to translate (including missing points):** Chris Sawyer’s *RollerCoaster Tycoon* (1999) set a benchmark for smooth gameplay by writing almost all of its code in Assembly and applying meticulous low‑level optimizations. Money values were stored in data types sized exactly to their maximum expected range (1‑byte for shop prices, 4‑bytes for total park value), and the original engine later shifted these to uniform 8‑byte variables in the open‑source reimplementation OpenRCT2 to match modern CPU architecture. Bit shifting (`<<`/`>>`) was used instead of multiplication/division by powers of two, a manual trick that compilers no longer perform automatically. Game‑design decisions were tightly coupled with performance constraints: Sawyer served as both designer and programmer, allowing design choices to favor CPU‑friendly calculations. Guest movement relied on random walking rather than full pathfinding toward attractions, drastically reducing expensive calculations for thousands of agents. Pathfinding was invoked only in specific scenarios (e.g., mechanics repairing rides, guests seeking exits) and had a depth limit—default 5 junctions, increased to 7 or 8 under certain conditions—to avoid frame‑spikes. Overcrowded paths allowed multiple guests on the same tile; collision avoidance was omitted entirely, with only happiness calculations affected by proximity. OpenRCT2 reverse‑engineered this original logic and modernized it—standardizing variable sizes for current CPUs and extending pathfinder limits—showing how legacy tricks can be adapted to new hardware. Future updates could relax some of these old constraints (such as collision checks or strict data sizing) without harming performance on today’s machines while still preserving the core experience. These insights underscore that close collaboration between designers and programmers, coupled with deliberate low‑level optimization, enables small teams to build high‑performance games—an approach larger studios might emulate.

2026/03/23 0:16

**バージョン管理の未来** バージョン管理は、従来型のリポジトリやブランチモデルを超えて進化しています。新たに浮上している動向としては、AI 主導の変更分析、分散したチーム間でのリアルタイム協働、および継続的デリバリー・パイプラインとの緊密な統合が挙げられます。コードベースがより大規模かつ複雑化するにつれて、これらの革新はワークフローを合理化し、マージコンフリクトを減少させ、全体的なソフトウェア品質を向上させることを約束しています。

## Japanese Translation: **Manyana** は、Conflict‑Free Replicated Data Types(CRDTs)がバージョン管理にどのように利用できるかを示すデモプロジェクトです。ユーザー体験を向上させます。 ファイルは *weave* として表現されます——1 つのデータ構造が、追加または削除された各行とメタデータを記録し、行順序を永続化し、同時挿入に対してマージ全体で一貫した順序を提供します。 CRDTs は順序非依存ですので、マージが失敗することはありません。衝突はファイルの同じ部分を編集したときだけ発生し、不透明なマージブロブではなく明確な競合マーカーが生成されます。 システムはまた、リベースが履歴を破壊せずに行えることも示しています:コミットは新しいベース上で再実行され、「プライマリー・アニサスター」注釈によって完全な祖先関係が保持されます。 チェリーピッキングとローカル Undo はまだ実装されていませんが、470 行の Python デモ(パブリックドメイン)は、CRDTs がバージョン管理における難しい UX 問題を解決し、現在のツールよりも明確な競合表示を提供できることを示しています。