
2026/03/18 22:56
「大規模言語モデルが私のコーヒーを予測する」
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
要約
本研究は、陶器製マグに注がれた沸騰水の冷却過程を予測するために、さまざまな大規模言語モデル(LLM)が生成した方程式を比較した。226.8 g(8 oz)の沸騰水を20 °Cの室温で1.25 lb(0.57 kg)マグに注ぎ、内部水温を数秒ごとに5分間記録した。目的は、注入後からの時間 (t) に対する摂氏温度 (T(t)) を表す関数を得ることである。
LLMにはこのような方程式を作成させた結果、以下のようになった:
- Kimi K2.5:(20 + 52.9,e^{-t/3600} + 27.1,e^{-t/80})
- Gemini 3.1 Pro:(20 + 53,e^{-t/2500} + 27,e^{-t/149.25})
- GPT 5.4:(20 + 54.6,e^{-t/2920} + 25.4,e^{-t/68.1})
- Claude 4.6 Opus:(20 + 55,e^{-t/1700} + 25,e^{-t/43}) (最良適合、トークンコスト $0.61)
- Qwen3‑235B:(20 + 53.17,e^{-t/1414.43})
- GLM‑4.7:(20 + 53.2,e^{-t/2500})
すべての方程式には常数項 20 °C(室温)が含まれる。二項モデルは、水からマグへの高速熱移動と、合成系統から空気への遅い熱放散を表し、単一項モデルは支配的な減衰のみを捉えている。
実験プロトコルでは、沸騰まで水を電子レンジで2回加熱し、デジタル温度計付きマグに注ぎ、初めは5 秒ごと、その後は長い間隔で温度を記録した。観測された冷却曲線は最初の数分で実際よりも速く減少し、以降はゆっくりと減衰する傾向が見られた。すべてのモデルは早期冷却を過大評価し、後期冷却を過小評価した。
本研究は、LLM が物理的に妥当な方程式を生成できる一方で、経験的校正なしには動力学を誤算する可能性があることを示しており、AI 由来の公式を実測データで検証または調整する必要性を強調している。
本文
DYNOMIGHT
- best
- topics
- follow
- about
コーディング、数学、その他何でも。LLM(大規模言語モデル)は物理実験の結果を予測できるのでしょうか?
仮に 8 oz(226.8 g)の沸騰水を、重さ 1.25 lb(0.57 kg)の陶器製コーヒーマグに注ぐとします。周囲は静止しており温度は20 °Cです。マグは室温から始まります。この時点で「t」を水を注いだ瞬間からの経過秒数として、摂氏温度を時間関数 (T(t)) として表す方程式を教えてください。方程式に含める自由変数は t のみとし、最初の5分間での正確さに焦点を当ててください。
これは難しいように思えますか?私自身もそう感じています。関連する物理現象には以下が少なくとも含まれます:
- 水・マグ・空気・テーブル間の熱伝導
- それぞれの内部での熱伝導
- 水と空気内の対流(液体・気体の移動)
- 蒸発冷却(水分子が蒸気になる際の冷却)
- 空気中における水蒸気の拡散
- 放射(すべての物質は温度依存性の赤外線を放出する)
- 表面張力、熱膨張/収縮、水が冷えるにつれて空気が再吸収される現象など、多くの詳細が未定です。
マグは磁器か石焼か?形状はどうか?テーブルは何でできているか?湿度はどれくらいか?水温を単一値にまとめるにはどうするか?
つまり「正解」がある問題ではありません。現実はあまりにも複雑です。回答には「味覚」―重要だと思われる要因の推測、欠けている情報への仮定などが必要になります。
そこで私はこの質問をいくつかのLLMに投げました。以下が彼らから得た答えです(実際はテキストとして方程式を返しており、私はそれらをプロットしています)。
予想される温度低下の速度について曲線に驚きました。最初の数分でどれだけ冷えるか、そして1時間後までの減少速度が同程度だと考えているのです。それは本当に正しいのでしょう?
そこで実験を行いました。まず周囲温度が20 °Cになるまで待ち、次に8 ozの水を計量カップで測り、電子レンジで沸騰させ、少し温度を均一化した後、再び沸騰させました。その後、その水を1.25‑lbのコーヒーマグへ注ぎ込み、デジタルサーモメーターを入れて5秒ごとに測定値を叫びながら記録しました(Dynomight生物学者がフラストレーションを抱えて)。後で測定間隔を15 秒、30 秒、1分、そして5分へと徐々に減らしました。
以下はその結果です:
[グラフ省略]
または最初の5分間を拡大した図:
[ズームイン図省略]
予測値はすべて「OK」でしたが、どれも完璧ではありませんでした。Claude 4.6 Opus(推論付き)が最も良い結果を出し、トークン代として$0.61を消費しました。(物理実験/防衛省/金銭/コーヒーに関するジョークを挿入してください)
それでも予測が驚くほど早い初期冷却と遅い後半冷却を示す点は、私の直感とは逆でした。実際には最初の方がさらに速く、終わりに近づくにつれてさらに遅くなるという結果でした。したがって、LLMと自分の直感を組み合わせるならば、私の直感は重みゼロになるだろうと思います。
結論として、彼らは私たちの数学的思考を取り入れるかもしれませんが、微細な運動制御はまだ少し遅れているようです。中学生レベルの科学プロジェクトを読んでいただきありがとうございます。
Appendix: 方程式
以下はすべてのモデルが T(t)(t 秒後に予測される温度)として提供した方程式です。
| LLM | T(t) | コスト |
|---|---|---|
| Kimi K2.5 (推論) | 20 + 52.9 exp(–t/3600)+ 27.1 exp(–t/80) | $0.01 |
| Gemini 3.1 Pro | 20 + 53 exp(–t/2500)+ 27 exp(–t/149.25) | $0.09 |
| GPT 5.4 | 20 + 54.6 exp(–t/2920)+ 25.4 exp(–t/68.1) | $0.11 |
| Claude 4.6 Opus (推論) | 20 + 55 exp(–t/1700)+ 25 exp(–t/43) | $0.61 |
| Qwen3‑235B | 20 + 53.17 exp(–t/1414.43) | $0.009 |
| GLM‑4.7 (推論) | 20 + 53.2 exp(–t/2500) | $0.03 |
興味深いことに、すべてが一つまたは二つの指数関数的減衰項で構成されていました。解釈としては、exp(–t/b) は t が 0 のとき 1 から始まり、b 秒後には 1/e ≈ 0.368 に落ち込み、その後も毎 b 秒ごとに約 0.368 倍ずつ減少していく関数です。
したがって多くのモデルは「高速率」(水からマグへの熱流)と「低速率」(水/マグから空気への熱流)の両方を示しています。数モデルは高速率を省略しています。DeepSeek と Grok も試しましたが、答えを返さずに終わってしまい、そのサービス料金を請求されました。
コメント
- lemmy / substack
- ここにパターンがあるのか? – 科学, AI
- 実データは何十億年もの進化 – AI, 科学
- なぜ2005年に GPT‑2 が登場しなかったのか? – 科学, 経済, AI
- 書くことにおけるモダンフォーマット依存症 – ライティング, AI