
2026/05/27 22:29
t 分布の 90 パーセント範囲
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
元の要約は構成が良く明確ですが、より「主要ポイントリスト」と調和したわずかに洗練されたバージョンを作成できます。それは、彼が筆名「Student」で出版物を発行したことを明示し、補正係数が標準偏差に対する乗法的な調整であることを簡潔に述べる点にあります。以下の改良版を示します:
改良版の要約:
ギネス醸造所で働いていた間に統計分析を革命化したウィリアム・セイズ・ゴセットは、小サンプル推定における重要な欠陥に対処しました。それは、サンプル標準偏差に確信を仮定する標準的な手法が、(\hat{\sigma}) が限られたデータから推定される際に存在する本質的な不確実性を無視するため、過剰に狭い信頼区間(例えば 90% の区間 (\hat{\mu} \pm 1.645 \hat{\sigma}))を生み出すことです。ゴセットは、20未満のサンプルサイズに対する具体的な乗法的補正係数を導き出しました。これは n=2 では 4×、n が 9 と 20 の間では 1.1×にわたる範囲であり、これらは Student の t 分布への包括的な発展に基づいており、適当な即席的な修正ではありませんでした。例えば、2つの測定値しかない場合(例えばビール量 43 リットルと 47 リットル)、その範囲を 1.3 倍して標準偏差の推定値 5 リットルを得るというアプローチは、大規模データセットが必要にならないようにしつつ信頼できる区間推定を保証します。サンプルサイズが 20 を超えると、単純な正規分布の手法が十分に正確になり、醸造所は測定値が偶然ではなく真のプロセス変動を反映しているという確信を持って品質管理の意思決定を行うことができます。
本文
ウィリアム・シーリー・ゴセット:秘匿された統計学の天才と「学生」の t 補正
ウィリアム・シーリー・ゴセットは、当時の統計手法を改善するだけでなく、新たな統計法を自ら発見した素晴らしい人物です。彼が開発した方法は現在も幅広く利用されていますが、ギネスビール社はその成果を秘匿し、「学生(Student)」というペンネームを使用させることで、彼の才能を「秘密の武器」として守りました。
従来の信頼区間の問題点
ゴセットは、標本標準偏差を用いて正規分布を仮定した従来の平均値の信頼区間計算式には誤りがあることを指摘しました。
[ \hat{\mu} \pm 1.645 \hat{\sigma} ]
この方法の問題点は以下の通りです:
- 範囲が狭くなりすぎる
- 不確実性を無視している: $\hat{\mu}$ が推定量であることを理解しつつも、$\sigma$(真の標準偏差)を $\hat{\sigma}$(標本標準偏差)と同定(等しいものとして扱う)という確定した認識になっているためです。
Student の t 補正と補正係数表
ゴセットは、信頼区間の推定に使われた標本の数を踏まえ、$\hat{\sigma}$ の推定に伴う不確実性を補正するための表を考案しました(Student の t 分布)。以下はその覚えやすさのため丸めた代表的な値です。
| 標本数 | 90% 区間への補正係数 |
|---|---|
| 2 | 4 倍 |
| 3 | 2 倍 |
| 4 | 1.5 倍 |
| 5 | 1.3 倍 |
| 6〜8 | 1.2 倍 |
| 9〜20 | 1.1 倍 |
計算方法
この表を用いる手順は以下の通りです:
- 標準偏差の推定に使われた標本の数を数える。
- 標本標準偏差 $\hat{\sigma}$ に補正係数を掛ける。
- さらに 1.645 を掛けた後、90% の信頼区間を得ます。
注意点: 標本数が 20 を超える場合、naïve な(直感的な)標準偏差の推定量は既に十分良好であり、補正は不要です。
実例:標本数 7 の場合
7 つの標本から得られた平均値を 32 分、標準偏差を 8 分 と見積もった際の計算には注意が必要です。
-
誤った考え方: [ 32 \pm 8 \times 1.645 ]
-
正しい考え方(t 補正あり): [ 32 \pm 8 \times 1.2 \times 1.645 ]
標本数がわずか 7 でも、実際の 90% 信頼区間は naïve なものの実に近い値となり、単に 1.2 倍だけ狭すぎているという程度です。
- 標本数が少ないほど、標準偏差の不確実性は大きくなるため、それに応じてより広めの信頼区間を推定する必要があります。
- さらに高い信頼度を持つ 95% や 99% の信頼区間でも、Student の t 補正により同様に著しく幅が広がります。
💡 本質: この表はゴセットが作成したものではありません。ゴセットは特定の近似表を作成したわけではなく、あらゆる補正係数をカバーする Student の t 分布そのものを確立したのです。
「二つの値」からのばらつき評価法
上記の表が 90% の信頼区間に必要なものである一方で、同様の手法(t スコア適用)を用いて、わずか二つの標本から標準偏差の不正確な推定を行うことも可能です。
計算式
二つの値における標本の標準偏差は以下の式で与えられます: [ \frac{(\text{高値} - \text{低値})}{\sqrt{2}} ]
この計算だけでは実在する標準偏差を大幅に過小評価します。これを補正するには、t スコア 1.846 を適用します。定数を便宜上丸めると、適切に t 分布で補正された標準偏差の推定値は、一対の数字間の距離の約 1.3 倍 となります。
[ \text{推定標準偏差} \approx (\text{高値} - \text{低値}) \times 1.3 ]
これは実用上非常に有用な近似的アプローチです。
利用法に関する実践例
統計的な文脈でよくある誤解とその解決策を以下に示します。
シナリオ
「**49 リットルという結果が良いか?**と聞かれた経験はありませんか?」
- 聞き手: 「それともとの何と比較しているのですか?」
- 回答者 A: 「43 リットルよ!」(感心したように聞こえるが、実は情報不足)
- 質問者: 「それでも何も教えてくれません。プロセスの固有の変動性を知りたいためです。他に典型値を示してください!」
- 回答者 A: 「うーん、47 リットル。」
これで警戒心が解け、「ああ、49 は両方の典型値より高い。とても良い結果だ!」と安堵するかもしれません。しかし、この判断は誤りです!
正解の導き方
ここで脳を活性化させ、以下の手順で再評価します。
- 情報を統合: 受け取った二つの典型的な数字は 43 リットル と 47 リットル です。
- 固有の変動性の推定: これらは変動性を直接教えてくれませんが、距離(差)から推測できます。
- 両者の距離: $47 - 43 = \mathbf{4}$
- 補正係数を適用 ($\times 1.3$): $4 \times 1.3 = \mathbf{5.2} \approx \mathbf{5}$ リットル(推定標準偏差)
- 評価:
- 中央値(平均的な典型値)はおよそ 45 リットル と見なせます。
- 結果「49 リットル」は、中央値から +4 リットル です。
- これは推定標準偏差(約 5 リットル)の範囲内に入ります。
結論
「49 リットル」という結果は、統計的に見た際の特段良いものでも悪いものでもありません。単に固有の変動性の範囲内にある通常の値です。