
2026/05/23 4:27
ジェンセン・シャノン発散
RSS: https://news.ycombinator.com/rss
要約▶
Japanese Translation:
ジェンセン・シャノン発散(JSD)は、ヨハン・ジェンセンとクレイグ・シャノンの名にちなみ、 Кульバック=ライbler 発散の対称化および滑らか化されたバージョンであり、2 つの確率分布間の類似度を測定します。標準的な KL 発散が互換性のないデータに対して無限大の値を与える可能性がある点と異なり、JSD は有限の結果を保証し、ゼロは同一の分布を示し、より大きな値はより大きな差異を示す対称的な尺度を常に生成します。具体的には、底 2 の対数を使用する場合、JSD は 0 と 1 の間に制限されており、底 e の場合、上界は 2 つの分布に対して約 $2\log(2)$、k つの分布に対して $\frac{1}{2}\log(k)$ です。JSD の平方根はジェンセン・シャノン距離を定義し、これが距離の性質を満たします。対別比較を超えて、一般化された定義は重み付けされた混合分布とシャノンエントロピーを使用して JSD を複数の確率分布に拡張します。特殊なバリエーションには、ガウシアン分布に対して幾何学的平均を用いて閉じた形式の公式を提供する幾何学的ジェンセン・シャノン発散(G-JSD)があり、量子力学における密度行列へ概念を一般化し、ホレーボ情報に関連し、純粋状態と混合状態の間の距離尺度を誘起する量子ジェンセン・シャノン発散(QJSD)があります。応用分野はバイオインフォマティクス(ゲノム比較、タンパク質表面解析)、社会科学、歴史研究、火災実験、機械学習(例:生成敵対ネットワークの安定した訓練目的として)など多岐にわたります。計算サポートには Ruby、SciPy、THOTH、R の
statcompなどのライブラリに加え、凸関数の差に基づく CCCP などの効率的なアルゴリズムが含まれ、これらはジェンセン・シャノン中心を計算するために使用されます。本文
ジェンセン・シャノン・ダイバージェンス (JSD)
確率論および統計学において、Jensen–Shannon divergence(ジェンセン・シャノン・ダイバージェンス、略称:JSD)は、2 つの確率分布の類似度を測定するための手法です。この概念は以下の別名でも知られています:
- 情報半径 (Information Radius, IRad)
- 平均への総発散 (total divergence to the average)
クラプトク・ライブラダイバージェンスに基づいていますが、以下のような有用な違いを有しています:
- 対称性を備えている
- 常に有限の値を持つ
基本定義と性質
JSD は、クラプトク・ライブラダイバージェンス $D_{\text{KL}}$ の対称化かつ滑らかなバージョンです。
数学的定義
2 つの分布 $P$ と $Q$ の場合、以下の式で定義されます。$M$ は $P$ と $Q$ の混合分布(mixture distribution)です。
$$ JSD(P||Q) = \frac{1}{2}D_{\text{KL}}(P||M) + \frac{1}{2}D_{\text{KL}}(Q||M) $$
一般的定義 ($N$ 個の分布の場合)
2 つ以上の確率分布 $P_1, \dots, P_N$ を比較する一般的な定義は以下の通りです。$w_i$ は各分布への重み、$H$ はシャノン・エントロピーです。
$$ JSD(P_1, \dots, P_N) = H\left(\sum_{i=1}^N w_i M_i\right) - \sum_{i=1}^N w_i H(M_i) $$
値の範囲と特性
- 平方根: JSD の平方根は、よくJensen–Shannon 距離と呼ばれる尺度です。これが0 に近いほど、各分布間の類似度は高まります。
- 上限: 底を 2 の対数を用いることにより、離散的確率分布間での JSD は上限 1 に有界となります。
$$ 0 \le JSD(P,Q) \le 1 \quad (\text{底を 2 とする時}) $$
- 統計熱力学: 底を自然対数 ($e$) とすれば、上限は $e$ となります。
- 一般的な境界: 底 $b$ を用いたときの境界は以下の通りです。
$$ \frac{\log_b 2}{1} \le JSD(P||Q) \le \frac{\log_b e}{1} $$
より一般的に、2 つ以上の分布 ($N$ 個) に対しては $\log_2 N$ に有界です。
$$ JSD(P_1, \dots, P_N) \le \log_2 N $$
全変動距離との関係
規格化された JSD は、$P$ と $Q$ の全変動距離(total variation distance)に対する下界を与えます。
$$ TV(P,Q) = \sup_A |P(A) - Q(A)| \le \sqrt{JSD(P,Q)} $$
相互情報量との関係
JSD は、混合分布 $M$ と確率変数 $X, Y$ の間の相互情報量 $I(X; Y)$ と等しくなります。
- 定義: $Y$ は二値指標変数(0 または 1)で、$P$ または $Q$ を切り替える役割を果たします。$Y=0$ なら $p(x)$、$Y=1$ なら $q(x)$ に従います。
- 関係式:
$$ JSD(P||Q) = I(X; Y) $$
この原理から、相互情報量が常に非負かつ $\log_2$ に有界であることは自明であり、JSD が $[0, 1]$ の間に有界であることが導かれます。
応用例:
- 同時分布と周辺分布の積の比較: この原理は、joint distribution(同時分布)と、その周辺分布の積との関係にも適用できます。
- 信頼度の測定: 与えられたデータが「真正な同時分布」から生じたものか、「周辺分布の積(独立性を仮定した分布)」から生じたかを、どれだけ信頼して判断できるかを測定可能です。
量子 Jensen–Shannon divergence (QJSD)
密度行列上の確率分布の一般化により定義される量子 Jensen–Shannon divergence。
- 定義: 密度行列 $\rho_1, \dots, \rho_N$ と事前分布 $p = {p_i}$ に対して以下の式で定義されます。 ($S(\rho)$ はフォン・ノイマンエントロピー)
$$ S(\rho) = S\left(\sum_{i=1}^N p_i \rho_i\right) - \sum_{i=1}^N p_i S(\rho_i) $$
-
性質:
- 量子情報理論で最初に導入され、Holevo 情報と呼ばれています。
- Holevo の定理により、事前分布 $p$ を持つ量子状態 $\rho_i$ で符号化できる古典情報の量の上限を与えます。
- 2 つの密度行列に対する QJSD は、対称関数であり、両者が同じ場合にのみゼロとなります(尺度として振る舞います)。
-
関連:
- Bures 距離と密接に関連しています。
- Fisher 情報量の量子版に対応します。
Jensen–Shannon 重心
有限個の確率分布の集合における**重心 $C^*$**は、全分布との JSD の平均和を最小にする点として定義されます。
$$ C^* = \arg\min_C \sum_{i=1}^N p_i JSD(P||C_i) $$
- 計算: 凸関数の差に基づく効率的なアルゴリズム(CCCP)を用いて、離散的分布(ヒストグラム)の集合に対する重心を計算することが可能です。
応用分野
JSD は多岐にわたる分野で利用されています:
- バイオインフォマティクス: ゲノム比較
- タンパク質研究: タンパク質表面の比較
- 社会科学および歴史学: 量的研究におけるデータ分析
- 工学: 火災実験のデータ解析
- 機械学習: GAN (Generative Adversarial Networks) など
利用可能なツール
以下のような計算ツールが利用可能です:
| ツール名 | 言語/環境 | 特徴 |
|---|---|---|
| JS divergence gem | Ruby | JSD の計算用 |
| SciPy | Python | 関数による JS distance 計算 |
| THOTH | Python | 経験データから情報理論的量を効率的に推定 |
| statcomp | R | 複雑性測定(JSD を含む)の計算用ライブラリ |
参考文献
- Nielsen, Frank (2021). "On a variational definition for the Jensen-Shannon symmetrization of distances based on the information radius". Entropy.
- Schütze & Manning (1999). Foundations of Statistical Natural Language Processing. MIT Press.
- Dagan et al. (1997). "Similarity-based methods for word sense disambiguation". ACL.
- Endres & Schindelin (2003). "A new metric for probability distributions". IEEE Trans. Inf. Theory.
- Virosztek & Vajda (2003). "A new class of metric divergences on probability spaces and its statistical applications".
- Fuglede & Topsoe (2004). "Jensen-Shannon divergence and Hilbert space embedding". IEEE ISIT.
- Nielsen (2019). "On the Jensen-Shannon symmetrization of distances relying on abstract means". Entropy.
- Lin, J. (1991). "Divergence measures based on the shannon entropy". IEEE Transactions on Information Theory.
- Schneidman et al. (2003). "Synergy, Redundancy, and Independence in Population Codes". Journal of Neuroscience.
- Majtey et al. (2005). "Jensen-Shannon divergence as a measure of distinguishability between mixed quantum states". Physical Review A.
- Briët & Harremoës (2009). "Properties of classical and quantum Jensen-Shannon divergence". Physical Review A.
- Holevo (1973/1975). "Bounds for the quantity of information transmitted by a quantum communication channel".
- Braunstein & Caves (1994). "Statistical distance and the geometry of quantum states". Physical Review Letters.
- Virosztek (2021). "The metric property of the quantum Jensen-Shannon divergence". Advances in Mathematics.
- Sra (2019). "Metrics Induced by Quantum Jensen-Shannon-Renyí and Related Divergences".
- Nielsen (2021). "On a generalization of the Jensen-Shannon divergence and the Jensen--Shannon centroid". Entropy.
- Sims et al. (2009). "Alignment-free genome comparison with feature frequency profiles". PNAS.
- Itzkovitz et al. (2010). "Overlapping codes within protein-coding sequences". Genome Research.
- Ofran & Rost (2003). "Analysing six types of protein-protein interfaces". Journal of Molecular Biology.
- DeDeo et al. (2013). "Bootstrap Methods for the Empirical Study of Decision-Making and Information Flows in Social Systems". Entropy.
- Klingenstein et al. (2014). "The civilizing process in London's Old Bailey". PNAS.
- Mitroi-Symeonidis et al. (2020). "Parametric Jensen-Shannon statistical complexity and its applications on full-scale compartment fire data". Symmetry.
- Goodfellow et al. (2014). Generative Adversarial Networks. NIPS.