ジェンセン・シャノン発散

2026/05/23 4:27

ジェンセン・シャノン発散

RSS: https://news.ycombinator.com/rss

要約

Japanese Translation:

ジェンセン・シャノン発散(JSD)は、ヨハン・ジェンセンとクレイグ・シャノンの名にちなみ、 Кульバック=ライbler 発散の対称化および滑らか化されたバージョンであり、2 つの確率分布間の類似度を測定します。標準的な KL 発散が互換性のないデータに対して無限大の値を与える可能性がある点と異なり、JSD は有限の結果を保証し、ゼロは同一の分布を示し、より大きな値はより大きな差異を示す対称的な尺度を常に生成します。具体的には、底 2 の対数を使用する場合、JSD は 0 と 1 の間に制限されており、底 e の場合、上界は 2 つの分布に対して約 $2\log(2)$、k つの分布に対して $\frac{1}{2}\log(k)$ です。JSD の平方根はジェンセン・シャノン距離を定義し、これが距離の性質を満たします。対別比較を超えて、一般化された定義は重み付けされた混合分布とシャノンエントロピーを使用して JSD を複数の確率分布に拡張します。特殊なバリエーションには、ガウシアン分布に対して幾何学的平均を用いて閉じた形式の公式を提供する幾何学的ジェンセン・シャノン発散(G-JSD)があり、量子力学における密度行列へ概念を一般化し、ホレーボ情報に関連し、純粋状態と混合状態の間の距離尺度を誘起する量子ジェンセン・シャノン発散(QJSD)があります。応用分野はバイオインフォマティクス(ゲノム比較、タンパク質表面解析)、社会科学、歴史研究、火災実験、機械学習(例:生成敵対ネットワークの安定した訓練目的として)など多岐にわたります。計算サポートには Ruby、SciPy、THOTH、R の

statcomp
などのライブラリに加え、凸関数の差に基づく CCCP などの効率的なアルゴリズムが含まれ、これらはジェンセン・シャノン中心を計算するために使用されます。

本文

ジェンセン・シャノン・ダイバージェンス (JSD)

確率論および統計学において、Jensen–Shannon divergence(ジェンセン・シャノン・ダイバージェンス、略称:JSD)は、2 つの確率分布の類似度を測定するための手法です。この概念は以下の別名でも知られています:

  • 情報半径 (Information Radius, IRad)
  • 平均への総発散 (total divergence to the average)

クラプトク・ライブラダイバージェンスに基づいていますが、以下のような有用な違いを有しています:

  • 対称性を備えている
  • 常に有限の値を持つ

基本定義と性質

JSD は、クラプトク・ライブラダイバージェンス $D_{\text{KL}}$ の対称化かつ滑らかなバージョンです。

数学的定義

2 つの分布 $P$ と $Q$ の場合、以下の式で定義されます。$M$ は $P$ と $Q$ の混合分布(mixture distribution)です。

$$ JSD(P||Q) = \frac{1}{2}D_{\text{KL}}(P||M) + \frac{1}{2}D_{\text{KL}}(Q||M) $$

一般的定義 ($N$ 個の分布の場合)

2 つ以上の確率分布 $P_1, \dots, P_N$ を比較する一般的な定義は以下の通りです。$w_i$ は各分布への重み、$H$ はシャノン・エントロピーです。

$$ JSD(P_1, \dots, P_N) = H\left(\sum_{i=1}^N w_i M_i\right) - \sum_{i=1}^N w_i H(M_i) $$

値の範囲と特性

  • 平方根: JSD の平方根は、よくJensen–Shannon 距離と呼ばれる尺度です。これが0 に近いほど、各分布間の類似度は高まります。
  • 上限: 底を 2 の対数を用いることにより、離散的確率分布間での JSD は上限 1 に有界となります。

$$ 0 \le JSD(P,Q) \le 1 \quad (\text{底を 2 とする時}) $$

  • 統計熱力学: 底を自然対数 ($e$) とすれば、上限は $e$ となります。
  • 一般的な境界: 底 $b$ を用いたときの境界は以下の通りです。

$$ \frac{\log_b 2}{1} \le JSD(P||Q) \le \frac{\log_b e}{1} $$

より一般的に、2 つ以上の分布 ($N$ 個) に対しては $\log_2 N$ に有界です。

$$ JSD(P_1, \dots, P_N) \le \log_2 N $$

全変動距離との関係

規格化された JSD は、$P$ と $Q$ の全変動距離(total variation distance)に対する下界を与えます。

$$ TV(P,Q) = \sup_A |P(A) - Q(A)| \le \sqrt{JSD(P,Q)} $$


相互情報量との関係

JSD は、混合分布 $M$ と確率変数 $X, Y$ の間の相互情報量 $I(X; Y)$ と等しくなります。

  • 定義: $Y$ は二値指標変数(0 または 1)で、$P$ または $Q$ を切り替える役割を果たします。$Y=0$ なら $p(x)$、$Y=1$ なら $q(x)$ に従います。
  • 関係式:

$$ JSD(P||Q) = I(X; Y) $$

この原理から、相互情報量が常に非負かつ $\log_2$ に有界であることは自明であり、JSD が $[0, 1]$ の間に有界であることが導かれます。

応用例:

  • 同時分布と周辺分布の積の比較: この原理は、joint distribution(同時分布)と、その周辺分布の積との関係にも適用できます。
  • 信頼度の測定: 与えられたデータが「真正な同時分布」から生じたものか、「周辺分布の積(独立性を仮定した分布)」から生じたかを、どれだけ信頼して判断できるかを測定可能です。

量子 Jensen–Shannon divergence (QJSD)

密度行列上の確率分布の一般化により定義される量子 Jensen–Shannon divergence

  • 定義: 密度行列 $\rho_1, \dots, \rho_N$ と事前分布 $p = {p_i}$ に対して以下の式で定義されます。 ($S(\rho)$ はフォン・ノイマンエントロピー)

$$ S(\rho) = S\left(\sum_{i=1}^N p_i \rho_i\right) - \sum_{i=1}^N p_i S(\rho_i) $$

  • 性質:

    • 量子情報理論で最初に導入され、Holevo 情報と呼ばれています。
    • Holevo の定理により、事前分布 $p$ を持つ量子状態 $\rho_i$ で符号化できる古典情報の量の上限を与えます。
    • 2 つの密度行列に対する QJSD は、対称関数であり、両者が同じ場合にのみゼロとなります(尺度として振る舞います)。
  • 関連:

    • Bures 距離と密接に関連しています。
    • Fisher 情報量の量子版に対応します。

Jensen–Shannon 重心

有限個の確率分布の集合における**重心 $C^*$**は、全分布との JSD の平均和を最小にする点として定義されます。

$$ C^* = \arg\min_C \sum_{i=1}^N p_i JSD(P||C_i) $$

  • 計算: 凸関数の差に基づく効率的なアルゴリズム(CCCP)を用いて、離散的分布(ヒストグラム)の集合に対する重心を計算することが可能です。

応用分野

JSD は多岐にわたる分野で利用されています:

  • バイオインフォマティクス: ゲノム比較
  • タンパク質研究: タンパク質表面の比較
  • 社会科学および歴史学: 量的研究におけるデータ分析
  • 工学: 火災実験のデータ解析
  • 機械学習: GAN (Generative Adversarial Networks) など

利用可能なツール

以下のような計算ツールが利用可能です:

ツール名言語/環境特徴
JS divergence gemRubyJSD の計算用
SciPyPython
scipy.stats.jitcd
関数による JS distance 計算
THOTHPython経験データから情報理論的量を効率的に推定
statcompR複雑性測定(JSD を含む)の計算用ライブラリ

参考文献

  1. Nielsen, Frank (2021). "On a variational definition for the Jensen-Shannon symmetrization of distances based on the information radius". Entropy.
  2. Schütze & Manning (1999). Foundations of Statistical Natural Language Processing. MIT Press.
  3. Dagan et al. (1997). "Similarity-based methods for word sense disambiguation". ACL.
  4. Endres & Schindelin (2003). "A new metric for probability distributions". IEEE Trans. Inf. Theory.
  5. Virosztek & Vajda (2003). "A new class of metric divergences on probability spaces and its statistical applications".
  6. Fuglede & Topsoe (2004). "Jensen-Shannon divergence and Hilbert space embedding". IEEE ISIT.
  7. Nielsen (2019). "On the Jensen-Shannon symmetrization of distances relying on abstract means". Entropy.
  8. Lin, J. (1991). "Divergence measures based on the shannon entropy". IEEE Transactions on Information Theory.
  9. Schneidman et al. (2003). "Synergy, Redundancy, and Independence in Population Codes". Journal of Neuroscience.
  10. Majtey et al. (2005). "Jensen-Shannon divergence as a measure of distinguishability between mixed quantum states". Physical Review A.
  11. Briët & Harremoës (2009). "Properties of classical and quantum Jensen-Shannon divergence". Physical Review A.
  12. Holevo (1973/1975). "Bounds for the quantity of information transmitted by a quantum communication channel".
  13. Braunstein & Caves (1994). "Statistical distance and the geometry of quantum states". Physical Review Letters.
  14. Virosztek (2021). "The metric property of the quantum Jensen-Shannon divergence". Advances in Mathematics.
  15. Sra (2019). "Metrics Induced by Quantum Jensen-Shannon-Renyí and Related Divergences".
  16. Nielsen (2021). "On a generalization of the Jensen-Shannon divergence and the Jensen--Shannon centroid". Entropy.
  17. Sims et al. (2009). "Alignment-free genome comparison with feature frequency profiles". PNAS.
  18. Itzkovitz et al. (2010). "Overlapping codes within protein-coding sequences". Genome Research.
  19. Ofran & Rost (2003). "Analysing six types of protein-protein interfaces". Journal of Molecular Biology.
  20. DeDeo et al. (2013). "Bootstrap Methods for the Empirical Study of Decision-Making and Information Flows in Social Systems". Entropy.
  21. Klingenstein et al. (2014). "The civilizing process in London's Old Bailey". PNAS.
  22. Mitroi-Symeonidis et al. (2020). "Parametric Jensen-Shannon statistical complexity and its applications on full-scale compartment fire data". Symmetry.
  23. Goodfellow et al. (2014). Generative Adversarial Networks. NIPS.

同じ日のほかのニュース

一覧に戻る →

2026/05/26 2:45

Exit IP VPN サーバー対策の展開

## 日本語訳: 2026 年 5 月 25 日付で、12 つの特定サーバー識別子への新しい緩和措置の適用を含む重要な運用上のアップデートが確認されました。この措置は、北米、ヨーロッパ、オセアニアを含む主要なグローバル地域にわたるインフラに影響します。影響を受けたサーバーは、以下の通り明示的にリストされています:au-mel-wg-402, au-syd-wg-001, ca-mtr-wg-302, de-fra-wg-103, fi-hel-wg-201, fr-par-wg-101, ie-dub-wg-101, no-osl-wg-101, se-sto-wg-208, us-dal-wg-701, us-lax-wg-002, us-nyc-wg-601, us-slc-wg-303。この実装は、内部での判断を踏まえたこれらのエンドポイントの状態における決定的な変化を表します。このアナウンスメントでは、識別子のリストとアップデートの日付のみが提供されており、脅威の具体的な性質、先行文脈、またはエンドユーザーおよび産業エンティティに対する直接的な影響について言及していません。したがって、この変更の原因や以降のタイムラインに関するさらなる説明はまだ発表されていません。 ## 原文: **Improved Summary:** Effective May 25, 2026, a significant operational update has been confirmed involving the application of a new mitigation to twelve specific server identifiers. This action impacts infrastructure across major global regions, including North America, Europe, and Oceania. The affected servers are explicitly listed as: au-mel-wg-402, au-syd-wg-001, ca-mtr-wg-302, de-fra-wg-103, fi-hel-wg-201, fr-par-wg-101, ie-dub-wg-101, no-osl-wg-101, se-sto-wg-208, us-dal-wg-701, us-lax-wg-002, us-nyc-wg-601, and us-slc-wg-303. This implementation marks a definitive shift in the status of these endpoints following an internal decision. The announcement provides only the list of identifiers and the update date; it does not elaborate on the specific nature of the threat, prior context, or direct impacts on end-users and industry entities. Consequently, further clarification regarding the reasons for this change or subsequent timelines has not yet been released.

2026/05/26 4:37

ノルウェーのHuaweiフラッシュストレージによる2ペタバイトとLLMトレーニング

## 日本語訳: ノルウェー国立図書館は、地元のノルウェー語に対する商用ソリューションの深刻な不足に対応するため、自らのデジタルアーカイブにのみ基づいて訓練された主権性の高い大規模言語モデルを起動する予定である。このプロジェクトは文化省によって推進され、IT 責任者マリウス・フスネス氏の率いるものであり、私企業の手に負えない著作権保護付き新聞への図書館特有の法的アクセスを活用して、約 60 ピタバイトのデジタル化された遺産(現在は 3-2-1 保存形式で保管されている)をこの AI に訓練している。 技術的なアーキテクチャでは、3 つの異なるシステムをオーケストレーションするものであり、初期処理段階には Nvidia DGX H200 クラスターと华为(Huawei)OceanStor Dorado フルフラッシュアレイ(高速フラッシュ容量 2 PB を提供)を用い、その後、最終的な訓練は国立スーパーコンピューター Sigma2 Olivia で行われる。主要なボトルネックは計算能力ではなく、データの品質、クリーニング、パイプラインのスループットであり、これは AI パイプラインの低遅延要求と大規模かつ高遅延の保存アーカイブとの間の遅延不一致によって複雑化している。さらに、使用制御のためのガバナンス枠組みの確立や標準的な評価ツールの利用という課題にも直面している。このイニシアチブにより、ノルウェーは外国のテクノロジー大手に依存せずに技術的未来を確保することができ、他の英語圏外における国々が主権性の高い AI 基盤を求めるためのモデルとして挙げられている戦略となっている。

2026/05/26 3:19

カリフォルニア州、Linuxの年齢認証免除を法改正で検討へ:抗議運動を受け

## Japanese Translation: カリフォルニア州の法律家は、2026年2月11日にデジタル年代保証法(Digital Age Assurance Act)からほとんどのオープンソースオペレーティングシステムを除外することを目的としたアセンブリビル1856号(AB 1856)を導入した後、厳格な年齢検証要件から撤退する方針を検討しています。AB 1856は、同州の以前のパックであるアセンブリビル1043号(2025年後期に可決)を改正し、2027年1月1日までに年齢検証の手続を個々のウェブサイトやアプリからオペレーティングシステムレベルへ移行することを求めていました。AB 1043の下では、オペレーティングシステムはセットアップ時にユーザーの生年月日を収集し、アプリおよびストアに対して「年齢層」(例:「13歳未満」、「18歳以上」)をシグナル送信することが義務付けられていました。提案されている改正案では、「オペレーティングシステム提供者」は、ソフトウェアのコピー、再配布、修改を可能にするライセンスの下でソフトウェアを配布する者を含まないと定義しています。この定義により、Debian、Fedora、Ubuntu、Arch Linux、Mintなど主流のLinuxディストリビューションが遵守要件から除外され、Electronic Frontier Foundationなどのプライバシー擁護者や、無限にフォーク可能なプロジェクトに対しては元の規則が侵襲的かつ実行不可能であるという懸念に対処しました。同法案は元の法的措置を廃止するものではありません。商用プラットフォームでプロプライエタリなアプリエコシステムを持つもの(ValveのSteamストアに紐づく特定のSteamOSバージョンなど)も引き続き審査の対象となる可能性があります。アセンブリメンバーBuffy Wicksによって提出された最新版は2026年5月18日付けのものであり、2026年5月19日に2回目に朗読され、3回目の朗読に付議されるよう命じられ、現在、委員会での審査が予定されている6月の間に立法機構を通過中としています。