情報理論

情報理論の基本概念まとめ

目次

1. 情報量 (Information Content)

  • ある事象 (x) が起こるときの「驚き」の大きさ。
  • 確率 (p(x)) が小さいほど驚きが大きい。
  • 定義
    $$
    [
    I(x) = -\log p(x)
    ]
    $$

情報量はなぜ I(x) = -log p(x) で定義できるのか?

情報量の直感

情報量 (I(x)) は「ある事象が起きたときの驚きの大きさ」を表します。
この「驚き」には次のような性質が求められます。

  1. 確率が小さいほど驚きは大きい
  • (p(x)) が小さいとき、情報量は大きくなるべき。
  • → 単調減少関数。
  1. 独立な事象が同時に起きたとき、驚きは足し算になる
  • 事象 (x, y) が独立なら
    $$
    [
    I(x,y) = I(x) + I(y)
    ]
    $$
  • 一方、確率は独立性より
    $$
    [
    p(x,y) = p(x) \cdot p(y)
    ]
    $$
  1. 確率 1 の事象には情報量が 0 である
  • 絶対に起きることには驚きがない。
  • したがって
    $$
    (p(x)=1 \implies I(x)=0)
    $$

関数方程式からの導出

性質 2 より、情報量は次を満たす関数である必要があります。

$$
[
I(x,y) = f(p(x,y)) = f(p(x)p(y)) = f(p(x)) + f(p(y))
]
$$

この条件を満たす代表的な関数は 対数関数 です。

$$
[
f(p) = -k \log p \quad (k > 0)
]
$$

ここで (k) は単位を決める定数です。

  • 底が 2 のとき → ビット (bit)
  • 底が (e) のとき → ナット (nat)

結論

したがって、情報量は次のように定義されます。

$$
[
I(x) = -\log p(x)
]
$$


ポイント整理

  • 確率が小さいほど「驚き」が大きい。
  • 独立事象の情報量は加算できる。
  • 確率 1 の事象は情報量ゼロ。

👉 これらの条件を満たす関数は 対数 だけであり、これが情報量を
$$
(-\log p(x))
$$
で定義する理由です。

情報量 I(x) = -log p(x) における「マイナス」の役割

1. なぜマイナスが必要なのか?

情報量は

$$
I(x) = -\log p(x)
$$

で定義されます。この「−」には重要な意味があります。

(1) 確率は 0〜1 の範囲

確率 (p(x)) は常に (0 < p(x) \leq 1) です。
このとき対数をとると、

  • (p(x)=1 \;\Rightarrow\; \log 1 = 0)
  • (p(x)=0.1 \;\Rightarrow\; \log 0.1 \approx -2.3)
  • (p(x)=0.01 \;\Rightarrow\; \log 0.01 \approx -4.6)

のように、常に 0 以下(負の値)になります。

(2) 情報量は「非負」であるべき

情報量は「驚きの大きさ」を表す量なので、負の数では直感に合いません。
確実に起こる事象なら情報量は 0、
稀な事象ほど大きな正の値になるべきです。

そこで符号を反転させるために「−」を付けています。

[
I(x) = -\log p(x) \;\;\geq 0
]


2. 直感との対応

  • 確率が高い(当たり前の出来事) → 情報量は小さい(驚きが少ない)。
  • 確率が低い(珍しい出来事) → 情報量は大きい(驚きが大きい)。

例:

  • (p(x)=1) → (I(x)=0)(確実に起こることは驚きゼロ)
  • (p(x)=0.01) → (I(x) \approx 4.6)(非常に稀なので驚き大)

2. エントロピー (Entropy)

  • 平均的な情報量(= 不確実性の指標)。
  • 確率分布 (P) のもとで事象が起こるときの情報量の期待値。
  • 定義
    $$
    [
    H(P) = – \sum_{x} p(x)\log p(x) = \mathbb{E}_{x\sim P}[-\log p(x)]
    ]
    $$

3. 交差エントロピー (Cross Entropy)

  • 真の分布 (P) に従ってサンプルが出るとき、モデル分布 (Q) に基づく「平均情報量」。
  • 学習においては「どれくらい (Q) が (P) をうまく近似しているか」を測る。
  • 定義
    $$
    [
    H(P,Q) = -\sum_x p(x)\log q(x) = \mathbb{E}_{x\sim P}[-\log q(x)]
    ]
    $$

4. KLダイバージェンス (Kullback–Leibler Divergence)

  • 交差エントロピーとエントロピーの差。
  • 「真の分布 (P) とモデル分布 (Q) の距離」を測る(非対称)。
  • 定義
    $$
    [
    D_{\mathrm{KL}}(P|Q) = H(P,Q) – H(P)
    = \sum_x p(x)\log \frac{p(x)}{q(x)}
    ]
    $$

5. 関係図まとめ

情報量: I(x) = -log p(x)
↓(平均をとる)
エントロピー: H(P) = E_P[I(x)]
↓(Qで評価)
交差エントロピー: H(P,Q) = E_P[-log q(x)]
↓(差をとる)
KLダイバージェンス: D_KL(P||Q) = H(P,Q) – H(P)

yaml
コピーする
編集する


✅ ポイント整理

  • 情報量: 1つの事象の「驚き」。
  • エントロピー: その「驚きの平均」。
  • 交差エントロピー: 「本当はPで起きてるけど、Qで測ったときの驚きの平均」。
  • KLダイバージェンス: 「交差エントロピーとエントロピーの差 = QがPからどれだけズレているか」。

👉 機械学習では「交差エントロピー最小化 ≒ KLダイバージェンス最小化」が基本。
分類問題や株価予測モデルの損失関数として多用されます。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

CAPTCHA


目次