情報理論

2025年8月22日

情報理論の基本概念まとめ

1. 情報量 (Information Content)

ある事象 (x) が起こるときの「驚き」の大きさ。
確率 (p(x)) が小さいほど驚きが大きい。
定義：
$$
[
I(x) = -\log p(x)
]
$$

情報量はなぜ I(x) = -log p(x) で定義できるのか？

情報量の直感

情報量 (I(x)) は「ある事象が起きたときの驚きの大きさ」を表します。
この「驚き」には次のような性質が求められます。

確率が小さいほど驚きは大きい

(p(x)) が小さいとき、情報量は大きくなるべき。
→ 単調減少関数。

独立な事象が同時に起きたとき、驚きは足し算になる

事象 (x, y) が独立なら
$$
[
I(x,y) = I(x) + I(y)
]
$$
一方、確率は独立性より
$$
[
p(x,y) = p(x) \cdot p(y)
]
$$

確率 1 の事象には情報量が 0 である

絶対に起きることには驚きがない。
したがって
$$
(p(x)=1 \implies I(x)=0)
$$

関数方程式からの導出

性質 2 より、情報量は次を満たす関数である必要があります。

$$
[
I(x,y) = f(p(x,y)) = f(p(x)p(y)) = f(p(x)) + f(p(y))
]
$$

この条件を満たす代表的な関数は 対数関数 です。

$$
[
f(p) = -k \log p \quad (k > 0)
]
$$

ここで (k) は単位を決める定数です。

底が 2 のとき → ビット (bit)
底が (e) のとき → ナット (nat)

結論

したがって、情報量は次のように定義されます。

$$
[
I(x) = -\log p(x)
]
$$

ポイント整理

確率が小さいほど「驚き」が大きい。
独立事象の情報量は加算できる。
確率 1 の事象は情報量ゼロ。

👉 これらの条件を満たす関数は対数だけであり、これが情報量を
$$
(-\log p(x))
$$
で定義する理由です。

情報量 I(x) = -log p(x) における「マイナス」の役割

1. なぜマイナスが必要なのか？

情報量は

$$
I(x) = -\log p(x)
$$

で定義されます。この「−」には重要な意味があります。

(1) 確率は 0〜1 の範囲

確率 (p(x)) は常に (0 < p(x) \leq 1) です。
このとき対数をとると、

(p(x)=1 \;\Rightarrow\; \log 1 = 0)
(p(x)=0.1 \;\Rightarrow\; \log 0.1 \approx -2.3)
(p(x)=0.01 \;\Rightarrow\; \log 0.01 \approx -4.6)

のように、常に 0 以下（負の値）になります。

(2) 情報量は「非負」であるべき

情報量は「驚きの大きさ」を表す量なので、負の数では直感に合いません。
確実に起こる事象なら情報量は 0、
稀な事象ほど大きな正の値になるべきです。

そこで符号を反転させるために「−」を付けています。

[
I(x) = -\log p(x) \;\;\geq 0
]

2. 直感との対応

確率が高い（当たり前の出来事） → 情報量は小さい（驚きが少ない）。
確率が低い（珍しい出来事） → 情報量は大きい（驚きが大きい）。

例：

(p(x)=1) → (I(x)=0)（確実に起こることは驚きゼロ）
(p(x)=0.01) → (I(x) \approx 4.6)（非常に稀なので驚き大）

2. エントロピー (Entropy)

平均的な情報量（= 不確実性の指標）。
確率分布 (P) のもとで事象が起こるときの情報量の期待値。
定義：
$$
[
H(P) = – \sum_{x} p(x)\log p(x) = \mathbb{E}_{x\sim P}[-\log p(x)]
]
$$

3. 交差エントロピー (Cross Entropy)

真の分布 (P) に従ってサンプルが出るとき、モデル分布 (Q) に基づく「平均情報量」。
学習においては「どれくらい (Q) が (P) をうまく近似しているか」を測る。
定義：
$$
[
H(P,Q) = -\sum_x p(x)\log q(x) = \mathbb{E}_{x\sim P}[-\log q(x)]
]
$$

4. KLダイバージェンス (Kullback–Leibler Divergence)

交差エントロピーとエントロピーの差。
「真の分布 (P) とモデル分布 (Q) の距離」を測る（非対称）。
定義：
$$
[
D_{\mathrm{KL}}(P|Q) = H(P,Q) – H(P)
= \sum_x p(x)\log \frac{p(x)}{q(x)}
]
$$

5. 関係図まとめ

情報量: I(x) = -log p(x)
↓（平均をとる）
エントロピー: H(P) = E_P[I(x)]
↓（Qで評価）
交差エントロピー: H(P,Q) = E_P[-log q(x)]
↓（差をとる）
KLダイバージェンス: D_KL(P||Q) = H(P,Q) – H(P)

yaml
コピーする
編集する

✅ ポイント整理

情報量: 1つの事象の「驚き」。
エントロピー: その「驚きの平均」。
交差エントロピー: 「本当はPで起きてるけど、Qで測ったときの驚きの平均」。
KLダイバージェンス: 「交差エントロピーとエントロピーの差 = QがPからどれだけズレているか」。

👉 機械学習では「交差エントロピー最小化 ≒ KLダイバージェンス最小化」が基本。
分類問題や株価予測モデルの損失関数として多用されます。

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

chelsea

情報理論

情報理論の基本概念まとめ

1. 情報量 (Information Content)

情報量はなぜ I(x) = -log p(x) で定義できるのか？

情報量の直感

関数方程式からの導出

結論

ポイント整理

情報量 I(x) = -log p(x) における「マイナス」の役割

1. なぜマイナスが必要なのか？

(1) 確率は 0〜1 の範囲

(2) 情報量は「非負」であるべき

2. 直感との対応

2. エントロピー (Entropy)

3. 交差エントロピー (Cross Entropy)

4. KLダイバージェンス (Kullback–Leibler Divergence)

5. 関係図まとめ

✅ ポイント整理

この記事を書いた人

コメント

コメントするコメントをキャンセル

情報理論

情報理論の基本概念まとめ

1. 情報量 (Information Content)

情報量はなぜ I(x) = -log p(x) で定義できるのか？

情報量の直感

関数方程式からの導出

結論

ポイント整理

情報量 I(x) = -log p(x) における「マイナス」の役割

1. なぜマイナスが必要なのか？

(1) 確率は 0〜1 の範囲

(2) 情報量は「非負」であるべき

2. 直感との対応

2. エントロピー (Entropy)

3. 交差エントロピー (Cross Entropy)

4. KLダイバージェンス (Kullback–Leibler Divergence)

5. 関係図まとめ

✅ ポイント整理

この記事を書いた人

関連記事

コメント

コメントする コメントをキャンセル

コメントするコメントをキャンセル