情報理論の基本概念まとめ
1. 情報量 (Information Content)
- ある事象 (x) が起こるときの「驚き」の大きさ。
- 確率 (p(x)) が小さいほど驚きが大きい。
- 定義:
$$
[
I(x) = -\log p(x)
]
$$
情報量はなぜ I(x) = -log p(x) で定義できるのか?
情報量の直感
情報量 (I(x)) は「ある事象が起きたときの驚きの大きさ」を表します。
この「驚き」には次のような性質が求められます。
- 確率が小さいほど驚きは大きい
- (p(x)) が小さいとき、情報量は大きくなるべき。
- → 単調減少関数。
- 独立な事象が同時に起きたとき、驚きは足し算になる
- 事象 (x, y) が独立なら
$$
[
I(x,y) = I(x) + I(y)
]
$$ - 一方、確率は独立性より
$$
[
p(x,y) = p(x) \cdot p(y)
]
$$
- 確率 1 の事象には情報量が 0 である
- 絶対に起きることには驚きがない。
- したがって
$$
(p(x)=1 \implies I(x)=0)
$$
関数方程式からの導出
性質 2 より、情報量は次を満たす関数である必要があります。
$$
[
I(x,y) = f(p(x,y)) = f(p(x)p(y)) = f(p(x)) + f(p(y))
]
$$
この条件を満たす代表的な関数は 対数関数 です。
$$
[
f(p) = -k \log p \quad (k > 0)
]
$$
ここで (k) は単位を決める定数です。
- 底が 2 のとき → ビット (bit)
- 底が (e) のとき → ナット (nat)
結論
したがって、情報量は次のように定義されます。
$$
[
I(x) = -\log p(x)
]
$$
ポイント整理
- 確率が小さいほど「驚き」が大きい。
- 独立事象の情報量は加算できる。
- 確率 1 の事象は情報量ゼロ。
👉 これらの条件を満たす関数は 対数 だけであり、これが情報量を
$$
(-\log p(x))
$$
で定義する理由です。
情報量 I(x) = -log p(x) における「マイナス」の役割
1. なぜマイナスが必要なのか?
情報量は
$$
I(x) = -\log p(x)
$$
で定義されます。この「−」には重要な意味があります。
(1) 確率は 0〜1 の範囲
確率 (p(x)) は常に (0 < p(x) \leq 1) です。
このとき対数をとると、
- (p(x)=1 \;\Rightarrow\; \log 1 = 0)
- (p(x)=0.1 \;\Rightarrow\; \log 0.1 \approx -2.3)
- (p(x)=0.01 \;\Rightarrow\; \log 0.01 \approx -4.6)
のように、常に 0 以下(負の値)になります。
(2) 情報量は「非負」であるべき
情報量は「驚きの大きさ」を表す量なので、負の数では直感に合いません。
確実に起こる事象なら情報量は 0、
稀な事象ほど大きな正の値になるべきです。
そこで符号を反転させるために「−」を付けています。
[
I(x) = -\log p(x) \;\;\geq 0
]
2. 直感との対応
- 確率が高い(当たり前の出来事) → 情報量は小さい(驚きが少ない)。
- 確率が低い(珍しい出来事) → 情報量は大きい(驚きが大きい)。
例:
- (p(x)=1) → (I(x)=0)(確実に起こることは驚きゼロ)
- (p(x)=0.01) → (I(x) \approx 4.6)(非常に稀なので驚き大)
2. エントロピー (Entropy)
- 平均的な情報量(= 不確実性の指標)。
- 確率分布 (P) のもとで事象が起こるときの情報量の期待値。
- 定義:
$$
[
H(P) = – \sum_{x} p(x)\log p(x) = \mathbb{E}_{x\sim P}[-\log p(x)]
]
$$
3. 交差エントロピー (Cross Entropy)
- 真の分布 (P) に従ってサンプルが出るとき、モデル分布 (Q) に基づく「平均情報量」。
- 学習においては「どれくらい (Q) が (P) をうまく近似しているか」を測る。
- 定義:
$$
[
H(P,Q) = -\sum_x p(x)\log q(x) = \mathbb{E}_{x\sim P}[-\log q(x)]
]
$$
4. KLダイバージェンス (Kullback–Leibler Divergence)
- 交差エントロピーとエントロピーの差。
- 「真の分布 (P) とモデル分布 (Q) の距離」を測る(非対称)。
- 定義:
$$
[
D_{\mathrm{KL}}(P|Q) = H(P,Q) – H(P)
= \sum_x p(x)\log \frac{p(x)}{q(x)}
]
$$
5. 関係図まとめ
情報量: I(x) = -log p(x)
↓(平均をとる)
エントロピー: H(P) = E_P[I(x)]
↓(Qで評価)
交差エントロピー: H(P,Q) = E_P[-log q(x)]
↓(差をとる)
KLダイバージェンス: D_KL(P||Q) = H(P,Q) – H(P)
yaml
コピーする
編集する
✅ ポイント整理
- 情報量: 1つの事象の「驚き」。
- エントロピー: その「驚きの平均」。
- 交差エントロピー: 「本当はPで起きてるけど、Qで測ったときの驚きの平均」。
- KLダイバージェンス: 「交差エントロピーとエントロピーの差 = QがPからどれだけズレているか」。
👉 機械学習では「交差エントロピー最小化 ≒ KLダイバージェンス最小化」が基本。
分類問題や株価予測モデルの損失関数として多用されます。
コメント