ML-DL-RL的信息论基础 • Linxii's Blog

1.信息论基础概念#

自信息

自信息（Self-Information）可以理解为时间发生之前我们对事件发生的不确定性的度量。对于一个离散随机变量 $X$ ，其取值 $x_i$ 的自信息 $I(x_i)$ 定义为： $I(x_i) = -\log_2 P(x_i)$
其中， $P(x_i)$ 是随机变量 $X$ 取值 $x_i$ 的概率。自信息越大，表示事件发生的概率越小，即事件越不确定。

信息熵

信息熵（Entropy）也是用于衡量随机变量的不确定性。对于一个离散随机变量 $X$ ，其熵 $H(X)$ 定义为： $H(X) = -\sum_{i} P(x_i) \log_2 P(x_i)$
熵越大，表示随机变量的不确定性越高。

最大熵原理

最大熵原理就是指在所有满足已知约束条件的概率分布中，选择熵最大的那个分布。这个原理反映了在缺乏额外信息的情况下，我们应该选择最不确定的分布，最不确定的分布就是均匀分布，均匀分布要比非均匀分布的熵大，概率均匀分布，预测风险最小。

约束条件	适用变量的类型	最大熵分布
无约束	离散变量	均匀分布
无约束	连续变量	均匀分布
已知均值和方差	连续变量	正态分布
非负取值，给定均值	连续变量	指数分布
非负整数取值，给定均值	离散变量	泊松分布

不要把鸡蛋放在一个笼子里！ 感觉高中地理中学的多个原材料厂家就有这个想法，防止某个地方出问题导致原材料断供。好像投资也是这个道理。

KL散度

KL散度（Kullback-Leibler Divergence）用于衡量两个概率分布之间的差异。对于两个离散概率分布 $P$ 和 $Q$ ，其KL散度 $D_{KL}(P||Q)$ 定义为： $D_{KL}(P||Q) = \sum_{i} P(x_i) \log_2 \frac{P(x_i)}{Q(x_i)}$

根据公式可以看出来， $D_{KL}(P||Q) =D_{KL}(Q||P)$ 并不一定存在，KL散度不是一个对称的度量。然后，KL散度越大，表示两个分布之间的差异越大，当 $P=Q$ 时，KL散度为0。而且，KL散度总是非负的，即 $D_{KL}(P||Q) \geq 0$ ，数学证明看了但是不写了，哈哈哈。

交叉熵

交叉熵（Cross-Entropy）用于衡量两个概率分布之间的差异。对于两个离散概率分布 $P$ 和 $Q$ ，其交叉熵 $H(P, Q)$ 定义为： $H(P, Q) = -\sum_{i} P(x_i) \log_2 Q(x_i)$

当概率分布 $P(x)$ 确定时，信息熵 $H(P)$ 也是确定的，因此交叉熵 $H(P, Q)$ 与KL散度 $D_{KL}(P||Q)$ 之间存在以下关系： $H(P, Q) = H(P) + D_{KL}(P||Q)$

联合熵

联合熵（Joint Entropy）用于衡量多个随机变量的联合不确定性。对于两个离散随机变量 $X$ 和 $Y$ ，其联合熵 $H(X, Y)$ 定义为： $H(X, Y) = -\sum_{i} \sum_{j} P(x_i, y_j) \log_2 P(x_i, y_j)$ 联合熵表示随机变量 $X$ 和 $Y$ 的联合不确定性。联合熵满足以下性质：

$H(X, Y) \leq H(X) + H(Y)$ ，等号成立当且仅当 $X$ 和 $Y$ 独立。
$H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)$ ，其中 $H(Y|X)$ 和 $H(X|Y)$ 分别是条件熵。

条件熵

条件熵（Conditional Entropy）用于衡量在已知另一个随机变量的情况下，随机变量的不确定性。对于两个离散随机变量 $X$ 和 $Y$ ，其条件熵 $H(X|Y)$ 定义为：
$H(X|Y) = -\sum_{j} P(y_j) \sum_{i} P(x_i|y_j) \log_2 P(x_i|y_j)$

条件熵表示在已知随机变量 $Y$ 的情况下，随机变量 $X$ 的不确定性。条件熵越大，表示在已知 $Y$ 的情况下， $X$ 的不确定性越高。条件熵满足以下性质：

$H(X|Y)=H(X,Y)-H(Y)$ ,此次的 $H(X,Y)$ 是联合熵。
$H(X|Y) \leq H(X)$ ，等号成立当且仅当 $X$ 和 $Y$ 独立。

互信息

互信息（Mutual Information）用于衡量两个随机变量之间的依赖关系。对于两个离散随机变量 $X$ 和 $Y$ ，其互信息 $I(X; Y)$ 定义为： $I(X; Y) = \sum_{i} \sum_{j} P(x_i, y_j) \log_2 \frac{P(x_i, y_j)}{P(x_i) P(y_j)}$

互信息表示随机变量 $X$ 和 $Y$ 之间的依赖关系。互信息越大，表示两个随机变量之间的依赖关系越强。当 $X$ 和 $Y$ 独立时，互信息为0。互信息满足以下性质：

$I(X; Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)$ 。
$I(X; Y) \geq 0$ ，等号成立当且仅当 $X$ 和 $Y$ 独立。