1.信息论基础概念#
自信息
自信息(Self-Information)可以理解为时间发生之前我们对事件发生的不确定性的度量。对于一个离散随机变量X,其取值xi的自信息I(xi)定义为:I(xi)=−log2P(xi)
其中,P(xi)是随机变量X取值xi的概率。自信息越大,表示事件发生的概率越小,即事件越不确定。
信息熵
信息熵(Entropy)也是用于衡量随机变量的不确定性。对于一个离散随机变量X,其熵H(X)定义为:
H(X)=−∑iP(xi)log2P(xi)
熵越大,表示随机变量的不确定性越高。
最大熵原理
最大熵原理就是指在所有满足已知约束条件的概率分布中,选择熵最大的那个分布。这个原理反映了在缺乏额外信息的情况下,我们应该选择最不确定的分布,最不确定的分布就是均匀分布,均匀分布要比非均匀分布的熵大,概率均匀分布,预测风险最小。
| 约束条件 | 适用变量的类型 | 最大熵分布 |
|---|
| 无约束 | 离散变量 | 均匀分布 |
| 无约束 | 连续变量 | 均匀分布 |
| 已知均值和方差 | 连续变量 | 正态分布 |
| 非负取值,给定均值 | 连续变量 | 指数分布 |
| 非负整数取值,给定均值 | 离散变量 | 泊松分布 |
不要把鸡蛋放在一个笼子里! 感觉高中地理中学的多个原材料厂家就有这个想法,防止某个地方出问题导致原材料断供。好像投资也是这个道理。
KL散度
KL散度(Kullback-Leibler Divergence)用于衡量两个概率分布之间的差异。对于两个离散概率分布P和Q,其KL散度DKL(P∣∣Q)定义为:
DKL(P∣∣Q)=∑iP(xi)log2Q(xi)P(xi)
根据公式可以看出来,DKL(P∣∣Q)=DKL(Q∣∣P)并不一定存在,KL散度不是一个对称的度量。然后,KL散度越大,表示两个分布之间的差异越大,当P=Q时,KL散度为0。而且,KL散度总是非负的,即DKL(P∣∣Q)≥0,数学证明看了但是不写了,哈哈哈。
交叉熵
交叉熵(Cross-Entropy)用于衡量两个概率分布之间的差异。对于两个离散概率分布P和Q,其交叉熵H(P,Q)定义为:
H(P,Q)=−∑iP(xi)log2Q(xi)
当概率分布P(x)确定时,信息熵H(P)也是确定的,因此交叉熵H(P,Q)与KL散度DKL(P∣∣Q)之间存在以下关系:
H(P,Q)=H(P)+DKL(P∣∣Q)
联合熵
联合熵(Joint Entropy)用于衡量多个随机变量的联合不确定性。对于两个离散随机变量X和Y,其联合熵H(X,Y)定义为:
H(X,Y)=−∑i∑jP(xi,yj)log2P(xi,yj)
联合熵表示随机变量X和Y的联合不确定性。联合熵满足以下性质:
- H(X,Y)≤H(X)+H(Y),等号成立当且仅当X和Y独立。
- H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y),其中H(Y∣X)和H(X∣Y)分别是条件熵。
条件熵
条件熵(Conditional Entropy)用于衡量在已知另一个随机变量的情况下,随机变量的不确定性。对于两个离散随机变量X和Y,其条件熵H(X∣Y)定义为:
H(X∣Y)=−∑jP(yj)∑iP(xi∣yj)log2P(xi∣yj)
条件熵表示在已知随机变量Y的情况下,随机变量X的不确定性。条件熵越大,表示在已知Y的情况下,X的不确定性越高。条件熵满足以下性质:
- H(X∣Y)=H(X,Y)−H(Y),此次的H(X,Y)是联合熵。
- H(X∣Y)≤H(X),等号成立当且仅当X和Y独立。
互信息
互信息(Mutual Information)用于衡量两个随机变量之间的依赖关系。对于两个离散随机变量X和Y,其互信息I(X;Y)定义为:
I(X;Y)=∑i∑jP(xi,yj)log2P(xi)P(yj)P(xi,yj)
互信息表示随机变量X和Y之间的依赖关系。互信息越大,表示两个随机变量之间的依赖关系越强。当X和Y独立时,互信息为0。互信息满足以下性质:
- I(X;Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X)。
- I(X;Y)≥0,等号成立当且仅当X和Y独立。