ML-DL-RL的概率论基础 • Linxii's Blog

1.基础概念#

概率：描述事件发生的不确定性，取值范围为0到1。

随机变量：表示随机现象结果的变量，可以是离散或连续的。例如：掷骰子的结果是一个离散随机变量，而测量温度则是一个连续随机变量。

2.概率分布#

概率分布描述随机变量可能取值的范围及其对应的概率。

2.1.离散概率分布#

离散概率分布适用于离散随机变量，如掷骰子。

需满足的条件包括：

A.P的定义域为随机变量的所有可能取值；
B.每个取值的概率有 $0\le P(x) \le 1$ ；
C.所有取值的概率和为1,即 $P(X=x_{1})+...+P(X=x_{n})=1$ 。

常见的离散概率分布包括：

伯努利分布(Bernoulli Distribution)：描述只有两种结果（成功或失败）的实验。
二项分布(Binomial Distribution)：描述在n次独立的伯努利试验中成功的次数。
泊松分布(Poisson Distribution)：描述在固定时间或空间内事件发生的次数。

2.2.连续概率分布#

连续概率分布适用于连续随机变量，如测量温度。

需满足的条件包括：

A.概率密度函数(PDF)的定义域为随机变量的所有可能取值范围；
B.概率密度函数的值有 $f(x) \ge 0$ ；
C.概率密度函数在整个定义域上的积分为1,即 $\int_{-\infty}^{+\infty} f(x) dx = 1$ 。

常见的连续概率分布包括：

正态分布(Normal Distribution)：也称为高斯分布，描述数据围绕均值对称分布的情况。
指数分布(Exponential Distribution)：描述事件发生的时间间隔。
均匀分布(Uniform Distribution)：描述在某个区间内所有值出现的概率相等。

2.3联合概率分布#

联合概率分布描述多个随机变量同时发生的概率。例如，对于两个随机变量X和Y的联合概率分布 $P(X=x,Y=y)$ ，表示X和Y同时取某个值的概率。

3.边缘概率#

边缘概率是指在联合概率分布中，通过对其他变量进行求和或积分，得到某个变量的概率分布。例如，对于两个随机变量X和Y的联合概率分布P(X,Y)，X的边缘概率P(X)可以通过对Y进行求和或积分得到：

$P(X=x) = \sum_{y} P(X=x,Y=y) \quad \text{(离散情况)}$

$P(X=x) = \int P(X=x,Y=y) dy \quad \text{(连续情况)}$

4.条件概率与独立性#

4.1条件概率#

条件概率描述在已知某个事件发生的情况下，另一个事件发生的概率。条件概率的定义如下：

$P(A|B) = \frac{P(A \cap B)}{P(B)}$

其中， $P(A|B)$ 表示在事件B发生的条件下事件A发生的概率， $P(A \cap B)$ 表示事件A和事件B同时发生的概率， $P(B)$ 表示事件B发生的概率。

在ML中表示为 $P(Y=y|X=x) = \frac{P(X=x,Y=y)}{P(X=x)}$

4.2独立性#

独立性：如果两个事件A和B独立，则有 $P(A|B)=P(A)$ ，即事件B的发生不影响事件A的概率。若果 $P(A \cap B)=P(A)P(B)$ ，则A和B独立，反之也是成立的，这是充要条件。

条件独立性：如果在给定第三个事件C的条件下，事件A和B独立，则称A和B在条件C下条件独立。即 $P(A|B,C)=P(A|C)$ 。

5.贝叶斯定理#

贝叶斯定理是根据已知的条件概率来计算另一个条件概率。贝叶斯定理的公式如下：

$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

在机器学习中，贝叶斯定理常用于分类任务，如朴素贝叶斯分类器。通过计算后验概率 $P(Y|X)$ ，可以根据输入特征X预测类别Y。

6.期望、方差和协方差#

6.1期望#

期望（数学期望）是随机变量取值的加权平均值。对于离散随机变量X，其期望定义为：

$E[X] = \sum_{x} x P(X=x)$

对于连续随机变量X，其期望定义为：

$E[X] = \int_{-\infty}^{+\infty} x p(x) dx$

6.2方差#

方差衡量随机变量取值的离散程度。对于离散随机变量X，其方差定义为： $Var(X) = E[(X - E[X])^2] = \sum_{x} (x - E[X])^2 P(X=x)$

对于连续随机变量X，其方差定义为： $Var(X) = E[(X - E[X])^2] = \int_{-\infty}^{+\infty} (x - E[X])^2 p(x) dx$

标准差即为方差的平方根，表示随机变量取值的平均偏离程度。

6.3协方差#

协方差衡量两个随机变量之间的线性关系。对于随机变量X和Y，其协方差定义为：

$Cov(X,Y)$

$=E[(X - E[X])(Y - E[Y])]$

$= \sum_{x}\sum_{y} (x - E[X])(y - E[Y]) P(X=x,Y=y)$ $= E[XY]-E[x]E[y]$

协方差的值可以是正数、负数或零，分别表示正相关、负相关和无相关关系。

7.ML、RL中常见概率分布的期望和方差#

分布类型	期望 (E[X])	方差(Var(X))
伯努利分布	p	p(1 - p)
二项分布	np	np(1 - p)
泊松分布	λ	λ
正态分布	μ	σ²
指数分布	1/λ	1/λ²
均匀分布	(a + b) / 2	(b - a)² / 12

其中的正态分布又称为高斯分布，概率密度函数为: $f(x; \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)$

标准正态分布的期望为0，方差为1，

在coding时，许多数据都比较接近正态分布；而且相同方差的所有可能分布中，正态分布有最大的不确定性，所以正太分布是先验知识最少的分布。如果模型表现较好，那么说明模型的鲁棒性是较高的。

当把正太分布推广到多维空间的时候，就有多维正态分布