Linxii's Blog
ML-DL-RL的概率论基础Blur image

1.基础概念#

  概率:描述事件发生的不确定性,取值范围为0到1。

  随机变量:表示随机现象结果的变量,可以是离散或连续的。例如:掷骰子的结果是一个离散随机变量,而测量温度则是一个连续随机变量。

2.概率分布#

  概率分布描述随机变量可能取值的范围及其对应的概率。

2.1.离散概率分布#

  离散概率分布适用于离散随机变量,如掷骰子。

  需满足的条件包括:

  • A.P的定义域为随机变量的所有可能取值;

  • B.每个取值的概率有0P(x)1 0\le P(x) \le 1

  • C.所有取值的概率和为1,即P(X=x1)+...+P(X=xn)=1 P(X=x_{1})+...+P(X=x_{n})=1

  常见的离散概率分布包括:

  • 伯努利分布(Bernoulli Distribution):描述只有两种结果(成功或失败)的实验。
  • 二项分布(Binomial Distribution):描述在n次独立的伯努利试验中成功的次数。
  • 泊松分布(Poisson Distribution):描述在固定时间或空间内事件发生的次数。

2.2.连续概率分布#

  连续概率分布适用于连续随机变量,如测量温度。

  需满足的条件包括:

  • A.概率密度函数(PDF)的定义域为随机变量的所有可能取值范围;
  • B.概率密度函数的值有f(x)0 f(x) \ge 0
  • C.概率密度函数在整个定义域上的积分为1,即+f(x)dx=1 \int_{-\infty}^{+\infty} f(x) dx = 1

  常见的连续概率分布包括:

  • 正态分布(Normal Distribution):也称为高斯分布,描述数据围绕均值对称分布的情况。
  • 指数分布(Exponential Distribution):描述事件发生的时间间隔。
  • 均匀分布(Uniform Distribution):描述在某个区间内所有值出现的概率相等。

2.3联合概率分布#

  联合概率分布描述多个随机变量同时发生的概率。例如,对于两个随机变量X和Y的联合概率分布P(X=x,Y=y)P(X=x,Y=y),表示X和Y同时取某个值的概率。

3.边缘概率#

  边缘概率是指在联合概率分布中,通过对其他变量进行求和或积分,得到某个变量的概率分布。例如,对于两个随机变量X和Y的联合概率分布P(X,Y),X的边缘概率P(X)可以通过对Y进行求和或积分得到:

P(X=x)=yP(X=x,Y=y)(离散情况)P(X=x) = \sum_{y} P(X=x,Y=y) \quad \text{(离散情况)}

P(X=x)=P(X=x,Y=y)dy(连续情况)P(X=x) = \int P(X=x,Y=y) dy \quad \text{(连续情况)}

4.条件概率与独立性#

4.1条件概率#

  条件概率描述在已知某个事件发生的情况下,另一个事件发生的概率。条件概率的定义如下:

P(AB)=P(AB)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)}

  其中,P(AB)P(A|B)表示在事件B发生的条件下事件A发生的概率,P(AB)P(A \cap B)表示事件A和事件B同时发生的概率,P(B)P(B)表示事件B发生的概率。

  在ML中表示为 P(Y=yX=x)=P(X=x,Y=y)P(X=x)P(Y=y|X=x) = \frac{P(X=x,Y=y)}{P(X=x)}

4.2独立性#

  独立性:如果两个事件A和B独立,则有P(AB)=P(A)P(A|B)=P(A),即事件B的发生不影响事件A的概率。若果P(AB)=P(A)P(B)P(A \cap B)=P(A)P(B),则A和B独立,反之也是成立的,这是充要条件。

  条件独立性:如果在给定第三个事件C的条件下,事件A和B独立,则称A和B在条件C下条件独立。即P(AB,C)=P(AC)P(A|B,C)=P(A|C)

5.贝叶斯定理#

  贝叶斯定理是根据已知的条件概率来计算另一个条件概率。贝叶斯定理的公式如下:

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}

  在机器学习中,贝叶斯定理常用于分类任务,如朴素贝叶斯分类器。通过计算后验概率P(YX)P(Y|X),可以根据输入特征X预测类别Y。

6.期望、方差和协方差#

6.1期望#

  期望(数学期望)是随机变量取值的加权平均值。对于离散随机变量X,其期望定义为:

E[X]=xxP(X=x)E[X] = \sum_{x} x P(X=x)

  对于连续随机变量X,其期望定义为:

E[X]=+xp(x)dxE[X] = \int_{-\infty}^{+\infty} x p(x) dx

6.2方差#

  方差衡量随机变量取值的离散程度。对于离散随机变量X,其方差定义为: Var(X)=E[(XE[X])2]=x(xE[X])2P(X=x)Var(X) = E[(X - E[X])^2] = \sum_{x} (x - E[X])^2 P(X=x)

  对于连续随机变量X,其方差定义为: Var(X)=E[(XE[X])2]=+(xE[X])2p(x)dxVar(X) = E[(X - E[X])^2] = \int_{-\infty}^{+\infty} (x - E[X])^2 p(x) dx

  标准差即为方差的平方根,表示随机变量取值的平均偏离程度。

6.3协方差#

  协方差衡量两个随机变量之间的线性关系。对于随机变量X和Y,其协方差定义为:

Cov(X,Y) Cov(X,Y)

=E[(XE[X])(YE[Y])]=E[(X - E[X])(Y - E[Y])]

=xy(xE[X])(yE[Y])P(X=x,Y=y)= \sum_{x}\sum_{y} (x - E[X])(y - E[Y]) P(X=x,Y=y) =E[XY]E[x]E[y]= E[XY]-E[x]E[y]

  协方差的值可以是正数、负数或零,分别表示正相关、负相关和无相关关系。

7.ML、RL中常见概率分布的期望和方差#

分布类型期望 (E[X])方差(Var(X))
伯努利分布pp(1 - p)
二项分布npnp(1 - p)
泊松分布λλ
正态分布μσ²
指数分布1/λ1/λ²
均匀分布(a + b) / 2(b - a)² / 12

  其中的正态分布又称为高斯分布,概率密度函数为:   f(x;μ,σ)=1σ2πexp((xμ)22σ2)f(x; \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} \exp \left( -\frac{(x - \mu)^2}{2\sigma^2} \right)

  标准正态分布的期望为0,方差为1,

  在coding时,许多数据都比较接近正态分布;而且相同方差的所有可能分布中,正态分布有最大的不确定性,所以正太分布是先验知识最少的分布。如果模型表现较好,那么说明模型的鲁棒性是较高的。

  当把正太分布推广到多维空间的时候,就有多维正态分布

ML-DL-RL的概率论基础
https://linxii.top/blog/base-learning-1-math-pt
Author 林夕夕
Published at January 14, 2026
Comment seems to stuck. Try to refresh?✨