深度学习入门-常用概率分布

一些简单的概率分布在机器学习中出现的频率非常高。下面是一些代表。

伯努利分布 Bernoulli distribution

伯努利分布就是我们常见的0-1分布，它的随机变量是离散的，而且只能取0和1。假设$\phi$是取到1的概率。那么伯努利分布具备的性质可以描述成以下的等式：

$P(\textrm{x}=1)=\phi$

$P(\textrm{x}=0)=1-\phi$

$P(\textrm{x}=x)=\phi^x(1-\phi)^{1-x}$

$\mathbb{E}_\textrm{x}[\textrm{x}]=\phi$

$Var_\textrm{x}[\textrm{x}]=\phi(1-\phi)$

多项分布 Multinoulli distribution

多项分布也叫范畴分布，他是伯努利分布的一般化推广。如果你在做一个试验，它的结果要么成功要么失败，那么它就是一个伯努利分布。但是考虑这个试验的结果可能取到N个值。那每次试验的结果就可以记为一个N维的向量，只有此次试验的结果对应的维度记为1，其他记为0。这就是多项分布。多项分布的详细特性，可以参考这里。

高斯分布 Gaussian distribution

高斯分布又叫正态分布(Normal distribution)，算是我们最熟悉的一个概率分布了。但高斯分布的概率密度函数还是蛮复杂的，如下：

$\mathcal{N}(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(x-\mu)^2)$

其中：

$\mathcal{N}$是高斯分布的符号。用latex写的话是\mathcal{N}。

$\mu$是高斯分布的均值，也是高斯分布图像峰值处的x坐标。

$\sigma$是高斯分布的标准差，$\sigma^2$是方差。整个高斯分布图像的宽度受$\sigma$控制。

标准正态分布是指$\mu=0,\sigma=1$的正态分布。

采用正态分布在很多应用中都是一个明智的选择。当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时，正态分布是默认的比较好的选择，其中有两个原因：

现实生活中很多事务都近似是高斯分布
高斯分布需要的先验知识最少

指数分布 Exponential distribution

在概率论和统计学中，指数分布（英语：Exponential distribution）是一种连续概率分布。指数分布可以用来表示独立随机事件发生的时间间隔，比如旅客进入机场的时间间隔、打进客服中心电话的时间间隔、中文维基百科新条目出现的时间间隔等等。指数分布的一个特点是取到小于0的值的概率是0。指数分布的概率密度函数如下：

$f(x;\lambda)=\begin{cases}\lambda e^{-\lambda x},& x\ge0\0,&x<0\end{cases}$

其中$\lambda > 0$是分布的一个参数，称为率参数。即每单位时间发生该事件的次数。指数分布的区间是[0,∞)。如果一个随机变量X 呈指数分布，则可以写作：X ~ Exponential（λ）。可参看这里。

拉普拉斯分布 Laplace distribution

拉普拉斯分布可以看作是两个不同位置的指数分布背靠背拼接在一起，所以它也叫作双指数分布。两个相互独立同概率分布指数随机变量之间的差别是按照指数分布的随机时间布朗运动，所以它遵循拉普拉斯分布。它的概率密度函数为： $图片引自维基百科$

可以参看这里。

狄拉克分布 Dirac distrubition

统计学和概率中看到了这个函数，其实它就是信号处理中的单位阶跃函数或者单位冲击函数，经过查阅这个函数在物理、力学等方面有很广泛的应用，并且研究基础和相关理论也很深厚，自己只了解了其中的一小部分。首先概率中它往往作为 p.d.f. 出现，但又不是一个传统数学意义的函数。

它可以描述成一个在原点处无限高，无限窄的曲线，并且它的积分为 1。也就是说只在原点处取 +∞，而在其他各处取 0。

我们通常就将 δ 函数，理解为支集为原点的一个函数；或者 δ 函数定义为一个分布时，它实际就是对应于支撑集{0}的概率测度。可以参看这里。

经验分布 Empirical distribution

经验分布函数（英语：empirical distribution function）是统计学中一个与样本经验测度有关的分布函数。该累积分布函数是在所有n个数据点上都跳跃1/n的阶跃函数。对被测变量的某个值而言，该值的分布函数值表示所有观测样本中小于或等于该值的样本所占的比例。这个分布函数很难懂，可以参看这里。

分布的混合

通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布（mixture distribution）。混合分布由一些组件 (component)分布构成。每次实验，样本是由哪个组件分布产生的取决于从一个 Multinoulli 分布中采样的结果。

高斯混合模型是概率密度的万能近似器（universal approximator），在这种意义下，任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度来逼近。