深度学习入门-概率论基础

概率论是深度学习最核心的数学工具之一。本文是涉深度学习的概率论方面知识的回顾。

为什么要使用概率

深度学习有别于传统的计算机场景，是在未能完全观测或不具备全部信息的前提下去猜测答案。当精确会带来复杂的时候，简单但是可能不确定有时候更有用。

但事实上机器学习领域的概率有别于我们在大学里学到的数学概率。之前我们理解的概率是事件重复发生足够多次的时候，某个结果出现的比例。但在机器学习领域，比如说去预测一个患者罹患肺炎的概率，这个时候你无法让同一个患者重复足够多次得到最终确诊为肺炎的比例。这个时候所说的概率应该称之为信任度。1那么肯定是肺炎，0肯定不是肺炎。所以之前的概率可称为频率派概率，后者称为贝叶斯概率。

所以对机器学习来说，概率论是一套工具：可以在给定一套命题的似然后，计算其他命题为真的似然。

随机变量

随机变量$\textrm{x}$是可以随机取不同值的变量。$x_1$,$x_2$就是他可能取到的值。如果随机变量是向量，那么可以记为$\bf x$。

概率分布

概率分布是指随机变量$x$取到某个状态值$x_1$的可能性大小。对于离散随机变量和连续随机变量有不同的描述方式。

离散型随机变量和概率质量函数

离散性随机变量的概率分布可以使用概率质量函数(PMF)来描述。

$\textrm{x} $=$x$的概率可以用$P(x)$来表示，也可以记为$P(\textrm{x}=x)$，或者 $\textrm{x} ~ $~$P(x)$

$P(\textrm{x}=x,\textrm{y}=y)$，是指联合概率分布。

一个随机变量所有状态发生的概率的总和应该等于1，这条性质称为归一化。

连续型随机变量和概率密度函数

连续型随机变量的概率分布可以使用概率密度函数(PDF)来描述。

$\textrm{x}$的概率密度函数记为$p(x)$。概率密度函数并没有针对特定状态给出概率，而是给出了状态落在面积为$\delta_x$的无限小的区域的概率为$p(x)\delta_x$。我们可以通过求积分来获得点集的真实质量概率。

边缘概率

当我们知道了联合概率分布，想要知道其中一个子集的概率分布。这个时候定义在子集上的概率分布，称为边缘概率分布。

对于离散型随机变量来说它是一个求和的过程：

$\forall x \in \textrm{x},P(\textrm{x}=x)=\sum\limits_{y}P(\textrm{x}=x,\textrm{y}=y)$

对于连续型随机变量来说他是一个求积分的过程：

$p(x)=\int p(x,y)d_y$

##条件概率

条件概率是指某特定事件在给定其他事件发生时出现的概率。在$y$条件下的$x$的概率记为$P(\textrm{x}=x|\textrm{y}=y)$。这个概率可以如下计算：

$P(\textrm{x}=x|\textrm{y}=y) = \frac{P(\textrm{x}=x,\textrm{y}=y)}{P(\textrm{y}=y)}$ ，分子为联合概率

##条件概率的链式法则

从上面的条件概率的计算公式，就可以得出联合概率可以分解为条件概率相乘。

$P(\textrm{x}=x,\textrm{y}=y)= P(\textrm{x}=x|\textrm{y}=y) * P(\textrm{y}=y)$

##独立性和条件独立性

所谓独立是指两个事件的联合概率等于两个事件的概率的乘积，即：

$\forall x\in\textrm{x},y\in\textrm{y}, P(\textrm{x}=x,\textrm{y}=y)= P(\textrm{x}=x) P(\textrm{y}=y)$

可以简单的记为 $x\perp y$。

条件独立是指在发生某个事件的前提下，两者独立，即：

$\forall x\in\textrm{x},y\in\textrm{y},z\in\textrm{z}, P(\textrm{x}=x,\textrm{y}=y|z=\textrm{z})= P(\textrm{x}=x|\textrm{z}=z) P(\textrm{y}=y|\textrm{z}=z)$

可以简单的记为$x \perp y|z$

##期望

期望是所有可能性的平均值，对于离散随机变量的期望计算如下：
$\mathbb{E}{x\sim P[f(x)]}=\sum\limits{x}P(x)f(x)$

对于连续随机变量，这个计算过程就是积分的过程：

$\mathbb{E}_{x\sim P[f(x)]}=\int P(x)f(x)dx$

期望可以简写为$\mathbb{E}_x[f(x)]$或进一步简写为$\mathbb{E}[f(x)]$。

##方差

方差体现的是离散程度，是每个变量值与期望值的之差的平方再求平均。

$Var(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$

方差的平方根称为标准差$\sigma$。

##协方差

协方差体现的是两组随机变量之间的相关性。

$Cov(f(x),g(y))=\mathbb{E}[(x-\mathbb{E}[f(x)])(y-\mathbb{E}[f(y)])]$

衡量两个变量X和Y有没有（线性）相关关系就是看它们的数值会不会同向变化。显然当同向变化时，协方差一定时正数，当协方差为0时，代表两组变量之间完全不相关。

为了摒除每个变量尺度不同带来的影响，那么对上式做一定的修正：

$\rho=\frac{Cov(f(x),g(y))}{\sigma_X\sigma_Y}$

这就是相关系数。

信息论

信息论的基本想法是一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。消息说： ‘‘今天早上太阳升起’’ 信息量是如此之少以至于没有必要发送，但一条消息说： ‘‘今天早上有日食’’ 信息量就很丰富。我们想要通过这种基本想法来量化信息。特别地，

非常可能发生的事件信息量要比较少，并且极端情况下，确保能够发生的事件应该没有信息量。
较不可能发生的事件具有更高的信息量。
独立事件应具有增量的信息。例如，投掷的硬币两次正面朝上传递的信息量，应该是投掷一次硬币正面朝上的信息量的两倍。