文章目录
  1. 1. 线性代数
    1. 1.1. Scalar, Vectors, Matrices, Tensors的概念
    2. 1.2. 矩阵的基本操作
    3. 1.3. 奇异(Singular)矩阵和非奇异矩阵
    4. 1.4. 范数(Norm)
    5. 1.5. 特殊矩阵
    6. 1.6. 特征值分解
    7. 1.7. 奇异值分解(Singular Value Decomposition)
    8. 1.8. Moore-Penrose Pseudoinverse
    9. 1.9. 迹运算符(Trace)
    10. 1.10. 行列式
  2. 2. 概率论
    1. 2.1. 随机变量
    2. 2.2. 概率分布
    3. 2.3. 边缘概率
    4. 2.4. 条件概率及其链式法则
    5. 2.5. 独立和条件独立
    6. 2.6. 期望,方差与协方差
    7. 2.7. 常用概率分布
    8. 2.8. 一些有用的性质和通用函数
    9. 2.9. 贝叶斯规则
    10. 2.10. 连续变量的一些技术细节
  3. 3. 信息论
  4. 4. 结构化概率模型
  5. 5. References

深度学习需要的数学基础同机器学习所需的数学基础类似,包括三大块:

  • 线性代数
  • 概率论与数理统计
  • 信息论基础

分三部分摘要如下,

线性代数

Scalar, Vectors, Matrices, Tensors的概念

Scalar: 标量,可以看成一个数
Vector: 向量,可以看成一个一维数组
Matrix: 矩阵,可以看成二维数组
Tensor: 张量,三维或三维以上的数组的统称,维度不定

很多时候我们处理的都是超过2维的数组,这时候叫矩阵(Matrix)又不太合适,因为一般提到矩阵都会想到二维的矩阵,所以采用Tensor来统一表示不定维的数组。这也是几乎所有深度学习框架的基本数据结构。”Tensorflow”名字中就包含了”Tensor”,于是向量可以称为1-D Tensor,一维张量,矩阵可以称为二维张量。

这样,深度学习中包括数据,梯度,权重等等都可以用某维度的Tensor来表示了,底层数据结构的统一为上层编程带来了极大的方便。

矩阵的基本操作

矩阵转置,相乘,矩阵与向量相乘
单位矩阵与逆矩阵
线性相关性
展开(Span),一个向量集的展开定义为向量集中通过向量的线性组合能够得到的点

奇异(Singular)矩阵和非奇异矩阵

奇异矩阵:存在线性相关的列的方阵或者行列式为0的方阵称为奇异矩阵
奇异矩阵不可逆
若n阶方阵A的行列式不为零,即$|A|≠0$,则称A为非奇异矩阵或满秩矩阵,存在逆矩阵

要注意的是,即使A不是方阵或者A是方阵但是奇异,也是有可能解方程$Ax=b$的,只是不能通过求逆矩阵$A^{-1}$从而$x=A^{-1}b$来解而已。
线性方程组$Ax=b$有解的充分必要条件是: 增广矩阵的秩等于系数矩阵的秩,即$r(A,b) = r(A)$

范数(Norm)

范数的作用是度量向量的大小,将向量映射为非负实数
$L^p$范数定义为:
$$||x||_p=(\Sigma_i {|x_i|^p})^{\frac 1 p}$$

在正则化中常常用到范数,主要用到1-范数和2-范数。

$x^{\top}x=||x||_2^2$

Frobenius Norms: $||A||_{F}=\sqrt{\Sigma_{i,j}A_{i,j}^2}$

向量点积: $x^{\top}y=||x||_2||y||_2cos\theta$

特殊矩阵

对角矩阵
实对称矩阵及其性质:
(1)A的特征值为实数,且其特征向量为实向量
(2)A的不同特征值对应的特征向量必定正交
(3)A一定有n个线性无关的特征向量,从而A相似于对角矩阵
正交矩阵的性质: $A^{-1}=A^{\top}$

特征值分解

特征值分解的思想类似于因式分解的思想,对于一个数,我们想要分析它的性质,可能直接看看不出什么来,但是可以把它因式分解一下,再来分析。比如180,$180 = 2 \times 2 \times 3 \times 3 \times 5=2^2 \times 3^2 \times 5^1$,这样我们可以知道,180是2,3,5的倍数,也是6的倍数,15的倍数,等等,进而分析其它性质。
矩阵分解也是如此,面对一个复杂的矩阵,我们可能毫无头绪,但是将其分解为两个或者多个矩阵的乘积,我们可能就能收获很多的性质。
特征值分解 $A=Q \Lambda Q^{\top}$,将矩阵分解为特征值和特征向量,Q是由A的特征向量组成的正交矩阵,而$\Lambda$则为特征值组成的对角矩阵,$\Lambda_{i,i}$ 对应着 $Q_{:,i}$。

奇异值分解(Singular Value Decomposition)

$A=UDV^{-1}$,U称为左奇异向量,为$AA^{\top}$的特征向量,V称为右奇异向量,为$A^{\top}A$的特征向量。
非0奇异值是$A^{\top}A$的特征值的开根号

Moore-Penrose Pseudoinverse

通常意义上的逆矩阵只有在当A为n阶方阵,并且行列式不为0时才存在,但是有时候这个条件显得太苛刻了,于是人们将条件做一些放松,使得能够推广到不可逆的矩阵或者长方的矩阵上,Penrose给出了四个矩阵方程,即放松后的条件,满足所有或者部分这些条件的逆矩阵称之为广义逆矩阵。满足所有者四个条件的称之为Moore-Penrose伪逆。
四个方程分别为:
(1) $AXA = A$
(2) $XAX = X$
(3) $(AH)^H = AX$
(4) $(XA)^H = XA$
($A^H$为共轭转置,即$\bar{A} ^ T$)
对于$A \in C^{m \times n}$,如果有$X \in C^{n \times m}$满足这四个方程的某几个或者全部,那么X就称为A的广义逆。
满足这四个方程则称为M-P伪逆。

迹运算符(Trace)

$ Tr(A) = {\Sigma}_i A_{i,i} $
迹运算符有许多性质,比如循环不变性等等

行列式

行列式的绝对值度量了矩阵扩展或者空间收缩所包含的操作多少的度量。

概率论

概率论也是很多领域包括计算机科学尤其是机器学习这块的基础学科。一般的计算机程序或者问题的求解是没有随机性的,按照一个确定的算法来即可。但是在机器学习中,经常会遇到不确定的量,比如说数据的采集,可能是随机采集的,或者说数据中包含随机噪声等等,而概率论则是量化各种不确定性的手段。
可以说,几乎所有的活动都要求参与者具有分析不确定性的出现的一些能力。
不确定性有三种可能的来源:

  • 系统固有的随机性
    比如说打牌的游戏,我们都会假设洗牌确实是能够将牌的顺序变的随机。
  • 不完备的观察
    即使是一个确定的系统,当我们不能够观察到系统中所有驱动系统行为的变量时,也是会呈现出随机性的。
  • 不完备的建模
    我们有时候建模时无法完美地使用所有信息,从而必须丢弃一些观察到的信息,丢弃的信息就会造成模型预测的不确定性。

在概率论领域,有两种学派,一种是频率学派,一种是贝叶斯学派。关于这两个学派的观点,可以参看贝叶斯学派与频率学派有何不同?等。

随机变量

简单来说,随机变量就是能够随机的取不同值的变量,又分为连续随机变量和离散随机变量,离散随机变量包含有限个或者可数无穷个状态,状态不必是整数。而连续随机变量则与一个实值相关联。

概率分布

一个或一组随机变量取到每个可能状态的可能性的描述即为概率分布。

  • 离散随机变量的概率分布称为概率质量函数(PMF, Probablity Mass Function)
  • 连续随机变量的概率分布称为概率密度函数(PDF, Probablity Density Function)

边缘概率

原来变量集合的一个子集上的概率分布。

条件概率及其链式法则

独立和条件独立

期望,方差与协方差

常用概率分布

  • 贝努利分布
  • 多贝努利分布/多类分布
  • 高斯分布
  • 指数分布
  • 拉普拉斯分布
  • 狄拉克分布(Dirac)与经验分布
  • 混合分布

一些有用的性质和通用函数

贝叶斯规则

连续变量的一些技术细节

信息论

结构化概率模型

References