文章目录
  1. 1. 卷积和卷积神经网络的基本概念
  2. 2. 卷积网络背后的三个重要概念:稀疏交互,参数共享,等变表示
  3. 3. 池化及其背后的idea和意义
  4. 4. 随机/无监督特征
  5. 5. 神经科学基础与卷积网络的密切关系

本章写卷积神经网络,本文摘其中的要点稍作梳理。

个人觉得,看完本章应该获得如下的take home message:

  • 卷积和卷积神经网络的基本概念
  • 卷积网络背后的三个重要概念:稀疏交互,参数共享,等变表示
  • 池化及其背后的idea和意义
  • 随机/无监督特征
  • 神经科学基础与卷积网络的密切关系

卷积和卷积神经网络的基本概念

卷积网络的基本概念默认本文读者已知。
“卷积”这个词笔者第一次听到是在《信号与系统》课程中,在计算机领域主要是离散的卷积。
卷积网络的工作过程网上已经讲的很多了,众多资料中又数July写的《通俗理解卷积神经网络(cs231n与5月dl班课程笔记)》尤为通俗易懂,推荐阅读。
总的来说,卷积网络尤其适合处理具有类似网格结构的数据,如具有序列结构的时间序列数据,就可以看做一维网格,具有空间结构的图像数据等即可看做二维网格。

卷积网络背后的三个重要概念:稀疏交互,参数共享,等变表示

重点在于此节。此节的三种重要概念是卷积网络能够发挥现在如此大作用的内在原因。
讲述以图片数据为例。

稀疏交互,指的是在处理图像时,卷积网络上层每个神经元的状态并不取决于整张图片,而是取决于一个局部感受野(如一张人脸图片,某个神经元的状态取决于下巴的那一小块区域),对局部感受野进行提取的小矩阵称为卷积核。
原来对图片进行处理,通常是通过稠密矩阵相乘等方法来做,即图像矩阵乘以一个权重矩阵,然后预测,训练此权重矩阵,这样的方式和全连接相差无几,效率不高,且分类预测效果不佳。
所以,“稀疏”是指相对于全连接来说,用比原来小得多的卷积核矩阵来代替全连接矩阵,相当于除卷积核之外的连接权重全为0.
通过卷积核可以对一些小的特征进行提取,比如检测图像边缘信息。通过多个卷积核可以提取多种图像特征信息。
稀疏的交互大大减小了存储开销,提高计算效率,从而也推进了算法的研究,使得卷积网络可以往更深层次走。

参数共享,指的是,比如对于100x100的图像,一个大小10x10的卷积核,固定具有10x10=100个参数,不管这个卷积核在与图像的哪一部分进行卷积,这些参数都是相对一致的。不同于全连接,会有100x100=10000个参数,整个神经网络的参数量瞬间缩减了100倍。当然这也导致了一个卷积核只能提取一种特征,为了提取多种特征,我们需要采用多个卷积核,这多个卷积核的参数就通常不会相同了。参数共享,也使得存储开销,计算效率提高,硬件压力越小,从而推进算法研究。

等变表示,指的是,图像中某一元素/成分的移动,在上层神经元中也表现为一定的移动。这是由参数共享直接带来的,因为移动过程中卷积核的参数不变。这种等变表示使得图像的平移不会对分类预测结果产生太大的影响,使得学习算法能够对相同内容不同位置的图像较为准确的识别。

池化及其背后的idea和意义

池化函数使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出。
池化操作有点类似于降低图像分辨率,最大池化用最突出的像素表示该像素周围一小块像素区域的总体。除此之外还有平均池化。
在生活中,池化类似于通常的“代表”,通常话语权细化到每个人会非常的繁琐,低效,从而从一个群体中选取一个“代表”来为整个群体说话就成为意见很自然的事情。
池化具有局部平移不变性,由于最后局部的像素会聚集,所以图像微小的平移有时并不会对池化的结果产生影响。通常当我们只关心某些特征是否出现而不关心其出现在何位置时池化显得非常有用。因为池化过后存储需求又进一步降低了,计算效率再次提升。

卷积和池化可以理解为两个无限强的先验。
卷积是这样的先验:该层应该学得的函数只包含局部连接关系且对平移具有等变性。
池化则是这样的先验:每一个单元都具有对少量平移的不变性。

随机/无监督特征

卷积核的确定有几种方式,一种是随机确定,一种是手动指定,另一种是采用无监督的标准来学习到一个卷积核。
通常允许底层的特征确定和上层的分类相分离,即底层采用无监督方法来学习特征,构造供高层使用的训练集,然后高层采用一个分类算法(可非神经网络)来进行分类。

神经科学基础与卷积网络的密切关系

卷积网络是受神经科学启发,成功应用于机器学习领域一个范例。
卷积网络有其神经科学的基础在。
比如卷积即使模拟初级视觉皮层的简单细胞,其活动可概括为在一个小的空间位置感受野内的图像的线性函数。
池化则启发自初级视觉皮层的复杂细胞,其对特征位置的微小偏移具有不变性。

类似从神经科学中启发出来的还有注意力机制,目前在NLP领域应用比较成功,在视觉领域则未见大成。卷积网络目前仍然主要集中于视觉。

Hinton在1988年提出了基于反向传播的时延神经网络(time delay neural network, TDNN),主要用于一维的时间序列分析,此后LeCun在1998年左右将反向传播应用到二维图像的识别,成功发明了LeNet并开启了现代卷积网络的大门。

卷积网络也是第一批能使用反向传播进行有效训练的深度网络之一。
一般的反向传播网络被认为是失败的,但是卷积网络加上反向传播奇迹般的发挥了很好的效果。
本书作者认为,可能是卷积网络的计算效率更高,能够快速运行实验并进行调参的原因。。

总的来说,卷积网络是神经网络的一种特化,这种特化在具有空间/序列等网格结构拓扑上表现良好,实际上,卷积网络的杀手级应用还是在二维图像方面。一维的序列处理(时间序列,文本序列等)主要被另一种神经网络的特化–循环神经网络所占领。