三通道的计算过程
要想有多张特征图的话 , 我们可以再用新的卷积核来进行左上到右下的滑动 , 这样就会形成 新的特征图。
三通道图片的卷积过程
也就是说增加一个卷积核 , 就会产生一个特征图 , 总的来说就是输入图片有多少通道 , 我们的卷积核就需要对应多少通道 , 而本层中卷积核有多少个 , 就会产生多少个特征图 。这样卷积后输出可以作为新的输入送入另一个卷积层中处理 , 有几个特征图那么depth就是几 , 那么下一层的每一个特征图就得用相应的通道的卷积核来对应处理 , 这个逻辑要清楚 , 我们需要先了解一下 基本的概念:
卷积计算的公式
4x4的图片在边缘Zero padding一圈后 , 再用3x3的filter卷积后 , 得到的Feature Map尺寸依然是4x4不变 。
填充
当然也可以使用5x5的filte和2的zero padding可以保持图片的原始尺寸 , 3x3的filter考虑到了像素与其距离为1以内的所有其他像素的关系 , 而5x5则是考虑像素与其距离为2以内的所有其他像素的关系 。
规律:Feature Map的尺寸等于
(input_size + 2 * padding_size ? filter_size)/stride+1
我们可以把卷积层的作用 总结一点: 卷积层其实就是在提取特征 , 卷积层中最重要的是卷积核(训练出来的) , 不同的卷积核可以探测特定的形状、颜色、对比度等 , 然后特征图保持了抓取后的空间结构 , 所以不同卷积核对应的特征图表示某一维度的特征 , 具体什么特征可能我们并不知道 。特征图作为输入再被卷积的话 , 可以则可以由此探测到"更大"的形状概念 , 也就是说随着卷积神经网络层数的增加 , 特征提取的越来越具体化 。
激励层的作用可以理解为把卷积层的结果做 非线性映射。
激励层
上图中的f表示激励函数 , 常用的激励函数几下几种:
常用的激励函数
我们先来看一下激励函数Sigmoid导数最小为0 , 最大为1/4 ,
激励函数Sigmoid
Tanh激活函数:和sigmoid相似 , 它会关于x轴上下对应 , 不至于朝某一方面偏向
Tanh激活函数
ReLU激活函数(修正线性单元):收敛快 , 求梯度快 , 但较脆弱 , 左边的梯度为0
ReLU激活函数
Leaky ReLU激活函数:不会饱和或者挂掉 , 计算也很快 , 但是计算量比较大
Leaky ReLU激活函数
一些激励函数的使用技巧 :一般不要用sigmoid , 首先试RELU , 因为快 , 但要小心点 , 如果RELU失效 , 请用Leaky ReLU , 某些情况下tanh倒是有不错的结果 。
这就是卷积神经网络的激励层 , 它就是将卷积层的线性计算的结果进行了非线性映射 。可以从下面的图中理解 。它展示的是将非线性操作应用到一个特征图中 。这里的输出特征图也可以看作是"修正"过的特征图 。如下所示:
非线性操作
池化层:降低了各个特征图的维度 , 但可以保持大分重要的信息 。池化层夹在连续的卷积层中间 , 压缩数据和参数的量 , 减小过拟合 , 池化层并没有参数 , 它只不过是把上层给它的结果做了一个下采样(数据压缩) 。下采样有 两种 常用的方式:
Max pooling :选取最大的 , 我们定义一个空间邻域(比如 , 2x2 的窗口) , 并从窗口内的修正特征图中取出最大的元素 , 最大池化被证明效果更好一些 。
Average pooling :平均的 , 我们定义一个空间邻域(比如 , 2x2 的窗口) , 并从窗口内的修正特征图算出平均值
Max pooling
我们要注意一点的是:pooling在不同的depth上是分开执行的 , 也就是depth=5的话 , pooling进行5次 , 产生5个池化后的矩阵 , 池化不需要参数控制 。池化操作是分开应用到各个特征图的 , 我们可以从五个输入图中得到五个输出图 。
池化操作
无论是max pool还是average pool都有分信息被舍弃 , 那么部分信息被舍弃后会损坏识别结果吗?
因为卷积后的Feature Map中有对于识别物体不必要的冗余信息 , 我们下采样就是为了去掉这些冗余信息 , 所以并不会损坏识别结果 。
- 内卷严重是什么意思?
- 通俗易懂是什么意思
- 3bar防水是什么意思
- 怎样去角质 去角质的正确方法
- 【图】约克夏丝毛梗的区别 这样分辨通俗又好记
- 手机光辐射
- 上市是什么意思通俗 什么叫上市
- 平行进口通俗解释 什么是平行进口
- 信托是什么通俗点说
- 粉丝减肥能吃吗
