经典网络结构分析

经典网络结构分析

本文围绕 ImageNet 大规模视觉识别挑战赛,只整理了些关键点

ImageNet Large Scale Visual Recognition Challenge(ILSVRC)

计算机视觉领域最具权威的学术竞赛之一
lmageNet数据集–由斯坦福大学李飞飞教授主导制作,其包含了超过1400万张全尺寸的有标记图片。
ILSVRC从ImageNet数据集中抽出子集作为竞赛数据
2012年ILSVRC–1281167张训练集,50000张验证集,100000张测试集

DeepLabv3+ 模型详解_deeplabv3+模型-CSDN博客

一、AlexNet

image-20241107142014330

AlexNet–2012年ImageNet大规模视觉识别 挑战赛冠军,精度提升超过10个百分点!

AlexNet在LeNet基础上进行了更宽更深的网络设计,首次在CNN中引入了ReLU、Dropout和LocalResponse Norm(LRN)等技巧。网络的技术特点如下:

  • 使用ReLU(Rectified Linear Units)作为CNN的激活函数,并验证其效果在较深的网络超过了Sigmoid,成功解决了Sigmoid在网
  • 络较深时的梯度弥散问题,提高了网络的训练速率。为避免过拟合,训练时使用Dropout随机忽略一部分神经元。
  • 使用重叠的最大池化(max pooling)。最大池化可以避免平均池化的模糊化效果,而采用重叠技巧可以提升特征的丰富性。
  • 提出了LRN层(ReLu后进行归一化处理),对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。
  • 利用GPU强大的并行计算能力加速网络训练过程,并采用GPU分块训练的方式解决显存对网络规模的限制。
  • 数据增强。利用随机裁剪和翻转镜像操作增加训练数据量,降低过拟合。

二、ZFNet

与AlexNet网络结构基本一致
主要改进:

  • 将第一个卷积层的卷积核大小改为了7x7;
  • 将第二、第三个卷积层的卷积步长都设置为2;
  • 增加了第三、第四个卷积层的卷积核个数。

三、VGGNet

VGG网络贡献:

  • 使用尺寸更小的3x3卷积核串联来获得更大的感受野;
  • 放弃使用11x11和5x5这样的大尺寸卷积核;
  • 深度更深、非线性更强,网络的参数也更少
  • 去掉了AlexNet中的局部响应归一化层(LRN)层:

结构特点:

  1. 对卷积核和池化大小进行了统一。网络中进行3x3的卷积操作和2x2的最大池化操作
  2. 采用卷积层堆叠的策略,将多个连续的卷积层构成卷积层组。

优点:

  • 和单个卷积层相比,卷积组可以提高感受野范围,增强网络的学习能力和特征表达能力;
  • 和具有较大核的卷积层相比,采用多个具有小卷积核的卷积层串联的方式能够减少网络参数;
  • 另外,在每层卷积之后进行ReLU非线性操作可以进一步提升网络的特征学习能力。

四、GoogLeNet

  • 提出了一种Inception结构,它能保留输入信号中的更多特征信息
  • 去掉了AlexNet的前两个全连接层,并采用了平均池化,这一设计使得GoogLeNet只有500万参数,比AlexNet少了12倍
  • 在网络的中部引入了辅助分类器,克服了训练过程中的梯度消失问题

Inception module 包含四个分支:
Shortcut连接: 将前一层输入通过1x1卷积
多尺度滤波: 输入通过1x1卷积之后分别连接卷集核大小为3和5的卷积
池化分支: 相继连接3x3pooling和1x1卷积四个分支的输出经过串联恢复到输入通道大小

image-20241121201854724

五、ResNet

ResNet具有以下贡献:

  • 提出了一种残差模块,通过堆叠残差模块可以构建任意深度的神经网络,而不会出现“退化”现象。
  • 提出了批归一化方法来对抗梯度消失,该方法降低了网络训练过程对于权重初始化的依赖;
  • 提出了一种针对ReLu激活函数的初始化方法

关于残差结构:

  1. 残差结构能够避免普通的卷积层堆叠存在信息丢失问题,保证前向信息流的顺畅。
  2. 残差结构能够应对梯度反传过程中的梯度消失问题,保证反向梯度流的通顺。

其他关键点:

  • 提出了批归一化策略,降低了网络训练过程对于权重初始化的依赖
  • 提出了针对ReLU非线性单元的初始化方法

问题: 为什么残差网络性能这么好?
一种典型的解释: 残差网络可以看作是一种集成模型!


经典网络结构分析
https://leaf-domain.gitee.io/2025/03/22/ai/经典网络结构分析/
作者
叶域
发布于
2025年3月22日
许可协议