LeNet-5网络详解-CFANZ编程社区

文章目录

1 模型介绍

LeNet-5出自论文《Gradient-Based Learning Applied to Document Recognition》，是由 $L e C u n$ 于1998年提出的一种用于识别手写数字和机器印刷字符的卷积神经网络，其命名来源于作者 $L e C u n$ 的名字，5则是其研究成果的代号，在LeNet-5之前还有LeNet-4和LeNet-1鲜为人知。LeNet-5阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取，同时使用卷积、下采样（池化）和非线性映射这样的组合结构，是当前流行的大多数深度图像识别网络的基础。

2 模型结构

图1 LeNet-5网络结构图

LeNet-5虽然是早期提出的一个小网络，但是却包含了深度学习卷积神经网络的基本模块：卷积层、池化层和全连接层。如图1所示，LeNet-5一共包含7层（输入层不作为网络结构），分别由2个卷积层、2个池化层和3个连接层组成，网络的参数配置如表1所示，其中下采样层和全连接层的核尺寸分别代表采样范围和连接矩阵的尺寸。

表1 LeNet-5网络参数配置

Layer Name	Kernel Size	Kernel Num	Stride	Padding	Input Size	Output Size	Trainable params
$C_1$	$5\times5$	$6$	$1$	$0$	$32\times32\times1$	$28\times28\times6$	$(5\times5\times1+1)\times6$
$S_2$	$2\times2$	$/$	$2$	$0$	$28\times28\times6$	$14\times14\times6$	$(1+1)\times6$
$C_3$	$5\times5$	$16$	$1$	$0$	$14\times14\times6$	$10\times10\times16$	$1516$
$S_4$	$2\times2$	$/$	2	$0$	$10\times10\times16$	$5\times5\times16$	$(1+1)\times16$
$C_5$	$5\times5$	$120$	1	$0$	$5\times5\times16$	$1\times1\times120$	$(5\times5\times16+1)\times120$
$F_6$	$/$	$/$	$/$	$/$	$1\times1\times120$	$1\times1\times84$	$(120+1)\times84$
$O u t p u t$	$/$	$/$	$/$	$/$	$1\times1\times84$	$1\times1\times10$	$(84+1)\times10$