在学习tensorflow读代码过程中,发觉VGGnet和ResNet两套代码中分别使用了tf.nn.conv2d()与tf.contrib.slim.conv2d()两种卷积,两者实现功能几乎一样,初始化操作上后者更加复杂,可控性高一点,特记录如下:
tf.nn.conv2d(
input, #输入图像,为一个4D的Tensor,shape=[batch_size, in_height, in_width, in_channels],数据类型为float32/64
filter, #卷积核,为一个Tensor,类型与参数input相同,shape=[filter_height, filter_width, in_channels, out_channels],注意:这里的第三维in_channels==input的第四维参数 in_channels
strides, #步长,一维向量,长度4,对应input的4个纬度上的步长
padding, #为"SAME"或者"VALID",string类型,SAME一致性填充,卷积可以到图像边缘,确保输入和输出图像大小保持一致,VALID有效填充,可能会裁减图片。
use_cudnn_on_gpu=None, #表示是否使用GPU上的cudnn加速,bool类型,默认值为true
data_format=None, #指定input的格式,string类型,默认值为“NHWC”
name=None #可选项,给卷积操作命名
)
最后,函数计算后返回一个2DTensor,其shape=[filter_height*filter_width*in_channels,output_channels],即所谓特征图。
tf.contrib.slim.conv2d(
inputs, #同样指需要做卷积的输入图像
num_outputs, #卷积核的个数(就是filter的个数)
kernel_size, # 用于指定卷积核的维度(卷积核的宽度,卷积核的高度)
stride=1, #卷积时在图像每一维的步长
padding='SAME', #与上相同
data_format=None, #与上相同
rate=1, #对于使用空洞卷积的膨胀率,rate等于1为普通卷积,rate=n代表卷积核中两两数之间插入了n-1个0
activation_fn=nn.relu, #激活函数的指定,默认的为ReLU函数
normalizer_fn=None, #指定正则化函数
normalizer_params=None, #指定正则化函数的参数
weights_initializer=initializers.xavier_initializer(), #指定权重的初始化程序
weights_regularizer=None, #权重可选的正则化程序
biases_initializer=init_ops.zeros_initializer(), #指定biase的初始化程序
biases_regularizer=None, # biases可选的正则化程序
reuse=None, #指定是否共享层或者和变量
variables_collections=None, #指定所有变量的集合列表或者字典
outputs_collections=None, #指定输出被添加的集合
trainable=True, #卷积层的参数是否可被训练
scope=None #共享变量所指的variable_scope
)
去除掉初始化的部分,那么两者并没有什么不同,只是tf.contrib.slim.conv2d提供了更多可以指定的初始化的部分,而对于tf.nn.conv2d而言,其指定filter的方式相比较tf.contrib.slim.conv2d来说,更加的复杂。去除掉少用的初始化部分,其实两者的API可以简化如下:
tf.contrib.slim.conv2d (
inputs,
num_outputs, #卷积核个数
kernel_size, #[卷积核的高度,卷积核的宽度]
stride=1,
padding='SAME',
)
tf.nn.conv2d(
input, #与上述一致
filter, #[卷积核的高度,卷积核的宽度,图像通道数,卷积核个数]
strides,
padding,
)
可以说两者是几乎相同的,运行下列代码也可知这两者一致
import tensorflow as tf
import tensorflow.contrib.slim as slim
x1 = tf.ones(shape=[1, 64, 64, 3])
w = tf.fill([5, 5, 3, 64], 1)
# print("rank is", tf.rank(x1))
y1 = tf.nn.conv2d(x1, w, strides=[1, 1, 1, 1], padding='SAME')
y2 = slim.conv2d(x1, 64, [5, 5], weights_initializer=tf.ones_initializer, padding='SAME')
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
y1_value,y2_value,x1_value=sess.run([y1,y2,x1])
print("shapes are", y1_value.shape, y2_value.shape)
print(y1_value==y2_value)
print(y1_value)
print(y2_value)