小小白整理tf.nn.conv2d与tf.contrib.slim.conv2d异同-CFANZ编程社区

在学习tensorflow读代码过程中，发觉VGGnet和ResNet两套代码中分别使用了tf.nn.conv2d()与tf.contrib.slim.conv2d()两种卷积，两者实现功能几乎一样，初始化操作上后者更加复杂，可控性高一点，特记录如下：

tf.nn.conv2d(

    input,     #输入图像，为一个4D的Tensor，shape=[batch_size, in_height, in_width, in_channels]，数据类型为float32/64

    filter,    #卷积核，为一个Tensor,类型与参数input相同，shape=[filter_height, filter_width, in_channels, out_channels],注意：这里的第三维in_channels==input的第四维参数 in_channels

    strides,    #步长，一维向量，长度4，对应input的4个纬度上的步长

    padding,    #为"SAME"或者"VALID"，string类型，SAME一致性填充，卷积可以到图像边缘，确保输入和输出图像大小保持一致，VALID有效填充，可能会裁减图片。

    use_cudnn_on_gpu=None, #表示是否使用GPU上的cudnn加速，bool类型，默认值为true

    data_format=None, #指定input的格式，string类型，默认值为“NHWC”

    name=None  #可选项，给卷积操作命名

)
最后，函数计算后返回一个2DTensor，其shape=[filter_height*filter_width*in_channels,output_channels],即所谓特征图。

tf.contrib.slim.conv2d（
  inputs,    #同样指需要做卷积的输入图像

  num_outputs, #卷积核的个数（就是filter的个数）

   kernel_size, # 用于指定卷积核的维度（卷积核的宽度，卷积核的高度）

   stride=1,   #卷积时在图像每一维的步长

   padding='SAME', #与上相同

    data_format=None, #与上相同

     rate=1,  #对于使用空洞卷积的膨胀率，rate等于1为普通卷积，rate=n代表卷积核中两两数之间插入了n-1个0

    activation_fn=nn.relu,  #激活函数的指定，默认的为ReLU函数

     normalizer_fn=None, #指定正则化函数

     normalizer_params=None, #指定正则化函数的参数

     weights_initializer=initializers.xavier_initializer(),  #指定权重的初始化程序

     weights_regularizer=None,  #权重可选的正则化程序

     biases_initializer=init_ops.zeros_initializer(),  #指定biase的初始化程序

     biases_regularizer=None,   # biases可选的正则化程序

     reuse=None,  #指定是否共享层或者和变量

      variables_collections=None, #指定所有变量的集合列表或者字典

      outputs_collections=None,   #指定输出被添加的集合

      trainable=True,  #卷积层的参数是否可被训练

      scope=None   #共享变量所指的variable_scope
）

去除掉初始化的部分，那么两者并没有什么不同，只是tf.contrib.slim.conv2d提供了更多可以指定的初始化的部分，而对于tf.nn.conv2d而言，其指定filter的方式相比较tf.contrib.slim.conv2d来说，更加的复杂。去除掉少用的初始化部分，其实两者的API可以简化如下：

tf.contrib.slim.conv2d (

       inputs,

        num_outputs,  #卷积核个数

        kernel_size,   #[卷积核的高度，卷积核的宽度]

        stride=1,

         padding='SAME',

)

tf.nn.conv2d(

    input,       #与上述一致

    filter,      #[卷积核的高度，卷积核的宽度，图像通道数，卷积核个数]

    strides,

    padding,

)

可以说两者是几乎相同的，运行下列代码也可知这两者一致

import tensorflow as tf 

import tensorflow.contrib.slim as slim

 

x1 = tf.ones(shape=[1, 64, 64, 3]) 

w = tf.fill([5, 5, 3, 64], 1)

# print("rank is", tf.rank(x1))

y1 = tf.nn.conv2d(x1, w, strides=[1, 1, 1, 1], padding='SAME')

y2 = slim.conv2d(x1, 64, [5, 5], weights_initializer=tf.ones_initializer, padding='SAME')

 

 

with tf.Session() as sess: 

    sess.run(tf.global_variables_initializer()) 

    y1_value,y2_value,x1_value=sess.run([y1,y2,x1])

    print("shapes are", y1_value.shape, y2_value.shape)

    print(y1_value==y2_value)

    print(y1_value)

    print(y2_value)