课程学习笔记,课程链接
学习笔记同步发布在我的个人网站上,欢迎来访查看。
文章目录
一、torch.nn.Conv2d简介
打开官网文件中 torch.nn.Conv2d小节
可以看到此函数所需的一些参数,常用的就是前五个参数,具体介绍如下图所示:
彩色图片一般为 RGB格式,一个像素点有RGB三个参数,所以channels为 3。
官方提供了一个卷积操作的动态示意图:
有加 padding的,有加strides的。
- kernel_size是用来设置卷积核的大小的,可以是 int 或者 tuple 数据类型,例如设置为3时,卷积核的大小为3*3,。在实际训练过程中,网络会对卷积核不断进行调整。
- out-channels 是输出图像的通道数,当输入图片通道数是n时,会使用 n 通道的卷积核来对输入图像进行卷积,若只有一个n 通道卷积核,则会生成通道数为1的输出,若有 m 个 n 通道卷积核,则输出结果的通道数为 m。
二、代码演示
示例代码:
import torch
from torch import nn
import torchvision
from torch.nn import Conv2d
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
dataset = torchvision.datasets.CIFAR10("./dataset", train=False, transform=torchvision.transforms.ToTensor(),
download=True)
dataloader = DataLoader(dataset, batch_size=64)
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = Conv2d(in_channels=3, out_channels=6, kernel_size=3, stride=1, padding=0)
def forward(self, x):
x = self.conv1(x)
return x
Net1 = Net()
writer = SummaryWriter("./logs")
step = 0
for data in dataloader:
imgs, targets = data
output = Net1(imgs)
# print(imgs.shape)
# print(output.shape)
# torch.Size([64, 3, 32, 32])
writer.add_images("input", imgs, step)
# torch.Size([64, 6, 30, 30])
output = torch.reshape(output, (-1, 3, 30, 30))
writer.add_images("output", output, step)
step = step + 1
用tensorboard进行查看:
输入:
输出:
三、VGG16 CNN Model简介
接下来看下 Vgg16 这个CNN模型
2242243的输入图像第一次和第二次操作,都卷积成了22422464的结果,输出通道是64,尺寸不变,说明进行的padding,padding大小可以通过公式逆推: