pytorch模型不同层设置不同的学习率-CFANZ编程社区

pytorch模型不同层设置不同的学习率

在目标检测的模型训练中，我们通常都会有一个特征提取网络backbone，例如YOLO使用的darknet SSD使用的VGG-16。

为了达到比较好的训练效果，往往会加载预训练的backbone模型参数，然后在此基础上训练检测网络，并对backbone进行微调，这时候就需要为backbone设置一个较小的lr。

class net(torch.nn.Module):
    def __init__(self):
        super(net, self).__init__()
        # backbone
        self.backbone = ...
        # detect
        self....

在设置optimizer时，只需要参数分为两个部分，并分别给定不同的学习率lr。

base_params = list(map(id, net.backbone.parameters()))
logits_params = filter(lambda p: id(p) not in base_params, net.parameters())
params = [
    {"params": logits_params, "lr": config.lr},
    {"params": net.backbone.parameters(), "lr": config.backbone_lr},
]
optimizer = torch.optim.SGD(params, momentum=config.momentum, weight_decay=config.weight_decay)

1、选择要调整的学习率对应的层，这里以conv5为例

net = net()
lr = 0.001

conv5_params = list(map(id, net.conv5.parameters()))
base_params = filter(lambda p: id(p) not in conv5_params, net.parameters())
optimizer = torch.optim.SGD([
            {'params': base_params},
            {'params': net.conv5.parameters(), 'lr': lr * 100}], lr=lr, momentum=0.9)

2、如果要调整多个层的学习率，以conv4和conv5为例

conv5_params = list(map(id, net.conv5.parameters()))
conv4_params = list(map(id, net.conv4.parameters()))
base_params = filter(lambda p: id(p) not in conv5_params + conv4_params, net.parameters())
params = [{'params': base_params},
          {'params': net.conv5.parameters(), 'lr': lr * 100},
          {'params': net.conv4.parameters(), 'lr': lr * 100}]
optimizer = torch.optim.SGD(params, lr=lr, momentum=0.9)

0 条评论