在 pytorch 中反向传播时自动更新自定义层参数答案

【问题标题】：Auto updating custom layer parameters while backpropagating in pytorch在 pytorch 中反向传播时自动更新自定义层参数
【发布时间】：2019-04-27 01:27:01
【问题描述】：

我有一个 pytorch 自定义层定义为：

class MyCustomLayer(nn.Module):
  def __init__(self):
    super(MyCustomLayer, self).__init__()

    self.my_parameter = torch.rand(1, requires_grad = True)

    # the following allows the previously defined parameter to be recognized as a network parameter when instantiating the model
    self.my_registered_parameter = nn.ParameterList([nn.Parameter(self.my_parameter)])

  def forward(self, x):
    return x*self.my_parameter

然后我定义使用自定义层的网络：

class MyNet(nn.Module):
  def __init__(self):
    super(MyNet, self).__init__()
    self.layer1 = MyCustomLayer()

  def forward(self, x):
    x = self.layer1(x)
    return x

现在让我们实例化 MyNet 并观察问题：

# instantiate MyNet and run it over one input value
model = MyNet()
x = torch.tensor(torch.rand(1))
output = model(x)
criterion = nn.MSELoss()
loss = criterion(1, output)
loss.backward()

遍历模型参数显示自定义层参数None：

for p in model.parameters():
    print (p.grad)

None

直接访问该参数时会显示正确的grad 值：

print(model.layer1.my_parameter.grad)

tensor([-1.4370])

这反过来又阻止了优化步骤自动更新内部参数，让我不得不手动更新这些参数。有谁知道我该如何解决这个问题？

【问题讨论】：

标签： neural-network gradient pytorch backpropagation

【解决方案1】：

您所做的，即return x*self.my_registered_parameter[0] 起作用了，因为您使用注册的参数来计算梯度。

当您调用 nn.Parameter 时，它会返回一个新对象，因此您用于操作的 self.my_parameter 与注册的对象不同。

您可以通过将my_parameter 声明为nn.Parameter 来解决此问题

self.my_parameter = nn.Parameter(torch.rand(1, requires_grad = True))
self.my_registered_parameter= nn.ParameterList([self.some_parameter])

或者你根本不需要创建my_registered_parameter 变量。当您将self.my_parameter 声明为nn.Parameter 时，它会注册为参数。

【讨论】：

【解决方案2】：

好的！我不得不将自定义层中的参数变量调用切换到 nn.ParameterList 对象（即 return x*self.my_registered_parameter[0] 而不是 x*self.my_parameter ）。在这个例子中，这意味着将自定义层在 forward 方法中的参数调用更改为：

  def forward(self, x):
    return x*self.my_registered_parameter[0]

如果能通过引用传递，那就太好了！

现在 optim 会按预期更新所有参数！

【讨论】：