【问题标题】:Why does unet have classes?为什么 unet 有课程?
【发布时间】:2021-08-28 03:19:50
【问题描述】:
import torch
import torch.nn as nn
import torch.nn.functional as F


class double_conv(nn.Module):
    '''(conv => BN => ReLU) * 2'''
    def __init__(self, in_ch, out_ch):
        super(double_conv, self).__init__()
        self.conv = nn.Sequential(
            nn.Conv2d(in_ch, out_ch, 3, padding=1),
            nn.BatchNorm2d(out_ch),
            nn.ReLU(inplace=True),
            nn.Conv2d(out_ch, out_ch, 3, padding=1),
            nn.BatchNorm2d(out_ch),
            nn.ReLU(inplace=True)
        )

    def forward(self, x):
        x = self.conv(x)
        return x


class inconv(nn.Module):
    def __init__(self, in_ch, out_ch):
        super(inconv, self).__init__()
        self.conv = double_conv(in_ch, out_ch)

    def forward(self, x):
        x = self.conv(x)
        return x


class down(nn.Module):
    def __init__(self, in_ch, out_ch):
        super(down, self).__init__()
        self.mpconv = nn.Sequential(
            nn.MaxPool2d(2),
            double_conv(in_ch, out_ch)
        )

    def forward(self, x):
        x = self.mpconv(x)
        return x


class up(nn.Module):
    def __init__(self, in_ch, out_ch, bilinear=True):
        super(up, self).__init__()

        #  would be a nice idea if the upsampling could be learned too,
        #  but my machine do not have enough memory to handle all those weights
        if bilinear:
            self.up = nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True)
        else:
            self.up = nn.ConvTranspose2d(in_ch//2, in_ch//2, 2, stride=2)

        self.conv = double_conv(in_ch, out_ch)

    def forward(self, x1, x2):
        x1 = self.up(x1)
        diffX = x1.size()[2] - x2.size()[2]
        diffY = x1.size()[3] - x2.size()[3]
        x2 = F.pad(x2, (diffX // 2, int(diffX / 2),
                        diffY // 2, int(diffY / 2)))
        x = torch.cat([x2, x1], dim=1)
        x = self.conv(x)
        return x


class outconv(nn.Module):
    def __init__(self, in_ch, out_ch):
        super(outconv, self).__init__()
        self.conv = nn.Conv2d(in_ch, out_ch, 1)

    def forward(self, x):
        x = self.conv(x)
        return x


class UNet(nn.Module):
    def __init__(self, n_channels, n_classes):
        super(UNet, self).__init__()
        self.inc = inconv(n_channels, 64)
        self.down1 = down(64, 128)
        self.down2 = down(128, 256)
        self.down3 = down(256, 512)
        self.down4 = down(512, 512)
        self.up1 = up(1024, 256)
        self.up2 = up(512, 128)
        self.up3 = up(256, 64)
        self.up4 = up(128, 64)
        self.outc = outconv(64, n_classes)

    def forward(self, x):
        self.x1 = self.inc(x)
        self.x2 = self.down1(self.x1)
        self.x3 = self.down2(self.x2)
        self.x4 = self.down3(self.x3)
        self.x5 = self.down4(self.x4)
        self.x6 = self.up1(self.x5, self.x4)
        self.x7 = self.up2(self.x6, self.x3)
        self.x8 = self.up3(self.x7, self.x2)
        self.x9 = self.up4(self.x8, self.x1)
        self.y = self.outc(self.x9)
        return self.y

当我阅读 UNet 架构时,我发现它有 n_classes 作为输出。

class UNet(nn.Module):
    def __init__(self, n_channels, n_classes):

但为什么它有n_classes 用于图像分割?

我正在尝试使用此代码进行图像去噪,但我无法弄清楚 n_classes 参数应该是什么,因为我没有任何类。

n_classes 是否表示多类分割?如果是,那么二进制 UNet 分割的输出是什么?

【问题讨论】:

    标签: python pytorch image-segmentation unity3d-unet


    【解决方案1】:

    回答

    n_classes 是否表示多类分割?

    是的,如果您指定n_classes=4,它将输出一个(batch, 4, width, height) 形状的张量,其中每个像素都可以分割为4 类之一。还应该使用torch.nn.CrossEntropyLoss 进行培训。

    如果是,那么二进制 UNet 分割的输出是什么?

    如果你想使用二进制分割,你可以指定n_classes=10 代表黑色或1 代表白色)并使用torch.nn.BCEWithLogitsLoss

    我正在尝试使用此代码进行图像去噪,但我无法弄清楚 n_classes 参数应该是什么

    它应该等于n_channels,通常3 用于RGB 或1 用于灰度。如果你想教这个模型去噪图像,你应该:

    • 为图像添加一些噪点(例如使用torchvision.transforms
    • 在最后使用sigmoid 激活,因为像素的值介于01 之间(除非标准化)
    • 使用torch.nn.MSELoss 进行训练

    为什么是 sigmoid?

    因为[0,255] 像素范围表示为[0, 1] 像素值(至少没有标准化)。 sigmoid 正是这样做的 - 将值压缩到 [0, 1] 范围内,因此 linear 输出(logits)的范围可以从 -inf+inf

    为什么不用线性输出和钳位?

    为了使线性层在钳位后处于[0, 1] 范围内,来自线性的可能输出值必须大于0(适应目标的logits 范围:[0, +inf]

    为什么不是没有钳位的线性输出?

    输出的 Logits 必须在 [0, 1] 范围内

    为什么不用其他方法?

    你可以这样做,但sigmoid 的想法是:

    • 帮助神经网络(可以输出任意logit值
    • sigmoid 的一阶导数是高斯标准正态分布,因此它模拟了许多现实生活中发生的现象的概率(另请参阅 here 了解更多信息)

    【讨论】:

    • 我多次看到这个 sigmoid final layer,我想不通。为什么不是线性输出和钳位?为什么不是没有钳位的线性输出?为什么不用其他方法?
    • @Gulzar 更新了我的答案,是否更有意义?
    • 我不明白 logits 与线性层输出有什么关系。如果没有 sigmoid,并且输出物理实际上是像素强度,那么我认为通过逻辑函数没有任何意义。例如,MNIST 上在线的非常基本的自动编码器示例也适用于线性最终层(或使用 sigmoid),并且线性层不存在梯度消失问题。所以,我还是不明白 sigmoid 对非逻辑数据的使用。
    • @Gulzar 它与消失梯度无关。在分类的情况下,logits 是线性层的输出(sigmoid 将 logits 转换为概率)。这些在 +/- 无穷大范围内。您的像素值为 [0, 1] 并且您使用 MSE 作为标准(除非像素只有 0 和 1,通常情况并非如此)。您的神经网络可以输出任何真实值,而 sigmoid 会简单地将其压缩,因此 它不必输出 0 到 1 之间的有界值(因为这项任务更难且容易出错,例如预测像素值为 1.02,显然是错误的)。
    • @Gulzar 记住,OP 的最终目标是去噪而不是分割,如果在 PyTorch 中分割适当的损失就足够了。
    猜你喜欢
    • 2016-09-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-01
    相关资源
    最近更新 更多