尽管现在Transformer的时代,但之前一些经典的语义分割架构还是用这篇blog记录一下,图片参考来源b站up:霹雳吧啦Wz。
文章目录
1. 网络结构
1.1 FCN
- FCN-32S
- FCN-16S
- FCN-8S
1.2 Deeplabv1
1.3 Deeplabv2
1.4 Deeplabv3
1.5 UNet
1.6 LR-ASPP
2. 评价指标
可以看见之前一些经典语义分割网络最后输出的大小是和原图一样的,但是channels=num classes,也就是为类别数目,本质思想就是对每一个像素作一个分类。
常见的语义分割评价指标如下:
- Pixel Accuracy(Global Acc):
∑ i n i i ∑ i t i \frac{\sum_{i}n_{ii}}{\sum_{i}t_{i}} ∑iti∑inii
- Mean Accuracy
1 n c l s ⋅ ∑ i n i i t i \frac{1}{n_{cls}}·\sum_{i}\frac{n_{ii}}{t_{i}} ncls1⋅i∑tinii
- mean Iou
1 n c l s ⋅ ∑ i n i i t i + ∑ j n j i − n i i \frac{1}{n_{cls}}·\sum_{i}\frac{n_{ii}}{t_{i}+\sum_{j}n_{ji}-n_{ii}} ncls1⋅i∑ti+∑jnji−niinii
其中, n i j n_{ij} nij表示类别i被预测成类别j的像素个数; n c l s n_{cls} ncls表示目标类别个数(包含背景); t i = ∑ j n i j t_{i}=\sum_{j}n_{ij} ti=∑jnij表示类别i的总像素个数(真实标签)
参考资料:
https://space.bilibili.com/18161609/channel/seriesdetail?sid=302024