文章目录
引入
题目:多示例卷积神经网络用于多镜头人重新识别Multi-Instance Convolutional Neural Network for multi-shot person re-identification
Bib:
@article{LIU2019303,
title = {Multi-Instance Convolutional Neural Network for multi-shot person re-identification},
author = {Xiaokai Liu and Sheng Bi and Xiaorui Ma and Jie Wang},
journal = {Neurocomputing},
volume = {337},
pages = {303-314},
year = {2019},
issn = {0925-2312},
doi = {https://doi.org/10.1016/j.neucom.2019.01.076},
}
摘要:
本文解决了使用卷积神经网络 (CNN) 进行多镜头人重新识别的挑战性问题。由于没有关于每个实例的重要性的先验信息,因此利用多镜头图像共享的交互信息来帮助识别并非易事。传统 CNN 是单镜头架构,如何利用多镜头图像提供的交互信息成为需要解决的重要问题。此外,由于数据增强方法不是严格保留标签的,因此增加了选择用于 CNN 训练的判别实例的难度。在本文中,我们提出了一个名为多示例卷积神经网络(MICNN)的弱监督 CNN 框架来解决上述问题。我们开发了两种范式,即 Embedding-Space 范式和 Instance-Space 范式,它们将人员重新识别问题重新表述为具有由神经网络提取的基于部分的特征的多示例验证问题。我们分别设计了一个特定的袋级损失函数,它结合了每个范式的多实例问题的特征。实验表明,所提出的 IS 方法在四个基准数据集上优于许多相关的最先进技术:CUHK03、SYSUm、RAiD 和 Market-1501。
1 方法概述
why?
尽管先前关于基于 CNN 的重新识别的工作可以扩展到多镜头问题,方法是为每个身份随机采样一张图像,然后对具有相同身份的所有图像的分数进行平均,如图 1(a)所示, 它们本质上是单拍方法,因为在模型训练和图像排序过程中,所有具有相同身份的图像都是单独使用的,而“相同身份”的关键信息实际上并没有被使用。 这种做法只关注单独的图像,而忽略了具有相同身份的多镜头数据共享的交互信息。
what?
在本文中,我们在两种范式下提出了多实例卷积神经网络框架:嵌入空间(ES)范式和实例空间(IS)范式,如图 2 所示。两种范式之间的区别在于包级信息与 CNN 策略的集成方式。在 IS 范式中,判别信息应该位于实例级别。因此,网络在最后一层之前估计实例概率,并使用凸损失函数估计袋子概率。而在 ES 范式中,判别信息被认为位于袋级。它显式地将包中的多个输出映射到一个固定长度的向量中,并直接进行包级分类。
数据集
CUHK03, SYSUm, RAiD and Market-1501