文章目录
- 2. The GREW Dataset
- 2.1. Overview of GREW
- 2.2. Data Collection and Annotation
- 2.3. Automatical Pre-processing
- 2.4. Human Attributes
- 2.5. Distractor Set
- 2.6. Evaluation Protocol
- 3. Baselines on GREW
- 3.1. Appearance-based
- 3.2. Model-based
2. The GREW Dataset
2.1. Overview of GREW
图1和表1分别说明了GREW和代表性步态识别数据集的定性和定量比较。GREW包括26,345个受试者和128,671个序列,它们来自开放环境中的882个摄像头。此外,作者提出了步态研究界的第一个干扰物集,其中包含233,857个序列。如图3所示,为基于外观和基于模型的算法提供了轮廓、GEI和2D/3D人体姿势数据类型。由于原始数据是在自然环境中采集的,与流行的CASIA-B和OU-MVLP相比,在GREW中通过步态识别身份更具挑战性。例如,考虑到遮挡、截断、光照等因素,从复杂的动态背景中检测和分割人体是一项困难的任务。如图2所示,不受约束的环境也给步态模式带来了新的挑战因素,如不同的视角、穿着、携带、拥挤人群和干扰物。
2.2. Data Collection and Annotation
2.3. Automatical Pre-processing
2.4. Human Attributes
为了进行精细的识别分析,作者用丰富的属性对每个序列进行注释。包括性别和年龄在内的软性生物识别特征对所有受试者进行了标注。年龄分为5组,成人采用14年的间隔(即16至30岁,31至45岁,46至60岁)。儿童(16岁以下)和长者(60岁以上)被作为单独的群体对待。
图5中给出了性别和年龄组的统计。在每个年龄组中,男性和女性的分布基本平衡。由于携带和穿戴对步态模式的提取有影响,GREW基准进一步提供了5种携带条件(即没有、背包、肩包、手提包和提包)和6种穿戴方式(即上长袖、上短袖、上无袖、下长裤、下短裤和下裙)。图5显示了这些属性的详细统计。70%以上序列中的受试者携带东西,而上短袖和下长裤构成了大多数的穿衣风格。
2.5. Distractor Set
2.6. Evaluation Protocol
GREW数据集分为3个部分:一个有20,000个身份和102,887个序列的训练集,一个有345个身份和1,784个序列的验证集,一个有6,000个身份和24,000个序列的测试集。3组中的身份是在不同的相机中拍摄的。测试集中的每个受试者都有4个序列,2个用于probe,2个用于gallery。此外,还有一个有233,857个序列的干扰物集。拆分的详细统计数据见表4。
3. Baselines on GREW
为了建立基线,探索了有代表性的基于外观的方法和基于模型的方法。表5显示了输入类型、网络和损失的概况,详细说明如下。所有的模型都是在一个代码库中使用PyTorch重新实现的,并在集群上进行训练。(each with 8 × 2080TI GPUs, Intel E5-2630-v4@2.20GHz CPU, 256G RAM).对于GREW训练,作者对所有模型进行了25万次迭代训练,批次大小为(p=32,k=8)和优化器为Adam。学习率从
开始,15万次迭代后下降到
。对于 CASIA-B 微调,模型以
3.1. Appearance-based
GEINet直接从 GEI 学习步态表示特征,然后对应到身份。如表5所示,GEINet的网络有4层,由2个卷积层和2个全连接(FC)层组成。采用Softmax损失进行优化,并利用最后一个FC的输出来计算探针和图库之间的距离。
TS-CNN框架采用双流CNN架构,学习GEI对之间的相似性来进行步态识别。本文采用MT架构设置,在顶层匹配中层特征。TS-CNN也将GEI作为输入,有6层。2-class Cross Entropy loss 用于训练,而分类器表示两个受试者在推理过程中是否为同一受试者的概率。
GaitSet使用多个卷积和池化层在无序轮廓集上提取卷积模板。采用 Batch All triplet loss进行优化,并在推理过程中利用15,872维嵌入特征进行识别。遵循 OU-MVLP 训练设置,本文使用更多通道卷积层和 250K 次迭代和 2 个学习率计划。
GaitPart提出了一种基于部位的网络设计,专注于人体不同部位的细粒度表示和微运动捕捉。GRWE基准的训练和测试遵循GaitSet的大多数设置。
3.2. Model-based
PoseGait探索 3D 人体姿势作为步态识别输入,由 5 估计。并利用从47中提取的二维姿态来获得三维姿态信息。对于步态特征部分,训练了一个 22 层(20 个卷积和 2 个 FC)具有 512-d 嵌入的 CNN 进行提取,并通过 Softmax loss和Center loss进行了优化。
GaitGraph是最近的一种基于模型的步态识别方法,在CASIA-B上取得了很好的效果。这项工作结合了二维人体姿势输入和图卷积网络来实现步态识别。利用有监督对比损失对图网络进行优化,并严格遵循其扩充和训练细节。在评估过程中,提取 256 维特征向量用于计算probe和gallery之间的距离。