【Abstract】
双手交互是理解人类行为得到重要操作,然而,许多研究者集中于孤立的单手场景。因此我们首先提出了①大规模数据集:InterHand 2.6M ②baseline network,InterNet用于从Single image中估计3D交互手势,我们提出的InterHand包含2.。65万个标定的单手和交互手势图片。
(该论文所提出的创新点十分清晰,该论文是为了解决双手交互情境下手部姿态估计不准确的问题。基于此,本文提出了基础的baseline以及包含标注的双手交互数据集)
【Introduction】
之前的3D手部姿态估计方法都是针对单手姿态,主要方法多是给定一个裁剪后的手部图像,模型会估计手部关键点的3D位置。然而单手场景是有一定限制的,并不能涵盖所有的人类手部姿态,人类的动作主要是交互型的。为了解决这个问题,我们创建了一个大型数据集:InterHand 2.6M以及一个baseline InterNet。InterNet用于3D交互手势姿态估计。
InterHand2.6M是一个大规模RGB 3D手部姿态数据集,每一个手部序列包含单手和交互的左右手图像。InterHand是在一个精确准确的多视角摄影棚终拍摄的,该摄影棚配有80到140个高分辨率摄像机。至于3D关键点数据标注,使用了一个半自动方法:包括人工标注和自动标注。这种标注方法比纯手工标注效率更高,但标注精度与手工标注相当。
该论文所提出的InterNet网络可以估计从single image的3D单手以及交互手部姿态。我们设计的InterNet可以预测左右手,2.5D的左右手姿态以及相对右手的深度。左右手可以判断所输入的图像中的手是左手还是右手。因此,InterNet能够在测试阶段剔除没有手的图像。2.5D手不姿态包含2D姿态的x轴、y以及基于根节点的深度。为了使2.5D姿态转到3D,从RootNet中获取了右手相对左手的绝对深度。然而从单个RGB图像获取绝对深度是高度模糊的,RootNet在某些情况下输出的depth并不靠谱。为了解决这个问题,我们使用InterNet去预测左手相对右手的深度。当左右手都在图像中时,这种相对深度可以替代RootNet的输出。
为了证明所提出的数据集在交互上额效果,我们使用本文提出的网络模型在单手、双手以及交互手都有的数据集上做了验证。结果证明,交互手数据集对于3D交互手势姿态估计很有必要。
(整个论文逻辑清晰,原理详细。作者指出了之前基于单手的手部姿态估计的不足之处,并提出了基于交互手的手部姿态估计,的确是手部姿态估计领域的一大创新,有研究交互手势姿态估计的同学可以使用本文所以提出的数据集)
【InterHand2.6M】
(此部分是对我最有用的一部分,因为我本人也在自己创建数据集,如何拍摄如何标注数据集便是我需要考虑的,该论文详细的讲了数据集的采集与标注方法,值得有相关需求的小伙伴读一读)
data capture
InterHand 2.6M 是在一个由80-140摄像头的以30-90帧每秒(fps)拍摄的多摄像机工作室中拍摄的,该工作室具有指向手部的350-450个LED点灯,以促进均匀照明。摄像机的图像分辨率为4096 × 2668。利用三维标定目标对多视点系统进行标定,得到的像元均方根误差范围为0.42 ~ 0.48。
我们总共采集了36个主题,包括26个采集者,其中19个是男性,其他7个是女性。有两种类型的手序列,首先,峰值姿势(PP)是从中立姿势到预先设定的手部姿势(如拳头)的短暂过渡,然后再过渡到中立姿势。预定义的手势包括日常生活中经常使用的各种手语,以及每根手指最大限度弯曲或伸展的极端姿势。每个右手和左手都有40个预定义的手势,而相互作用的手有13个。在中性姿势中,手放在人的胸前,手指不接触,手掌面向侧面。第二种类型是动作范围(ROM),它表示使用最少指令的会话手势。例如,受试者被要求挥动他们的手,就像告诉某人过来一样。右手和左手各有15个对话手势,互动的手有17个。我们数据集中PP和ROM中的手部姿势被选择来采样各种姿势和会话手势,同时易于捕捉参与者遵循。提出的InterHand2.6M意在涵盖一个合理和普遍的手部姿势范围,而不是为特定应用选择一个最佳的手部姿势集。
(作者介绍了数据采集的细节。从以上两段话可以得知,个人研究者基本是没有时间、金钱来负担这样大型的数据集的采集与标注的。数据采集时,应当完成①数据环境的搭建②采集动作的定义)
Annotation
为了标注手的关键点,我们将常用的每个手21个关键点的标注方案直接扩展到双手,总共有42个关键点。对于每个手指,我们注释指尖和三个关节的旋转中心。除了每只手20个关键点外,手腕旋转中心也有标注。
注释旋转中心是一个挑战,因为关节的旋转中心会被皮肤遮挡了。当手指被其他手指遮挡或从斜角度看时,注释就变得更具挑战性。因此,我们开发了一个3D 旋转中心标注工具,它允许标注者同时查看和标注图像。这6张图片是同时拍摄的,但是是从不同的角度观察手。当标注者在两个视图中对一个关节进行标注时,该工具将自动执行三角剖分,并将该点重新投影到所有其他视图中,从而使标注者能够验证标注在3D空间中的一致性。
尽管有了注释工具,手动注释大量图像仍然是非常费力的。因此,我们按照Simon等人人工标注。标注着利用我们的标注工具,对9036个独特的时间瞬间中的94,914张2D图像进行了手工注释,其中有1880张有两个手工注释。这些2D注释被三角化以获得关节的3D位置,这些位置随后被投影到所有大约80个视图,以获得每个视图的2D注释。独特的时间步骤采样,以覆盖我们的记录脚本的许多手的姿势。在这一阶段的最后,共有698922张图片被标记为2D关键点。
在第二阶段,我们使用机器标注。为此,我们从上一阶段注释的图像训练了一个最先进的2D关键点检测器。Effentnet被用作计算效率关键点检测器的骨干。然后在未标记的图像上运行检测器,通过RANSAC进行三角剖分得到三维关键点。由于我们的InterHand2.6M是从大量高分辨率相机中捕捉到的,这种基于机器的注释给出了高度准确的估计。在外置评价机上对该方法进行了测试,误差为2.78 mm。最后的数据集集成了第一阶段的人工注释和第二阶段的机器注释。Simon等人进行了迭代引导,因为他们的初始机器注释器不能提供准确的注释,并且他们数据集的手部区域分辨率较低。相比之下,我们的强机器注释器在高分辨率的手部图像上实现了显著的低误差(2.78 mm);因此,我们没有执行迭代bootstrap。
【InterNet】
我们的InterNet以单个RGB图像I作为输入,使用ResNet[9]对其全连接层进行裁剪,提取图像特征F。我们准备I通过裁剪手区域的图像和调整它的大小到统一的分辨率。从F开始,InterNet同时预测手性,2.5D左右手姿势,以及右手相对左手的深度,这些将在下面的小节中描述。在2.5D手部姿态估计中,我们没有对手部尺度进行标准化。下图显示了InterNet的总体流程。
Handedness estimation
为了确定哪只手包含在输入图像中,我们设计了InterNet来估计输入图像中右手和左手存在的概率。为此,我们构建了两个全连通层,取图像特征F,估计概率h。全连通层的隐藏激活大小为512。除了最后一层,每个全连接层后面都有ReLU激活功能。我们在最后一层应用sigmoid激活函数来得到概率。
(左右手的判断,作者是通过两个全连接层来完成的,作用原理类似于分类任务。根据置信度来判断左右手。)
2.5D right and left hand pose estimation
为了分别估计2.5D的左右手姿态,我们为每一个右手和左手构造两个上采样器。每个上采样器由3个反卷积层和1个卷积层组成,每个反卷积层后面跟着批量归一化层和ReLU激活函数,因此它对输入的Feature map 进行了8次上采样。上采样器输入Feature map F,输出左右关节点的3D高斯热图。关节J的3D高斯热图的每个提速表示该位置存在一个手部关节点J的可能性。