当前位置:网者头条 >> 科学知识

研究人员开发了一种基于投票的新型模型,以进行更准确的手持对象姿势估计

科学知识 2025-10-13 4539

摘要:估计手持物体的姿势是机器人技术和计算机视觉中的一个重要且具有挑战性的问题。尽管利用多模式RGB和深度数据是一个有前途的解决方案,但由于手工诱导的遮挡和多模式数据融合,现有方法仍然面临挑战。在一项新的研究中,研究人员开发了一个新颖的深度学习框架,该框架通过引入新型基于投票的融合模块和手感姿势估计模块来解决这些问题。...

许多机器人应用依靠机器人手臂或手来处理不同类型的物体。估计此类手持物体的姿势是机器人技术,计算机视觉甚至增强现实(AR)应用中的一项重要但具有挑战性的任务。一个有希望的方向是利用多模式数据,例如颜色(RGB)和深度(D)图像。随着3D传感器的可用性越来越多,许多机器学习方法已经出现以利用这一技术。

研究人员开发了一种基于投票的新型模型,以进行更准确的手持对象姿势估计

但是,现有方法仍然面临两个主要挑战。首先,当手遮住固定物体时,它们会面临准确性下降,从而掩盖了姿势估算所需的关键特征。此外,手动相互作用引入了非刚性转换,这进一步使问题复杂化。当手更改固定物体的形状或结构时,例如在挤压软球以使物体的感知形状扭曲时,就会发生这种情况。其次,大多数当前技术从单独的RGB和RGB-D主干中提取功能,然后将其融合在功能级别上。由于这两个骨架可以固有地处理不同的方式,因此这种融合会导致表示分布的变化,这意味着从RGB图像中学到的特征可能与从RGB-D输入中提取的功能不一致,从而影响姿势估计。此外,在微调期间,两个骨架之间的密集相互作用会导致性能中断,并限制了合并RGB功能的好处。

为了解决这些问题,由日本什叶博拉理工学院的创新全球课程Phan Xuan Tan领导的研究团队与DINH-CUONG HOANG博士以及越南FPT大学的其他研究人员一起开发了一种创新的深神经网络,专门为使用RGB-D图像而设计。 “我们深度学习框架的关键创新在于基于投票的融合机制,该机制有效地整合了2D(RGB)和3D(深度)关键点,同时解决了手工诱导的阻塞和融合多模态数据的困难。此外,它将学习过程并结合了基于自我关注的手动互动模型。他们的研究于2025年2月17日在线提供,并将在2025年5月在《亚历山大工程杂志》第120卷上发布。

提出的深度学习框架包括四个组成部分:从2D图像和3D点云数据,投票模块,基于投票的新型融合模块以及手感姿势姿势估计模块中提取高维特征的骨干。最初,从RGB-D图像中预测双手和对象的2D和3D键杆。关键点是指有助于描述手和物体姿势的输入图像中有意义的位置。接下来,每个骨干内的投票模块都会独立投票赞成各自的关键。

然后,这些投票由基于投票的融合模型集成,该模型将基于半径的邻里投影和渠道注意机制动态结合2D和3D票。前者保留了本地信息,而后者则适应不同的输入条件,从而确保了稳健性和准确性。这种基于投票的融合有效地利用了RGB和深度信息的优势,从而减轻了手动诱导的遮挡和未对准的影响,因此可以实现准确的手动姿势效果估计。

最终的组件是手感构成估计模块,通过使用自我注意的机制捕获手和对象关键点之间的复杂关系,从而进一步提高了准确性。这使系统可以考虑由不同的手姿势和握把引起的非刚性转换。

为了测试他们的框架,研究人员在三个公共数据集上进行了实验。结果表明,与最先进的方法相比,准确性(最高15%)和鲁棒性有了显着提高。此外,现场实验的平均精度为76.8%,与现有方法相比,性能提高了13.9%。该框架还可以实现高达40毫秒的推理时间,而无需改进,并具有200毫秒的改进,证明了现实世界中的适用性。

Tan博士说:“我们的研究直接解决了机器人技术和计算机视觉行业中长期存在的瓶颈 - 精确的对象构成了遮挡,动态和复杂的手动相互作用方案。” “我们的方法不仅比许多现有技术更准确,而且更简单。它有可能加速AI驱动系统的部署,例如有效的自动化机器人装配线,人体辅助机器人技术和沉浸式AR/VR技术。”

总体而言,这种创新的方法代表了机器人技术方面的重要一步,使机器人能够更有效地处理复杂的对象并推进AR技术,以模拟更栩栩如生的手动相互作用。

相关推荐
友情链接