抓握辅助在恢复运动障碍个体的自主性方面至关重要,尤其是在物体类别和用户意图多样且不可预测的非结构环境中。我们提出了OVGrasp,一个用于抓握辅助的分层控制框架,集成了RGB-D视觉、开放词汇提示和语音命令,以实现稳定的多模态交互。为了增强开放环境中的泛化能力,OVGrasp结合了一个视觉语言基础模型与开放词汇机制,能够在不重新训练的情况下对先前未见的物体进行零样本检测。多模态决策者进一步融合空间和语言线索,以推断用户意图,例如在涉及多个物体的情况下进行抓握或释放。我们将完整框架部署在一个定制的自我中心视角可穿戴外骨骼上,并在三种抓握类型的十五个物体上进行系统评估。十名参与者的实验结果显示,OVGrasp实现的抓握能力分数(GAS)为87.00%,超过现有基线,并提供与自然手部运动的运动学对齐改进。• OVGrasp:用于抓握辅助的分层框架。 • 开放词汇检测能够对未见物体实现零样本泛化。 • 多模态决策结合视觉、深度和语音进行意图检测。 • 集成在具有自我中心RGB-D感知的软手外骨骼中。 • 在测试中实现了更高的抓握能力分数和改进的关节运动学。
Hu et al. (Tue,) 研究了这个问题。