在日常生活中,人们通过指向手势有效地传达他们的意图,而不必明确地命名物体。尤其是,与“这个”和“那个”等语言表达结合使用的指向手势在直观地指示空间中的物体或位置方面发挥了至关重要的作用。尽管在与人机交互(HCI)领域研究这种非语言手势的识别工作已积极开展,但在指向手势模糊的情况下,准确理解用户的意图仍然是一个挑战。本文提出了一种集成系统,结合了能够理解复杂人类语言表达的大型语言模型(LLM)和旨在指定空间中目标的指向手势,从而有效处理多模态用户命令。该系统旨在在复杂和不确定的环境中(例如,有多个物体的室内空间)准确识别用户意图,通过协同利用从指向手势获得的空间信息和LLM提供的上下文推理来实现。为了验证所提出的方法,我们构建了一个包含复杂真实环境和多种语言表达的数据集,并进行了实验,仔细分析系统的性能和局限性。该研究展示了基于语言的空间理解在HCI中自然扩展的潜力,并为相关领域的未来研究提出了方向。
Yeon等人(周四)研究了这个问题。