What question did this study set out to answer?

目的是通过与语言模型的上下文推理改善对模糊指向手势的解读。

April 15, 2026Open Access

利用大型语言模型的上下文推理解决指向手势中的模糊性

Key Points

目的是通过与语言模型的上下文推理改善对模糊指向手势的解读。
开发了一种结合大型语言模型和指向手势的集成系统。
构建了一个包含复杂环境和多种语言表达的数据集。
进行了实验以分析系统的性能和局限性。
该系统在具有多个物体的环境中有效识别用户意图。
上下文推理增强了对模糊指向手势的理解。
该方法展示了推动HCI中基于语言的空间理解的潜力。

Abstract

在日常生活中，人们通过指向手势有效地传达他们的意图，而不必明确地命名物体。尤其是，与“这个”和“那个”等语言表达结合使用的指向手势在直观地指示空间中的物体或位置方面发挥了至关重要的作用。尽管在与人机交互（HCI）领域研究这种非语言手势的识别工作已积极开展，但在指向手势模糊的情况下，准确理解用户的意图仍然是一个挑战。本文提出了一种集成系统，结合了能够理解复杂人类语言表达的大型语言模型（LLM）和旨在指定空间中目标的指向手势，从而有效处理多模态用户命令。该系统旨在在复杂和不确定的环境中（例如，有多个物体的室内空间）准确识别用户意图，通过协同利用从指向手势获得的空间信息和LLM提供的上下文推理来实现。为了验证所提出的方法，我们构建了一个包含复杂真实环境和多种语言表达的数据集，并进行了实验，仔细分析系统的性能和局限性。该研究展示了基于语言的空间理解在HCI中自然扩展的潜力，并为相关领域的未来研究提出了方向。

Bookmark

View Full Paper

Bookmark

View Full Paper

利用大型语言模型的上下文推理解决指向手势中的模糊性

Key Points

Abstract

Cite This Study