Key points are not available for this paper at this time.
본 논문은 인간-로봇 상호작용(HRI) 중 자율 로봇 행동에 대한 설명을 생성하기 위해 설계된 이전 작업을 기반으로 한 개선된 시스템을 제시한다. 이전에는 대규모 언어 모델(LLM)을 사용하여 로그를 해석하고 자연어 설명을 생성하는 시스템을 개발하였다. 이번 연구에서는 비전-언어 모델(VLM)을 통합하여 시스템이 시각적 입력의 추가 맥락을 통해 텍스트 로그를 분석할 수 있도록 접근 방식을 확장한다. 이 방법은 로봇의 로그 데이터와 캡처한 이미지의 데이터를 결합하여 설명을 생성할 수 있게 한다. 우리는 로봇이 인간 방해물을 피해야 하는 기본 내비게이션 작업에서 이 개선된 시스템을 테스트하였다. 이 초기 연구의 결과는 시각적 해석을 추가함으로써 장애물을 정확히 식별하고 제공되는 설명의 정확성을 높여 시스템의 설명을 개선한다는 것을 나타낸다.
Sobrín-Hidalgo et al. (Mon,)는 이 문제를 연구하였다.