Key points are not available for this paper at this time.
인간을 지켜보며 상호작용을 이해하고 학습할 수 있는 로봇을 만드는 것은 여러 비전 문제에 영감을 주었습니다. 그러나 정적 데이터셋에 대한 일부 성공적인 결과에도 불구하고 현재 모델이 로봇에 직접 어떻게 사용될 수 있는지는 여전히 불확실합니다. 본 논문에서는 환경 중심의 방식으로 인간 상호작용 비디오를 활용하여 이 격차를 메우는 것을 목표로 합니다. 인간 행동에 관한 인터넷 비디오를 활용하여, 우리는 인간이 현장에서 상호작용할 가능성이 있는 위치와 방법을 추정하는 시각적 가능성 모델을 학습합니다. 이러한 행동 가능성의 구조는 로봇이 많은 복잡한 작업을 수행할 수 있게 직접적으로 지원합니다. 우리는 오프라인 모방 학습, 탐색, 목표 조건 학습, 강화 학습을 위한 행동 매개변수화 등 네 가지 로봇 학습 패러다임에 우리의 가능성 모델을 매끄럽게 통합하는 방법을 보여줍니다. 우리는 '비전-로보틱스 브릿지(VRB)'라고 부르는 우리의 접근 방식의 효율성을 보여주며, 4개의 실제 환경, 10개 이상의 다양한 작업, 그리고 야외에서 작동하는 2개의 로봇 플랫폼을 통해 검증하였습니다.
Bahl 외 (Thu,)는 이 질문을 연구했습니다.