June 28, 2024Open Access

LLaRA: 비전-언어 정책을 위한 로봇 학습 데이터 강화

Key Points

Key points are not available for this paper at this time.

Abstract

폭넓은 세계 지식과 강력한 추론 능력을 갖춘 대형 언어 모델(LLMs)은 다양한 도메인에서 다양한 작업을 수행할 수 있으며, 종종 이를 대화 형식의 지시-응답 쌍으로 제시합니다. 본 논문에서는 LLaRA: 대형 언어 및 로봇 보조기구를 제안합니다. 이는 로봇 행동 정책을 대화 형식으로 수립하고, 정책 학습을 보완하는 보조 데이터를 활용하여 향상된 응답을 제공합니다. 시각 입력이 있는 LLM인 비전 언어 모델(VLM)은 상태 정보를 시각-텍스트 프롬프트로 처리하고 최적의 정책 결정을 텍스트로 생성할 수 있는 능력이 있습니다. 이러한 행동 정책 VLM을 학습시키기 위해 우리는 먼저 기존 행동 클로닝 데이터에서 다양한 고품질 로봇 지시 데이터 생성 자동화 파이프라인을 소개합니다. 로봇 작업을 위해 맞춤화된 대화 형식의 수립에 기반한 데이터셋의 결과물로 미세 조정된 VLM은 의미 있는 로봇 행동 정책 결정을 생성할 수 있습니다. 다수의 시뮬레이션 및 실제 환경에서의 실험 결과는 제안된 LLaRA 프레임워크의 최첨단 성능을 보여줍니다. 코드, 데이터셋 및 사전 학습된 모델은 https://github.com/LostXine/LLaRA에서 이용할 수 있습니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper