February 17, 2024Open Access

인간 피드백으로부터 더 빠르게 배우기 위한 언어 모델 예측 제어

Key Points

Key points are not available for this paper at this time.

Abstract

대형 언어 모델(LLM)은 언어 명령으로 로봇 코드를 작성하는 등 광범위한 기능을 보여주었습니다. 이는 비전문가가 로봇 행동을 지시하고 피드백에 따라 수정하거나 이를 조합하여 새로운 작업을 수행할 수 있게 합니다. 그러나 이러한 기능(맥락 학습에 의해 추진됨)은 단기 상호작용에 제한되며, 사용자의 피드백은 LLM의 맥락 크기에 맞는 한에만 관련성이 있으며, 긴 상호작용에서는 잊혀질 수 있습니다. 본 연구에서는 로봇 코드 작성 LLM을 미세 조정하여 이들의 맥락 내 상호작용을 기억하고 인간 입력에 대한 적응 효율성을 향상시키는 방법을 조사합니다(사용자가 작업을 성공적이라고 간주하기 전의 평균 수정 수로 측정됨). 우리의 주요 관찰은 인간-로봇 상호작용이 부분적으로 관찰 가능한 마르코프 결정 프로세스로 형성될 때(여기서 인간 언어 입력은 관찰이고 로봇 코드 출력은 행동), 이전 상호작용을 완료하도록 LLM을 훈련시키는 것이 전이 동역학 모델을 훈련시키는 것으로 볼 수 있다는 것입니다. 이는 모델 예측 제어(MPC)와 같은 고전 로봇 기술과 결합되어 성공으로 가는 더 짧은 경로를 발견할 수 있습니다. 이로 인해 언어 모델 예측 제어(LMPC)가 탄생하였으며, 파라미터 모델 2를 미세 조정하여 5개의 로봇 구현에 걸쳐 78개의 작업에서 그 가르침 효율성을 개선합니다. 이는 보이지 않는 작업에 대한 비전문가의 가르침 성공률을 26.9% 향상시키고 인간의 평균 수정 수를 2.4에서 1.9로 줄입니다. 실험 결과 LMPC는 또한 강력한 메타 학습자를 생성하여 보이지 않는 로봇 구현 및 API에서 새로운 작업의 맥락 학습 성공률을 31.5% 개선합니다. 비디오, 코드 및 데모는 다음에서 확인하세요: https://robot-teaching.github.io/.

인간 피드백으로부터 더 빠르게 배우기 위한 언어 모델 예측 제어

Key Points

Abstract

Cite This Study

Also Consider

Also Consider