대형 언어 모델(LLMs)은 도메인 특정 로봇 응용 프로그래밍 인터페이스(API)를 활용하여 자연어에서 로봇 프로그램을 생성하는 데 큰 잠재력을 보여주었습니다. 그러나 독점 LLM과 소규모 오픈 가중치 LLM 간의 성능 격차는 여전히 큽니다. 이는 질문을 제기합니다: 성능 격차를 해소하기 위해 소규모 오픈 가중치 LLM을 도메인 특정 로봇 프로그램 생성에 미세 조정할 수 있을까요? Self-Instruct는 다양한 훈련 데이터를 생성하는 유망한 해결책이지만, 이러한 프로그램의 정확성을 확인할 수는 없습니다. 반면, 잘 정의된 세계를 가진 로봇 시뮬레이터는 실행 오류를 식별할 수 있지만, 확인할 수 있는 프로그램의 다양성을 제한합니다. 본 연구에서는 두 가지 장점을 결합한 로보 인스트럭트를 소개합니다. 로보 인스트럭트는 Self-Instruct의 다양성을 촉진하면서 시뮬레이터 기반 검사의 정확성을 제공합니다. 로보 인스트럭트는 프로그램과 관련된 속성을 추론하여 일관된 세계 상태를 즉시 합성하고 그에 따라 행동을 시뮬레이트하는 RoboSim을 도입합니다. 또한, Self-Instruct에 의해 생성된 지침과 프로그램은 미세하게 불일치할 수 있습니다. 예를 들어, 프로그래밍 과정에서 지침이 암시하는 단계를 누락할 수 있습니다. 로보 인스트럭트는 생성된 프로그램의 실제 결과를 반영하기 위해 작업 지침을 수정하는 지침-프로그램 정렬 절차인 InstAlign을 통해 이를 더욱 해결합니다. 몇 개의 초기 작업 설명과 로봇 API가 주어지면, 로보 인스트럭트는 소규모 오픈 가중치 모델만을 사용하여 훈련 데이터세트를 생성할 수 있습니다. 이 데이터세트는 소규모 오픈 가중치 언어 모델을 미세 조정하는 데 사용될 수 있으며, 이를 통해 GPT-3.5-Turbo 및 Gemini-Pro와 같은 여러 독점 LLM의 성능에 맞추거나 심지어 초과할 수 있습니다.
Hu et al. (Thu,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: