May 30, 2024Open Access

로보 인스트럭트: 코드LLMs의 미세 조정을 위한 시뮬레이터 보강 지침 정렬

Key Points

소형 오픈 웨이트 언어 모델을 세밀하게 조정하면 로봇 프로그래밍 작업의 성능이 크게 향상됩니다.
Robo-Instruct는 다양한 데이터 생성과 시뮬레이터 기반 검증을 결합하여 독점 모델과의 성능 격차를 해소합니다.
이 접근 방식은 로봇 시뮬레이터를 활용하여 생성된 프로그램의 정확성을 보장하면서 Self-Instruct 데이터 생성 방법으로 교육 데이터 생성 과제의 다양성을 유지하고 품질 검사 및 정렬 개선 작업을 통해 지침과 출력의 일관성을 향상시킵니다.

Abstract

대형 언어 모델(LLMs)은 도메인 특정 로봇 응용 프로그래밍 인터페이스(API)를 활용하여 자연어에서 로봇 프로그램을 생성하는 데 큰 잠재력을 보여주었습니다. 그러나 독점 LLM과 소규모 오픈 가중치 LLM 간의 성능 격차는 여전히 큽니다. 이는 질문을 제기합니다: 성능 격차를 해소하기 위해 소규모 오픈 가중치 LLM을 도메인 특정 로봇 프로그램 생성에 미세 조정할 수 있을까요? Self-Instruct는 다양한 훈련 데이터를 생성하는 유망한 해결책이지만, 이러한 프로그램의 정확성을 확인할 수는 없습니다. 반면, 잘 정의된 세계를 가진 로봇 시뮬레이터는 실행 오류를 식별할 수 있지만, 확인할 수 있는 프로그램의 다양성을 제한합니다. 본 연구에서는 두 가지 장점을 결합한 로보 인스트럭트를 소개합니다. 로보 인스트럭트는 Self-Instruct의 다양성을 촉진하면서 시뮬레이터 기반 검사의 정확성을 제공합니다. 로보 인스트럭트는 프로그램과 관련된 속성을 추론하여 일관된 세계 상태를 즉시 합성하고 그에 따라 행동을 시뮬레이트하는 RoboSim을 도입합니다. 또한, Self-Instruct에 의해 생성된 지침과 프로그램은 미세하게 불일치할 수 있습니다. 예를 들어, 프로그래밍 과정에서 지침이 암시하는 단계를 누락할 수 있습니다. 로보 인스트럭트는 생성된 프로그램의 실제 결과를 반영하기 위해 작업 지침을 수정하는 지침-프로그램 정렬 절차인 InstAlign을 통해 이를 더욱 해결합니다. 몇 개의 초기 작업 설명과 로봇 API가 주어지면, 로보 인스트럭트는 소규모 오픈 가중치 모델만을 사용하여 훈련 데이터세트를 생성할 수 있습니다. 이 데이터세트는 소규모 오픈 가중치 언어 모델을 미세 조정하는 데 사용될 수 있으며, 이를 통해 GPT-3.5-Turbo 및 Gemini-Pro와 같은 여러 독점 LLM의 성능에 맞추거나 심지어 초과할 수 있습니다.

로보 인스트럭트: 코드LLMs의 미세 조정을 위한 시뮬레이터 보강 지침 정렬

Key Points

Abstract

Cite This Study

Also Consider

Also Consider