최근 대형 언어 모델(LLM)의 추론 및 계획 능력의 발전은 동적 환경에서 도구 사용이 가능한 자율 에이전트로서의 잠재력을 가능하게 하였습니다. 그러나 τ-bench와 같은 다중 턴 대화 환경에서는 이러한 에이전트가 일관된 추론, 분야별 정책 준수 및 긴 도구 호출 및 대화의 수명에서 올바른 정보 추출에 어려움을 겪는 경우가 많습니다. 이러한 실패를 포착하고 완화하기 위해, 우리는 대화 경로에서 발생하는 일반적인 오류에 대한 종합적인 수작업 분석을 수행합니다. 그런 다음 에이전트 의사결정 개선을 위한 도구 호출 에이전트의 입력 재구성 실험을 진행합니다. 마지막으로, 관련 분야 규칙과 도구 제안으로 증강된 사용자 쿼리를 자동으로 재구성하는 Input-Reformulation Multi-Agent (IRMA) 프레임워크를 제안합니다. 결과적으로 IRMA는 전체 합격 점수에서 ReAct, Function Calling 및 Self-Reflection을 각각 16.1%, 12.7%, 19.1% 향상시킵니다. 이러한 발견은 동적 환경에서 다른 방법에 비해 IRMA의 우수한 신뢰성과 일관성을 강조합니다.
Mishra 외 (Thu,) 가 이 질문을 연구하였습니다.