What type of study is this?

This is a Quantitative Study study.

September 24, 2025Open Access

입력 재구성이 복잡한 동적 환경에서 도구 사용 정확도를 어떻게 향상시킬 수 있는가? τ-bench에 대한 연구

Key Points

IRMA 프레임워크는 동적 환경에서 에이전트 의사결정을 크게 향상시켜 전통적인 방법에 비해 두드러진 개선을 보여줍니다.
결과는 ReAct 및 Function Calling과 같은 표준 접근 방식에 비해 도구 사용 정확도가 19.1% 향상되었음을 나타냅니다.
수작업 분석을 통해 도구 호출 작업에서의 일반적인 대화 오류를 식별하여 재구성 프레임워크의 설계 및 구현에 정보를 제공합니다.
발견 사항은 다중 턴 대화에서 대형 언어 모델의 신뢰성과 일관성을 향상시키기 위한 입력 재구성의 잠재력을 강조합니다.

Abstract

최근 대형 언어 모델(LLM)의 추론 및 계획 능력의 발전은 동적 환경에서 도구 사용이 가능한 자율 에이전트로서의 잠재력을 가능하게 하였습니다. 그러나 τ-bench와 같은 다중 턴 대화 환경에서는 이러한 에이전트가 일관된 추론, 분야별 정책 준수 및 긴 도구 호출 및 대화의 수명에서 올바른 정보 추출에 어려움을 겪는 경우가 많습니다. 이러한 실패를 포착하고 완화하기 위해, 우리는 대화 경로에서 발생하는 일반적인 오류에 대한 종합적인 수작업 분석을 수행합니다. 그런 다음 에이전트 의사결정 개선을 위한 도구 호출 에이전트의 입력 재구성 실험을 진행합니다. 마지막으로, 관련 분야 규칙과 도구 제안으로 증강된 사용자 쿼리를 자동으로 재구성하는 Input-Reformulation Multi-Agent (IRMA) 프레임워크를 제안합니다. 결과적으로 IRMA는 전체 합격 점수에서 ReAct, Function Calling 및 Self-Reflection을 각각 16.1%, 12.7%, 19.1% 향상시킵니다. 이러한 발견은 동적 환경에서 다른 방법에 비해 IRMA의 우수한 신뢰성과 일관성을 강조합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper