Key points are not available for this paper at this time.
소프트웨어 로봇은 오랫동안 로봇 프로세스 자동화(RPA)에 배치되어 일상적이고 반복적인 컴퓨터 작업을 자동화해 왔습니다. 고급 추론 기능을 가진 대형 언어 모델(LLM)의 출현은 이러한 에이전트가 이제는 더 복잡하고 이전에는 보지 못한 작업을 수행할 수 있는 기반을 마련했습니다. 하지만 최근 문헌에서의 LLM 기반 자동화 기술은 종종 입력을 위해 HTML 소스 코드를 의존하여 웹 환경으로 응용 범위가 제한됩니다. 게다가 HTML 코드에 포함된 정보는 종종 부정확하거나 불완전하여 실제 응용에 있어 에이전트의 신뢰성을 저하시킵니다. 우리는 환경 인식을 위해 스크린샷만 기반으로 기능하는 LLM 기반 에이전트를 제안하며, 대규모 인간 시연 데이터 수집의 필요성을 없애기 위해 인컨텍스트 학습을 활용합니다. 우리의 전략인 상황 인식 행동 계획(CAAP) 프롬프트는 에이전트가 다양한 각도에서 맥락을 세심하게 검토하도록 장려합니다. 제안된 방법론을 통해 우리는 67가지 유형의 MiniWoB++ 문제에서 94.4%의 성공률을 달성하며, 문제 유형당 1.48개의 시연만을 활용했습니다. 우리의 방법은 컴퓨터나 스마트폰에서 응용프로그램 간 조정이 필요한 작업을 포함하여 더 넓은 응용 가능성을 제공합니다. 이는 자동화 에이전트 분야에서 큰 진전을 보여줍니다. 코드는 https://github.com/caap-agent/caap-agent에서 이용할 수 있습니다.
Cho et al. (화요일)가 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: