최근 멀티모달 대형 언어 모델(MLLM)의 발전으로 시각적 입력을 이해하고 사용자 지침을 따를 수 있는 모바일 에이전트를 개발할 수 있게 되었습니다. 이는 모바일 장치에서 복잡한 작업을 자동화하는 새로운 가능성을 열어줍니다. 그러나 이러한 모델을 실제 모바일 시나리오에 적용하는 것은 장기적인 작업 실행, 오류 복구의 어려움 및 낯선 환경에서의 차가운 시작 문제 때문에 여전히 큰 도전 과제가 됩니다. 이러한 문제를 해결하기 위해, 우리는 모바일 작업 실행을 위해 견고하고 적응적인 GUI 에이전트인 MobileUse를 제안합니다. 장기적인 작업과 동적 환경에서의 회복력을 향상시키기 위해, 우리는 에이전트가 자가 모니터링하고, 오류를 감지하며, 여러 시간 척도(개별 행동에서 전체 작업 완료에 이르기까지)에서 오류를 복구할 수 있는 계층적 반사 아키텍처를 도입합니다. 우리는 요구에 따른 반사 전략을 통해 효율성을 유지합니다. 차가운 시작 문제를 해결하기 위해, 우리는 또한 에이전트가 자가 계획 탐색을 통해 환경에 대한 이해를 향상시키는 능동적 탐색 모듈을 도입합니다. AndroidWorld와 AndroidLab 벤치마크에 대한 평가 결과 MobileUse는 각각 62.9%와 44.2%의 성공률을 달성하며 새로운 최첨단 성능을 확립합니다. 실제 애플리케이션을 지원하기 위해 우리는 물리적 모바일 장치에서 자동화된 작업 실행을 위한 즉시 사용할 수 있는 툴킷을 https://github.com/MadeAgents/mobile-use 에서 공개합니다.
Li et al. (Mon,) 이 질문을 연구했다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: