What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

모바일사용: 자율 모바일 작동을 위한 계층적 반사를 가진 GUI 에이전트

Key Points

MobileUse는 AndroidWorld 벤치마크에서 62.9%의 성공률을 달성하여 그 효과를 보여줍니다.
계층적 반사 아키텍처의 도입은 작업 전반에 걸쳐 자가 모니터링과 오류 복구를 가능하게 합니다.
능동적 탐색 모듈은 에이전트가 환경을 더 잘 이해하도록 하여 적응성을 향상시킵니다.
MobileUse는 모바일 장치에서의 실제 자동화된 작업 실행을 위한 접근 가능한 툴킷을 제공합니다.

Abstract

최근 멀티모달 대형 언어 모델(MLLM)의 발전으로 시각적 입력을 이해하고 사용자 지침을 따를 수 있는 모바일 에이전트를 개발할 수 있게 되었습니다. 이는 모바일 장치에서 복잡한 작업을 자동화하는 새로운 가능성을 열어줍니다. 그러나 이러한 모델을 실제 모바일 시나리오에 적용하는 것은 장기적인 작업 실행, 오류 복구의 어려움 및 낯선 환경에서의 차가운 시작 문제 때문에 여전히 큰 도전 과제가 됩니다. 이러한 문제를 해결하기 위해, 우리는 모바일 작업 실행을 위해 견고하고 적응적인 GUI 에이전트인 MobileUse를 제안합니다. 장기적인 작업과 동적 환경에서의 회복력을 향상시키기 위해, 우리는 에이전트가 자가 모니터링하고, 오류를 감지하며, 여러 시간 척도(개별 행동에서 전체 작업 완료에 이르기까지)에서 오류를 복구할 수 있는 계층적 반사 아키텍처를 도입합니다. 우리는 요구에 따른 반사 전략을 통해 효율성을 유지합니다. 차가운 시작 문제를 해결하기 위해, 우리는 또한 에이전트가 자가 계획 탐색을 통해 환경에 대한 이해를 향상시키는 능동적 탐색 모듈을 도입합니다. AndroidWorld와 AndroidLab 벤치마크에 대한 평가 결과 MobileUse는 각각 62.9%와 44.2%의 성공률을 달성하며 새로운 최첨단 성능을 확립합니다. 실제 애플리케이션을 지원하기 위해 우리는 물리적 모바일 장치에서 자동화된 작업 실행을 위한 즉시 사용할 수 있는 툴킷을 https://github.com/MadeAgents/mobile-use 에서 공개합니다.

Read Full Paperexternally

AI에게 질문

Bookmark

View Full Paper