Key points are not available for this paper at this time.
웹 기술의 발전으로 사람들의 삶의 여러 측면이 크게 혁신되었습니다. 웹의 중요성에도 불구하고, 웹에서 수행되는 많은 작업은 반복적이고 시간 소모적이며, 이는 전반적인 삶의 질에 부정적인 영향을 미칩니다. 이러한 지루한 일상 작업을 효율적으로 처리하기 위한 가장 유망한 접근법 중 하나는 인공지능(AI) 기술에 기반하여 인간과 유사한 지능을 통합한 자율 에이전트를 발전시키는 것입니다. 이를 AI 에이전트라고 합니다. AI 에이전트는 피로감이나 성능 저하 없이 지속적으로 작동할 수 있기 때문에 이러한 작업을 처리하는 데 상당한 이점을 제공합니다. 따라서 웹 맥락에서 지칭되는 AI 에이전트(WebAgents)를 활용하여 사람들이 지루한 일상 작업을 자동으로 처리하도록 지원하는 것은 생산성과 효율성을 획기적으로 향상시킬 수 있습니다. 최근에는 수십억 개의 매개변수를 포함한 대규모 기초 모델(LFMs)이 인간과 유사한 언어 이해 및 추론 능력을 보이며 다양한 복잡한 작업을 수행하는 데 능숙함을 보여주고 있습니다. 이는 자연스럽게 'LFMs를 활용하여 자동으로 웹 작업을 처리하고 사용자에게 상당한 편의를 제공하는 강력한 AI 에이전트를 개발할 수 있을까?'라는 질문을 제기합니다. LFMs의 잠재력을 완전히 탐구하기 위해 사용자의 지시에 따라 일상 웹 작업을 완료하도록 설계된 WebAgents에 대한 광범위한 연구가 진행되고 있으며, 이는 일상적인 인간 삶의 편의를 크게 향상시킵니다. 이 조사에서는 아키텍처, 훈련 및 신뢰성이라는 세 가지 주요 측면에서 WebAgents에 대한 기존 연구를 포괄적으로 검토합니다. 또한, 더 깊은 통찰을 제공하기 위해 향후 연구를 위한 몇 가지 유망한 방향이 탐구됩니다.
Ning et al. (Sun,)은 이 질문을 연구했습니다.