Los Modelos de Lenguaje Grande (LLMs) con capacidades argentinas son capaces de realizar tareas intensivas en conocimiento sin la intervención humana. Un ejemplo destacado de esta herramienta es la Investigación Profunda con la capacidad de navegar por la web, extraer información y generar informes de múltiples páginas. En este trabajo, presentamos una hoja de evaluación que se puede utilizar para evaluar la capacidad de las herramientas de Investigación Profunda. Además, seleccionamos la redacción de encuestas académicas como tarea de caso de uso y evaluamos los informes generados en base a la hoja de evaluación que presentamos. Nuestros hallazgos muestran la necesidad de tener estándares de evaluación cuidadosamente elaborados. La evaluación realizada sobre la Búsqueda Profunda de OpenAI y la Búsqueda Profunda de Google en la generación de una encuesta académica mostró la enorme brecha entre los motores de búsqueda y las herramientas de Investigación Profunda independientes, la deficiencia en representar el área objetivo.
Azime et al. (Mar,) estudiaron esta cuestión.