March 24, 2024Open Access

Modelos de Visión-Lenguaje para la Detección de Éxito en Robots

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En este trabajo, utilizamos Modelos de Visión-Lenguaje (VLMs) como un detector de éxito binario dado una observación del robot y una descripción de la tarea, formulado como un problema de Pregunta y Respuesta Visual (VQA). Afinamos el VLM MiniGPT-4 de código abierto para detectar el éxito en las trayectorias de robots de los conjuntos de datos del Puente de Berkeley y del AUTOLab UR5 de Berkeley. Encontramos que, aunque un pequeño número de trayectorias de la distribución de prueba puede entrenar un detector preciso, transferir aprendizajes entre diferentes entornos es un desafío debido al cambio de distribución. Además, aunque nuestro VLM es robusto a variaciones lingüísticas, es menos robusto a variaciones visuales. En el futuro, VLMs más poderosos como Gemini y GPT-4 tienen el potencial de ser detectores de éxito más precisos y robustos, y los detectores de éxito pueden proporcionar una recompensa binaria escasa para mejorar las políticas existentes.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo