Los puntos clave no están disponibles para este artículo en este momento.
En este trabajo, utilizamos Modelos de Visión-Lenguaje (VLMs) como un detector de éxito binario dado una observación del robot y una descripción de la tarea, formulado como un problema de Pregunta y Respuesta Visual (VQA). Afinamos el VLM MiniGPT-4 de código abierto para detectar el éxito en las trayectorias de robots de los conjuntos de datos del Puente de Berkeley y del AUTOLab UR5 de Berkeley. Encontramos que, aunque un pequeño número de trayectorias de la distribución de prueba puede entrenar un detector preciso, transferir aprendizajes entre diferentes entornos es un desafío debido al cambio de distribución. Además, aunque nuestro VLM es robusto a variaciones lingüísticas, es menos robusto a variaciones visuales. En el futuro, VLMs más poderosos como Gemini y GPT-4 tienen el potencial de ser detectores de éxito más precisos y robustos, y los detectores de éxito pueden proporcionar una recompensa binaria escasa para mejorar las políticas existentes.
Fiona Luo (Sun,) estudió esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: