Los puntos clave no están disponibles para este artículo en este momento.
Esta investigación introduce el modelo Bi-VLA (Visión-Lenguaje-Acción), un sistema novedoso diseñado para manipulaciones robóticas bimanuales diestros que integran de manera fluida la visión, la comprensión del lenguaje y la acción física. La funcionalidad del sistema fue evaluada a través de un conjunto de tareas domésticas, incluida la preparación de una ensalada deseada a solicitud humana. Bi-VLA demuestra la capacidad de interpretar instrucciones humanas complejas, percibir y comprender el contexto visual de los ingredientes, y ejecutar acciones bimanuales precisas para ensamblar la ensalada solicitada. A través de una serie de experimentos, evaluamos el rendimiento del sistema en términos de precisión, eficiencia y adaptabilidad a diversas recetas de ensaladas y preferencias humanas. Nuestros resultados indican una tasa de éxito alta del 100% en la generación del código ejecutable correcto por parte del módulo de Lenguaje a partir de las tareas solicitadas por el usuario. El Módulo de Visión logró una tasa de éxito del 96.06% en la detección de ingredientes específicos y una tasa de éxito del 83.4% en la detección de una lista de múltiples ingredientes.
Gbagbe et al. (Thu,) estudiaron esta cuestión.