February 26, 2024Open Access

Aprendizaje Continuo Asistido por LLM con Múltiples Profesores para la Respuesta a Preguntas Visuales en Cirugía Robótica

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La respuesta a preguntas visuales (VQA) puede ser fundamental para promover la educación quirúrgica asistida por robots. En la práctica, las necesidades de los aprendices están en constante evolución, como aprender más tipos de cirugía, adaptarse a diferentes robots y aprender nuevos instrumentos y técnicas quirúrgicas para una cirugía. Por lo tanto, se requiere actualizar continuamente el sistema VQA mediante un flujo de datos secuencial de múltiples recursos en cirugía robótica para abordar nuevas tareas. En escenarios quirúrgicos, el costo de almacenamiento y la privacidad de los datos del paciente a menudo restringen la disponibilidad de datos antiguos al actualizar el modelo, lo que requiere una configuración de aprendizaje continuo (CL) sin ejemplares. Sin embargo, estudios anteriores pasaron por alto dos problemas vitales del dominio quirúrgico: i) grandes cambios de dominio a partir de diversas operaciones quirúrgicas recolectadas de múltiples departamentos o centros clínicos, y ii) un grave desequilibrio de datos que surge de la presencia desigual de instrumentos o actividades quirúrgicas durante los procedimientos. Este documento propone abordar estos dos problemas con un modelo de lenguaje grande multimodal (LLM) y una metodología de asignación de pesos adaptativa. Primero desarrollamos un nuevo marco de CL multi-profesor que aprovecha un LLM multimodal como el profesor adicional. La fuerte capacidad de generalización del LLM puede cerrar la brecha de conocimiento cuando ocurren cambios de dominio y desequilibrios de datos. Luego proponemos un nuevo método de procesamiento de datos que transforma embeddings complejos de LLM en logits compatibles con nuestro marco de CL. Además, diseñamos un enfoque de asignación de pesos adaptativa que equilibra la capacidad de generalización del LLM y la experiencia en el dominio del viejo modelo de CL. Construimos un nuevo conjunto de datos para tareas de VQA quirúrgico, proporcionando recursos de datos valiosos para futuras investigaciones. Resultados experimentales extensos en tres conjuntos de datos demuestran la superioridad de nuestro método sobre otros modelos avanzados de CL.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo