Los puntos clave no están disponibles para este artículo en este momento.
Las imágenes médicas están desempeñando un papel importante en el ámbito médico. Un sistema maduro de respuesta a preguntas visuales médicas puede ayudar en el diagnóstico, pero hasta ahora no existe un método satisfactorio para resolver este problema tan complejo. Considerando que hay muchos tipos diferentes de preguntas, proponemos un modelo llamado CGMVQA, que incluye capacidades de clasificación y generación de respuestas para convertir este problema complicado en múltiples problemas simples en este artículo. Adoptamos la augmentación de datos en imágenes y la tokenización en textos. Usamos ResNet152 preentrenado para extraer características de imagen y añadimos tres tipos de embeddings juntos para manejar los textos. Reducimos los parámetros del transformador de autoatención multi-cabeza para reducir el costo computacional. Ajustamos las capas de enmascaramiento y salida para cambiar las funciones del modelo. Este modelo establece nuevos resultados de vanguardia: 0.640 de precisión de clasificación, 0.659 de coincidencia de palabras y 0.678 de similitud semántica en el conjunto de datos VQA-Med de ImageCLEF 2019. Sugiere que CGMVQA es efectivo en la respuesta a preguntas visuales médicas y puede ayudar mejor a los doctores en el análisis clínico y diagnóstico.
Ren et al. (Wed,) estudiaron esta cuestión.