Los puntos clave no están disponibles para este artículo en este momento.
Se han utilizado varios mecanismos para enfocar la atención de una red neural en partes seleccionadas de su entrada o memoria con éxito en modelos de aprendizaje profundo en los últimos años. La atención ha mejorado la clasificación de imágenes, la subtitulación de imágenes, el reconocimiento de voz, los modelos generativos y las tareas algorítmicas de aprendizaje, pero probablemente tuvo el mayor impacto en la traducción automática neuronal. Recientemente, se han obtenido mejoras similares utilizando mecanismos alternativos que no se centran en una sola parte de la memoria, sino que operan sobre toda ella en paralelo, de manera uniforme. Este mecanismo, que llamamos memoria activa, mejoró en comparación con la atención en tareas algorítmicas, procesamiento de imágenes y en modelado generativo. Sin embargo, hasta ahora, la memoria activa no ha mejorado en comparación con la atención para la mayoría de las tareas de procesamiento del lenguaje natural, en particular para la traducción automática. Analizamos esta deficiencia en este artículo y proponemos un modelo ampliado de memoria activa que iguala los modelos de atención existentes en la traducción automática neuronal y se generaliza mejor a oraciones más largas. Investigamos este modelo y explicamos por qué los modelos de memoria activa anteriores no tuvieron éxito. Finalmente, discutimos cuándo la memoria activa aporta más beneficios y dónde la atención puede ser una mejor opción.
Kaiser et al. (Thu,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: