Los puntos clave no están disponibles para este artículo en este momento.
Resumen Presentamos un modelo de lenguaje que combina una gran red neuronal paramétrica (es decir, un transformador) con un componente de memoria episódica no paramétrica en una arquitectura integrada. Nuestro modelo utiliza un contexto de corto plazo ampliado al almacenar en caché los estados ocultos locales—similar a transformer-XL—y una memoria a largo plazo global al recuperar un conjunto de tokens de vecinos más cercanos en cada instante de tiempo. Diseñamos una función de compuerta para combinar de manera adaptativa múltiples fuentes de información para hacer una predicción. Este mecanismo permite al modelo utilizar ya sea contexto local, memoria a corto plazo o memoria a largo plazo (o cualquier combinación de ellos) de manera ad hoc dependiendo del contexto. Experimentos en conjuntos de datos de modelado de lenguaje basados en palabras y caracteres demuestran la eficacia de nuestro método propuesto en comparación con líneas base sólidas.
Yogatama et al. (Fri,) estudiaron esta cuestión.
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: