January 1, 2021Open Access

Modelos de Lenguaje Semiparamétricos Adaptativos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Resumen Presentamos un modelo de lenguaje que combina una gran red neuronal paramétrica (es decir, un transformador) con un componente de memoria episódica no paramétrica en una arquitectura integrada. Nuestro modelo utiliza un contexto de corto plazo ampliado al almacenar en caché los estados ocultos locales—similar a transformer-XL—y una memoria a largo plazo global al recuperar un conjunto de tokens de vecinos más cercanos en cada instante de tiempo. Diseñamos una función de compuerta para combinar de manera adaptativa múltiples fuentes de información para hacer una predicción. Este mecanismo permite al modelo utilizar ya sea contexto local, memoria a corto plazo o memoria a largo plazo (o cualquier combinación de ellos) de manera ad hoc dependiendo del contexto. Experimentos en conjuntos de datos de modelado de lenguaje basados en palabras y caracteres demuestran la eficacia de nuestro método propuesto en comparación con líneas base sólidas.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo

Also Consider

Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context:

Modelos de Lenguaje Semiparamétricos Adaptativos

Puntos clave

Resumen

Cite This Study

Also Consider

Also Consider