Los puntos clave no están disponibles para este artículo en este momento.
Mientras que los modelos profundos y grandes preentrenados son el estado del arte para diversas tareas de procesamiento de lenguaje natural, su enorme tamaño plantea desafíos significativos para usos prácticos en entornos con recursos limitados. Trabajos recientes en destilación de conocimiento proponen métodos agnósticos a tareas así como específicos para tareas para comprimir estos modelos, siendo los específicos para tareas a menudo los que producen una tasa de compresión más alta. En este trabajo, desarrollamos un nuevo marco de destilación agnóstico a tareas, XtremeDistilTransformers, que aprovecha la ventaja de los métodos específicos para tareas para aprender un pequeño modelo universal que puede aplicarse a tareas y lenguajes arbitrarios. Con este fin, estudiamos la transferibilidad de varias tareas fuente, recursos de aumento y la arquitectura del modelo para la destilación. Evaluamos el rendimiento de nuestro modelo en múltiples tareas, incluyendo el referente a la Evaluación de Comprensión del Lenguaje General (GLUE), el conjunto de datos SQuAD de respuesta a preguntas y un enorme conjunto de datos NER multilingüe con 41 idiomas. Publicamos tres puntos de control destilados agnósticos a tareas con 13MM, 22MM y 33MM parámetros, obteniendo un rendimiento SOTA en varias tareas.
Mukherjee et al. (mar,) estudiaron esta cuestión.