July 26, 2024Open Access

¿A nivel de oración o a nivel de token? Un estudio integral sobre la destilación del conocimiento

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La destilación del conocimiento, transfiriendo conocimiento de un modelo maestro a un modelo estudiante, ha surgido como una técnica poderosa en la traducción automática neural para comprimir modelos o simplificar objetivos de entrenamiento. La destilación del conocimiento abarca dos métodos principales: destilación a nivel de oración y destilación a nivel de token. En la destilación a nivel de oración, se entrena al modelo estudiante para alinearse con la salida del modelo maestro, lo que puede aliviar la dificultad del entrenamiento y proporcionar al modelo estudiante una comprensión integral de la estructura global. De manera diferente, la destilación a nivel de token requiere que el modelo estudiante aprenda la distribución de salida del modelo maestro, facilitando una transferencia de conocimiento más detallada. Los estudios han revelado desempeños divergentes entre la destilación a nivel de oración y la destilación a nivel de token en diferentes escenarios, lo que lleva a confusiones sobre la selección empírica de los métodos de destilación del conocimiento. En este estudio, sostenemos que la destilación a nivel de token, con su objetivo más complejo (es decir, distribución), es más adecuada para escenarios “simples”, mientras que la destilación a nivel de oración sobresale en escenarios “complejos”. Para sustentar nuestra hipótesis, analizamos sistemáticamente el rendimiento de los métodos de destilación variando el tamaño del modelo de los modelos estudiantes, la complejidad del texto y la dificultad del procedimiento de decodificación. Mientras que nuestros resultados experimentales validan nuestra hipótesis, definir el nivel de complejidad de un escenario dado sigue siendo una tarea desafiante. Por lo tanto, introducimos un nuevo método híbrido que combina la destilación a nivel de token y la destilación a nivel de oración a través de un mecanismo de compuerta, con el objetivo de aprovechar las ventajas de ambos métodos individuales. Los experimentos demuestran que el método híbrido supera el rendimiento de los métodos de destilación a nivel de token o a nivel de oración y de los trabajos anteriores por un margen, demostrando la efectividad del método híbrido propuesto.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo