March 2, 2023Open Access

Ajuste fino eficiente en parámetros de modelos de lenguaje preentrenados a gran escala

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Resumen Con la prevalencia de los modelos de lenguaje preentrenados (PLMs) y el paradigma de preentrenamiento-ajuste fino, se ha demostrado de manera continua que los modelos más grandes tienden a ofrecer un mejor rendimiento. Sin embargo, a medida que los PLMs aumentan de escala, ajustar fino y almacenar todos los parámetros resulta prohibitivamente costoso y eventualmente se vuelve prácticamente inviable. Esto requiere una nueva línea de investigación centrada en la adaptación eficiente en parámetros de los PLMs, que optimiza una pequeña porción de los parámetros del modelo mientras mantiene el resto fijos, reduciendo drásticamente los costos de computación y almacenamiento. En general, se demuestra que los modelos a gran escala pueden ser efectivamente estimulados por la optimización de unos pocos parámetros. A pesar de los diversos diseños, aquí discutimos y analizamos los enfoques bajo un término más consistente y accesible denominado «delta-tuning», donde «delta», una notación matemática frecuentemente usada para denotar cambios, se utiliza para referirse a la porción de parámetros que se «cambian» durante el entrenamiento. Describimos formalmente el problema y proponemos un criterio unificado de categorización para los métodos existentes de delta-tuning para explorar sus correlaciones y diferencias. También discutimos los principios teóricos que subyacen a la efectividad del delta-tuning e interpretamos estos desde las perspectivas de optimización y control óptimo. Además, presentamos un estudio empírico holístico en más de 100 tareas de procesamiento de lenguaje natural e investigamos varios aspectos del delta-tuning. Con un estudio y análisis exhaustivos, nuestra investigación demuestra las propiedades teóricas y prácticas del delta-tuning en la adaptación de los PLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ning Ding

Jilin University

Yujia Qin

Sun Yat-sen University

Guang Yang

Sun Yat-sen University

Journals

Nature Machine Intelligence

Actions

Institutions

Tsinghua University

Tsinghua–Berkeley Shenzhen Institute

Beijing Academy of Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Ajuste fino eficiente en parámetros de modelos de lenguaje preentrenados a gran escala

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider