Los puntos clave no están disponibles para este artículo en este momento.
Resumen Con la prevalencia de los modelos de lenguaje preentrenados (PLMs) y el paradigma de preentrenamiento-ajuste fino, se ha demostrado de manera continua que los modelos más grandes tienden a ofrecer un mejor rendimiento. Sin embargo, a medida que los PLMs aumentan de escala, ajustar fino y almacenar todos los parámetros resulta prohibitivamente costoso y eventualmente se vuelve prácticamente inviable. Esto requiere una nueva línea de investigación centrada en la adaptación eficiente en parámetros de los PLMs, que optimiza una pequeña porción de los parámetros del modelo mientras mantiene el resto fijos, reduciendo drásticamente los costos de computación y almacenamiento. En general, se demuestra que los modelos a gran escala pueden ser efectivamente estimulados por la optimización de unos pocos parámetros. A pesar de los diversos diseños, aquí discutimos y analizamos los enfoques bajo un término más consistente y accesible denominado «delta-tuning», donde «delta», una notación matemática frecuentemente usada para denotar cambios, se utiliza para referirse a la porción de parámetros que se «cambian» durante el entrenamiento. Describimos formalmente el problema y proponemos un criterio unificado de categorización para los métodos existentes de delta-tuning para explorar sus correlaciones y diferencias. También discutimos los principios teóricos que subyacen a la efectividad del delta-tuning e interpretamos estos desde las perspectivas de optimización y control óptimo. Además, presentamos un estudio empírico holístico en más de 100 tareas de procesamiento de lenguaje natural e investigamos varios aspectos del delta-tuning. Con un estudio y análisis exhaustivos, nuestra investigación demuestra las propiedades teóricas y prácticas del delta-tuning en la adaptación de los PLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ning Ding
Jilin University
Yujia Qin
Sun Yat-sen University
Guang Yang
Sun Yat-sen University
Nature Machine Intelligence
Tsinghua University
Tsinghua–Berkeley Shenzhen Institute
Beijing Academy of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Ding et al. (Thu,) estudiaron esta cuestión.
synapsesocial.com/papers/69d8a176183921ebcaae2fe7 — DOI: https://doi.org/10.1038/s42256-023-00626-4
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: