Los puntos clave no están disponibles para este artículo en este momento.
Presentamos BitFit, un método de ajuste fino escaso donde solo se modifican los términos de sesgo del modelo (o un subconjunto de ellos). Mostramos que, con datos de entrenamiento pequeños a medianos, aplicar BitFit en modelos BERT preentrenados es competitivo (y a veces mejor) que ajustar finamente todo el modelo. Para datos más grandes, el método es competitivo con otros métodos de ajuste fino escaso. Además de su utilidad práctica, estos hallazgos son relevantes para la cuestión de entender el proceso comúnmente utilizado de ajuste fino: apoyan la hipótesis de que el ajuste fino se trata principalmente de exponer el conocimiento inducido por el entrenamiento en modelado de lenguaje, en lugar de aprender nuevo conocimiento lingüístico específico para la tarea.
Zaken et al. (Sat,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: