La dépendance croissante aux modèles d'IA générative augmente rapidement le volume de données synthétiques, certaines projections suggérant que la plupart des nouvelles données disponibles pour l'entraînement pourraient être générées par machine d'ici 2030. Ce passage à un contenu principalement synthétique présente un défi critique : l'entraînement répété sur des données synthétiques conduit à un phénomène connu sous le nom d'effondrement du modèle, où la performance du modèle se dégrade au fil des générations d'entraînement, rendant finalement les modèles inefficaces. Bien que les causes de l'effondrement du modèle soient de mieux en mieux comprises, les stratégies efficaces d'atténuation restent rares. Nous abordons ce défi en nous appuyant sur une observation clé : les modèles auto-régressifs ont tendance à générer des séquences textuelles auxquelles ils attribuent une forte confiance (c'est-à-dire une haute log-vraisemblance). Sur cette base, nous introduisons la fonction de perte Truncated-Cross-Entropy (TCE). La TCE atténue l'effondrement en ignorant sélectivement les jetons à haute confiance pendant l'entraînement, filtrant ainsi efficacement les artefacts probablement générés par machine du processus d'apprentissage. Nos expériences démontrent que les modèles entraînés avec la TCE non seulement apprennent efficacement, mais présentent également une résilience significativement accrue, supportant plus de 2,3 fois plus de données synthétiques avant le début de l'effondrement. De plus, nous fournissons un benchmark open-source pour la dynamique de l'effondrement dans des contextes de données mixtes. Nos résultats montrent que les objectifs d'entraînement tenant compte de la confiance peuvent retarder substantiellement le début de l'effondrement, offrant un outil pratique et généralisable pour la robustesse des modèles exposés aux données synthétiques.
Shabgahi et al. (Mercredi) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: