Key points are not available for this paper at this time.
Cet article présente un examen complet des fonctions de perte et des métriques de performance dans l'apprentissage profond, mettant en lumière les développements clés et les perspectives pratiques dans divers domaines d'application. Nous commençons par décrire les considérations fondamentales dans des tâches classiques telles que la régression et la classification, puis nous étendons notre analyse à des domaines spécialisés comme la vision par ordinateur et le traitement du langage naturel, y compris la génération augmentée par récupération. Dans chaque contexte, nous examinons systématiquement comment différentes fonctions de perte et métriques d'évaluation peuvent être associées pour relever des défis spécifiques à chaque tâche, tels que le déséquilibre entre les classes, les points aberrants et l'optimisation au niveau des séquences. Les contributions clés de ce travail incluent : (1) un cadre unifié pour comprendre comment les pertes et les métriques s'alignent avec différents objectifs d'apprentissage, (2) une discussion approfondie des configurations multi-pertes qui équilibrent des objectifs concurrents, et (3) de nouvelles perspectives sur des métriques spécialisées utilisées pour évaluer des applications modernes comme la génération augmentée par récupération, où la fidélité et la pertinence contextuelle sont cruciales. En cours de route, nous mettons en évidence les meilleures pratiques pour sélectionner ou combiner les pertes et les métriques en fonction des comportements empiriques et des contraintes du domaine. Enfin, nous identifions des problèmes ouverts et des directions prometteuses, y compris l'automatisation de la recherche de fonctions de perte et le développement de mesures d'évaluation robustes et interprétables pour des tâches d'apprentissage profond de plus en plus complexes. Notre revue vise à doter les chercheurs et les praticiens d'une orientation plus claire dans la conception de pipelines d'entraînement efficaces et d'évaluations fiables de modèles pour un large éventail d'applications réelles.
Terven et al. (Fri,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: