Key points are not available for this paper at this time.
Les avancées récentes en apprentissage profond ont démontré des performances remarquables comparables aux capacités humaines dans diverses tâches de vision par ordinateur supervisées. Cependant, l'hypothèse prévalente d'avoir un vaste ensemble de données d'entraînement englobant toutes les classes avant l'entraînement du modèle diverge souvent des scénarios du monde réel, où la disponibilité limitée de données pour de nouvelles classes est la norme. Le défi émerge de l'intégration transparente de nouvelles classes avec peu d'échantillons dans les données d'apprentissage, exigeant que le modèle s'adapte habilement à ces ajouts sans compromettre ses performances sur les classes de base. Pour répondre à cette exigence, la communauté de recherche a introduit plusieurs solutions dans le domaine de l'apprentissage incrémental de classes à peu d'exemples (FSCIL). Dans cette étude, nous introduisons un cadre FSCIL innovant qui utilise un régularisateur de langage et un régularisateur de sous-espace. Pendant l'entraînement de base, le régularisateur de langage aide à incorporer des informations sémantiques extraites d'un modèle Vision-Langage. Le régularisateur de sous-espace aide à faciliter l'acquisition par le modèle de connexions nuancées entre les sémantiques d'image et de texte inhérentes aux classes de base lors de l'entraînement incrémental. Notre cadre proposé non seulement permet au modèle d'accepter de nouvelles classes avec des données limitées, mais garantit également la préservation des performances sur les classes de base. Pour étayer l'efficacité de notre approche, nous menons des expériences complètes sur trois benchmarks FSCIL distincts, où notre cadre atteint des performances de pointe.
Kumar et al. (Jeudi,) ont étudié cette question.