Key points are not available for this paper at this time.
La détection d'objets est une tâche difficile dans le domaine de la compréhension visuelle, et cela l'est encore plus si la supervision doit être faible. Récemment, quelques efforts pour gérer cette tâche sans annotations humaines coûteuses ont été établis par des réseaux de neurones profonds prometteurs. Une nouvelle architecture de réseaux en cascade est proposée pour apprendre un réseau de neurones convolutifs (CNN) dans de telles conditions. Nous introduisons deux de ces architectures, avec soit deux étapes en cascade, soit trois, qui sont entraînées dans un pipeline de bout en bout. La première étape des deux architectures extrait les meilleures candidates de propositions de région spécifiques à la classe en entraînant un réseau entièrement convolutionnel. Dans le cas de l'architecture à trois étapes, l'étape intermédiaire fournit une segmentation d'objet, utilisant la sortie des cartes d'activation de la première étape. L'étape finale des deux architectures est une partie d'un réseau de neurones convolutifs qui effectue un apprentissage par instances multiples sur les propositions extraites dans l'étape précédente(s). Nos expériences sur les ensembles de données PASCAL VOC 2007, 2010, 2012 et les grands ensembles de données d'objets, ILSVRC 2013, 2014 montrent des améliorations dans les domaines de la détection d'objets faiblement supervisée, de la classification et de la localisation.
Diba et al. (Samedi,) ont étudié cette question.