Key points are not available for this paper at this time.
Nous proposons une approche d'apprentissage semi-supervisé pour la classification vidéo, VideoSSL, utilisant des réseaux de neurones convolutifs (CNN). Comme d'autres tâches de vision par ordinateur, les méthodes de classification vidéo supervisées existantes nécessitent une grande quantité de données étiquetées pour obtenir de bonnes performances. Cependant, l'annotation d'un grand ensemble de données est coûteuse et chronophage. Pour minimiser la dépendance à un grand ensemble de données annotées, notre méthode semi-supervisée proposée s'entraîne à partir d'un petit nombre d'exemples étiquetés et exploite deux signaux régulateurs provenant de données non étiquetées. Le premier signal est les pseudo-étiquettes des exemples non étiquetés calculées à partir des confiances du CNN en cours d'entraînement. L'autre est les probabilités normalisées, telles que prédites par un CNN classificateur d'images, qui capturent les informations sur les apparences des objets intéressants dans la vidéo. Nous montrons que, sous la supervision de ces signaux directeurs provenant d'exemples non étiquetés, un CNN de classification vidéo peut atteindre des performances impressionnantes en utilisant une petite fraction d'exemples annotés sur trois ensembles de données disponibles publiquement : UCF101, HMDB51 et Kinetics.
Jing et al. (Ven,) ont étudié cette question.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: