Aktuelle Videorepräsentationen verlassen sich stark auf instabile und überfeinert Prioren für Bewegungs- und Erscheinungsmodellierung, d. h. , pixelgenaues Matching und Tracking. Ein Trackingfehler von nur wenigen Pixeln würde zum Zusammenbruch der visuellen Objektrepräsentation führen, ganz zu schweigen von Okklusionen und großen Bewegungen, die häufig in Videos auftreten. Um die oben genannten Verwundbarkeiten zu überwinden, schlägt diese Arbeit raum-zeitlich konsistente Proxy-Knoten vor, um dynamisch sich ändernde Objekte/Szenen im Video darzustellen. Einerseits haben die hierarchischen Proxy-Knoten die Fähigkeit, die Multiskalenstruktur visueller Objekte stabil auszudrücken, sodass sie nicht von akkumulierten Trackingfehlern, langfristigen Bewegungen, Okklusionen und variierenden Blickwinkeln betroffen sind. Andererseits nutzt der Mechanismus zur dynamischen Aktualisierung der Darstellung der Proxy-Knoten die raum-zeitlichen Prioren des Videos, um die Auswirkungen ungenauer Tracker zu mindern, und bewältigt so effektiv drastische Änderungen in Szenen und Objekten. Darüber hinaus ermöglicht die entkoppelte Kodierungsweise der Form- und Texturrepräsentationen über verschiedene visuelle Objekte im Video eine kontrollierbare und feinjustierbare Erscheinungsbearbeitung. Umfangreiche Experimente zeigen, dass die vorgeschlagene Repräsentation eine hohe Video-Rekonstruktionsgenauigkeit mit weniger Parametern erreicht und komplexe Videobearbeitungsaufgaben, einschließlich Video-Inpainting und schlüsselrahmenbasierte zeitlich konsistente Videobearbeitung, unterstützt.
Chen et al. (Tue,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: