Key points are not available for this paper at this time.
Die Fähigkeit, die zugrunde liegenden Dynamiken visuelle Szenen zu modellieren und über die Zukunft nachzudenken, ist zentral für die menschliche Intelligenz. Viele Versuche wurden unternommen, intelligente Systeme mit einem solchen physikalischen Verständnis und Vorhersagefähigkeiten auszustatten. Die meisten bestehenden Methoden konzentrieren sich jedoch auf die Pixel-zu-Pixel-Vorhersage, die mit hohen Rechenkosten verbunden ist und gleichzeitig ein tiefes Verständnis der physikalischen Dynamik hinter Videos vermissen lässt. In letzter Zeit sind objektzentrierte Vorhersagemethoden entstanden, die zunehmendes Interesse geweckt haben. Inspiriert davon schlägt dieses Papier ein unbeaufsichtigtes objektzentriertes Vorhersagemodell vor, das zukünftige Vorhersagen durch das Lernen visueller Dynamiken zwischen Objekten trifft. Unser Modell besteht aus zwei Modulen: dem Wahrnehmungsmodul und dem Dynamikmodul. Das Wahrnehmungsmodul wird verwendet, um Bilder in mehrere Objekte zu zerlegen und Bilder mit einer Reihe objektzentrierter Darstellungen zu synthetisieren. Das Dynamikmodul fusioniert kontextuelle Informationen, berücksichtigt Umwelt-Objekt- und Objekt-Objekt-Interaktionen und sagt die zukünftige Trajektorie von Objekten voraus. Umfangreiche Experimente werden durchgeführt, um die Wirksamkeit der vorgeschlagenen Methode zu validieren. Sowohl quantitative als auch qualitative experimentelle Ergebnisse zeigen, dass unser Modell gegenüber den modernsten Methoden eine höhere visuelle Qualität und physikalisch zuverlässigere Vorhersagen generiert.
Xu et al. (Fri,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: