Key points are not available for this paper at this time.
Traditionelle audio-visuelle Methoden basieren auf unabhängigen Audio- und visuellen Backbones, was kostspielig und nicht skalierbar ist. In dieser Arbeit untersuchen wir die Verwendung eines audio-visuellen Siamese-Netzwerks (AVSiam) für ein effizientes und skalierbares audio-visuelles Pretraining. Unser Framework verwendet eine einzelne geteilte Vision-Transformer-Architektur, um Audio- und visuelle Eingaben zu verarbeiten, was die Parameter-Effizienz verbessert, den GPU-Speicherbedarf reduziert und es uns ermöglicht, unsere Methode auf größere Datensätze und Modellgrößen zu skalieren. Wir trainieren unser Modell mit einem kontrastiven audio-visuellen Abstimmungsziel unter Verwendung eines multi-ratio zufälligen Maskierungsplans, der es unserem Modell ermöglicht, größere audio-visuelle Instanzbatches zu verarbeiten, was für kontrastives Lernen hilfreich ist. Im Gegensatz zu früheren audio-visuellen Methoden kann unsere Methode robust mit Audio-, visuellen und audio-visuellen Eingaben umgehen, indem sie ein einzelnes geteiltes ViT-Backbone verwendet. Darüber hinaus erreicht AVSiam trotz der Verwendung desselben Backbones für beide Modalitäten wettbewerbsfähige oder sogar bessere Ergebnisse als frühere Methoden auf AudioSet und VGGSound für die audio-visuelle Klassifizierung und Abruf. Unser Code ist verfügbar unter https://github.com/GenjiB/AVSiam.
Lin et al. (Thu,) haben diese Frage untersucht.