Dieser technische Bericht beschreibt unseren Ansatz für Aufgabe 3A der Detection and Classification of Acoustic Scenes and Events (DCASE) 2024, der sich auf die Lokalisation und Detektion von Schallereignissen (SELD) konzentriert. SELD bietet wertvolle Einblicke, indem es die Lokalisation und Detektion von Schallereignissen schätzt und bei verschiedenen maschinellen Kognition Aufgaben wie Umwelterkenntnissen, Navigation und anderen schalllokalisierungsbezogenen Anwendungen hilft. Die Herausforderung in diesem Jahr bewertet Modelle mit entweder nur Audio (Track A) oder audiovisuellen (Track B) Eingaben auf annotierten Aufnahmen realer Schallszenen. Eine bemerkenswerte Änderung in diesem Jahr ist die Einführung der Distanzschätzung, wobei die Bewertungsmetriken entsprechend angepasst wurden, um eine umfassende Bewertung zu ermöglichen. Unser Beitrag ist für Aufgabe A der Herausforderung, die sich auf den Audio-Only-Track konzentriert. Unser Ansatz nutzt Log-Mel-Spektren, Intensitätsvektoren und verwendet mehrere Datenaugmentierungen. Wir schlugen eine auf EINV2 basierende Netzwerkarchitektur vor, die verbesserte Ergebnisse erzielt: einen F-Score von 40,2 %, einen Angular Error (DOA) von 17,7 Grad und einen Relative Distance Error (RDE) von 0,32 im Testset des Entwicklung-Datensatzes 2, 3.
Vo et al. (Wed,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: