Key points are not available for this paper at this time.
Fortschritte in der passiven akustischen Überwachung und im maschinellen Lernen haben zur Beschaffung großer Datensätze für die computergestützte bioakustische Forschung geführt. Dennoch bleibt die Datenknappheit ein Problem für seltene und unterrepräsentierte Arten. Diese Studie untersucht, wie Meta-Informationen die Zero-Shot-Audio-Klassifikation verbessern können, wobei Vogelarten als Fallstudie dienen, aufgrund der Verfügbarkeit von reichhaltigen und vielfältigen Metadaten. Wir untersuchen drei verschiedene Quellen von Metadaten: textuelle Beschreibungen von Vogelgeräuschen, die über (S)Bert kodiert wurden, funktionale Merkmale (Avonet) und Merkmale der Lebensgeschichte von Vögeln (BLH). Als Audiofeatures extrahieren wir Audio-Spektrogramm-Transformer (AST) Einbettungen und projizieren diese auf die Dimension der Hilfsinformationen, indem wir eine einzelne lineare Schicht übernehmen. Anschließend verwenden wir das Skalarprodukt als Kompatibilitätsfunktion und einen standardisierten Zero-Shot-Lernranking-Hinge-Loss, um die korrekte Klasse zu bestimmen. Die besten Ergebnisse wurden durch die Verkettung der Avonet- und BLH-Merkmale erzielt, die einen ungewichteten Mittelwert von F1-Score von .233 über fünf verschiedene Testsets mit 8 bis 10 Klassen erreichen.
Gebhard et al. (Mon,) untersuchten diese Frage.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: