What question did this study set out to answer?

O objetivo é aprimorar a localização de fontes sonoras aplicando o framework CLIP de maneira auto-supervisionada.

March 12, 2026Open Access

A Hearing e a Seeing Through CLIP: Um Framework para Localização de Fonte Sonora Auto-supervisionada

Key Points

O objetivo é aprimorar a localização de fontes sonoras aplicando o framework CLIP de maneira auto-supervisionada.
Desenvolveu um framework mapeando áudio em tokens compatíveis com o codificador de texto do CLIP.
Gerou embeddings guiados por áudio para localização de objetos sonoros.
Utilizou aprendizado contrastivo para alinhar os embeddings de áudio com características visuais.
Propôs uma extensão guiada por LLM para uma melhor compreensão consciente dos objetos.
O método superou abordagens de estado da arte em várias tarefas.
Alcançou forte generalização em configurações de zero-shot.
Gerou localização completa e compacta para objetos sonoros.

Abstract

Resumo Modelos de linguagem de visão em larga escala demonstram forte alinhamento e generalização multimodal em diversas tarefas. Entre eles, o CLIP se destaca como uma das abordagens mais bem-sucedidas. Neste trabalho, estendemos a aplicação do CLIP para localização de fonte sonora, propondo um método auto-supervisionado que opera sem entrada textual explícita. Introduzimos um framework que mapeia áudios em tokens compatíveis com o codificador de texto do CLIP, produzindo embeddings guiados por áudio. Esses embeddings são usados para gerar máscaras de regiões sonoras, das quais características visuais são extraídas e alinhadas com os embeddings de áudio através de um objetivo de correspondência contrastiva áudio-visual. Nossas descobertas mostram que o conhecimento de alinhamento de um modelo fundacional multimodal pré-treinado permite que nosso método gere uma localização mais completa e compacta para objetos sonoros. Propomos ainda uma extensão guiada por LLM que destila a compreensão de cena áudio-visual consciente dos objetos no modelo durante o treinamento para melhorar o alinhamento. Experimentos extensivos em cinco tarefas diversas demonstram que nosso método, em todas as variantes, supera abordagens de estado da arte e alcança uma forte generalização em configurações de zero-shot.

Perguntar à IA

Bookmark

View Full Paper