Resumo Modelos de linguagem de visão em larga escala demonstram forte alinhamento e generalização multimodal em diversas tarefas. Entre eles, o CLIP se destaca como uma das abordagens mais bem-sucedidas. Neste trabalho, estendemos a aplicação do CLIP para localização de fonte sonora, propondo um método auto-supervisionado que opera sem entrada textual explícita. Introduzimos um framework que mapeia áudios em tokens compatíveis com o codificador de texto do CLIP, produzindo embeddings guiados por áudio. Esses embeddings são usados para gerar máscaras de regiões sonoras, das quais características visuais são extraídas e alinhadas com os embeddings de áudio através de um objetivo de correspondência contrastiva áudio-visual. Nossas descobertas mostram que o conhecimento de alinhamento de um modelo fundacional multimodal pré-treinado permite que nosso método gere uma localização mais completa e compacta para objetos sonoros. Propomos ainda uma extensão guiada por LLM que destila a compreensão de cena áudio-visual consciente dos objetos no modelo durante o treinamento para melhorar o alinhamento. Experimentos extensivos em cinco tarefas diversas demonstram que nosso método, em todas as variantes, supera abordagens de estado da arte e alcança uma forte generalização em configurações de zero-shot.
Park et al. (Mon,) estudaram esta questão.