Ouvindo e Vendo Através do CLIP: Uma Estrutura para Localização de Fontes Sonoras Auto-supervisionada | Synapse