Autoencoders Esporádicos (SAEs) surgiram como uma abordagem promissora para interpretar representações de redes neurais ao aprender características esporádicas e interpretáveis para humanos a partir de ativações densas. Investigamos se a incorporação de métodos variacionais nas arquiteturas SAE pode melhorar a organização e a interpretabilidade das características. Introduzimos o Autoencoder Esporádico Variacional (vSAE), que substitui a ativação ReLU determinística por amostragem estocástica a partir de posterioris Gaussianos aprendidos e incorpora regularização de divergência KL em relação a um prior normal padrão. Nossa hipótese é que essa amostragem probabilística cria pressão dispersiva, fazendo com que as características se organizem de forma mais coerente no espaço latente enquanto evita sobreposições. Avaliamos um vSAE TopK em comparação a um SAE TopK padrão em ativações de fluxo residual do transformador Pythia-70M utilizando benchmarks abrangentes, incluindo SAE Bench, análise de interpretabilidade de características individuais e visualização global do espaço latente através de t-SNE. O vSAE performou abaixo do SAE padrão em métricas de avaliação principais, embora tenha se destacado em métricas de independência de características e ablação. O termo de divergência KL cria pressão de regularização excessiva que reduz substancialmente a fração de características ativas, levando a uma degradação de desempenho observada. Embora as características do vSAE demonstrem robustez aprimorada, exibem muitas mais características inativas em comparação ao baseline. Nossas descobertas sugerem que a aplicação ingênua de métodos variacionais aos SAEs não melhora a organização ou interpretabilidade das características.
Baker et al. (Sex,) estudaram essa questão.