What type of study is this?

This is a Quantitative Study study.

October 5, 2025Open Access

Análise de Autoencoders Esporádicos Variacionais

Key Points

A introdução do Autoencoder Esporádico Variacional (vSAE) não conseguiu melhorar a organização das características, resultando em degradação de desempenho.
O vSAE foi avaliado em comparação a um Autoencoder Esporádico padrão nos dados Pythia-70M, destacando diferenças em interpretabilidade e independência de características.
A incorporação da divergência KL como um método de regularização levou a uma pressão excessiva, piorando a fração de características ativas no modelo.
Apesar do aumento da robustez, o vSAE exibiu mais características inativas em comparação aos modelos de baseline, indicando limitações da abordagem variacional.

Abstract

Autoencoders Esporádicos (SAEs) surgiram como uma abordagem promissora para interpretar representações de redes neurais ao aprender características esporádicas e interpretáveis para humanos a partir de ativações densas. Investigamos se a incorporação de métodos variacionais nas arquiteturas SAE pode melhorar a organização e a interpretabilidade das características. Introduzimos o Autoencoder Esporádico Variacional (vSAE), que substitui a ativação ReLU determinística por amostragem estocástica a partir de posterioris Gaussianos aprendidos e incorpora regularização de divergência KL em relação a um prior normal padrão. Nossa hipótese é que essa amostragem probabilística cria pressão dispersiva, fazendo com que as características se organizem de forma mais coerente no espaço latente enquanto evita sobreposições. Avaliamos um vSAE TopK em comparação a um SAE TopK padrão em ativações de fluxo residual do transformador Pythia-70M utilizando benchmarks abrangentes, incluindo SAE Bench, análise de interpretabilidade de características individuais e visualização global do espaço latente através de t-SNE. O vSAE performou abaixo do SAE padrão em métricas de avaliação principais, embora tenha se destacado em métricas de independência de características e ablação. O termo de divergência KL cria pressão de regularização excessiva que reduz substancialmente a fração de características ativas, levando a uma degradação de desempenho observada. Embora as características do vSAE demonstrem robustez aprimorada, exibem muitas mais características inativas em comparação ao baseline. Nossas descobertas sugerem que a aplicação ingênua de métodos variacionais aos SAEs não melhora a organização ou interpretabilidade das características.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Baker et al. (Sex,) estudaram essa questão.

synapsesocial.com/papers/68e25382d6d66a53c24747a1 https://doi.org/https://doi.org/10.48550/arxiv.2509.22994

Bookmark

View Full Paper