Key points are not available for this paper at this time.
Literatura anterior sobre aprendizado não supervisionado se concentrou em projetar priors estruturais com o objetivo de aprender características significativas. No entanto, isso foi feito sem considerar o comprimento da descrição das representações aprendidas, que é uma medida direta e não tendenciosa da complexidade do modelo. Neste artigo, primeiro, introduzimos a métrica φ que avalia modelos não supervisionados com base em sua precisão de reconstrução e no grau de compressão de suas representações internas. Em seguida, apresentamos e definimos duas funções de ativação: Identity e unidade linear retificada (ReLU) como uma base de referência e três funções de ativação esparsas (top-k absolutos, índices Extremum-Pool e Extremum) como estruturas candidatas que minimizam o φ previamente definido. Por último, apresentamos redes ativadas esparsamente (SANs) que consistem em núcleos com pesos compartilhados que, durante a codificação, são convoluídos com a entrada e, em seguida, passados por uma função de ativação esparsa. Durante a decodificação, os mesmos pesos são convoluídos com o mapa de ativação esparsa e, subsequentemente, as reconstruções parciais de cada peso são somadas para reconstruir a entrada. Comparamos as SANs usando as cinco funções de ativação previamente definidas em uma variedade de conjuntos de dados (Physionet, UCI-epilepsy, MNIST e FMNIST) e mostramos que modelos selecionados usando φ têm um pequeno comprimento de representação de descrição e consistem em núcleos interpretáveis.
Shadish et al. (Mon,) estudaram esta questão.