June 5, 2024Open Access

Uma Visão Geométrica da Complexidade de Dados: Estimativa Eficiente da Dimensão Intrínseca Local com Modelos de Difusão

Key Points

Key points are not available for this paper at this time.

Abstract

Dados de alta dimensão comumente se encontram em submanifolds de baixa dimensão, e estimar a dimensão intrínseca local (LID) de um dado — ou seja, a dimensão do submanifold ao qual pertence — é um problema antigo. A LID pode ser entendida como o número de fatores locais de variação: quanto mais fatores de variação um dado possui, mais complexo tende a ser. Estimar essa quantidade tem se mostrado útil em contextos que vão desde a generalização em redes neurais até a detecção de dados fora da distribuição, exemplos adversariais e texto gerado por IA. Os recentes sucessos de modelos generativos profundos apresentam uma oportunidade para aproveitá-los na estimativa de LID, mas os métodos atuais baseados em modelos generativos produzem estimativas imprecisas, requerem mais de um único modelo pré-treinado, são computacionalmente intensivos ou não exploram os melhores modelos generativos profundos disponíveis, ou seja, modelos de difusão (DMs). Neste trabalho, mostramos que a equação de Fokker-Planck associada a um DM pode fornecer um estimador de LID que aborda todas as deficiências mencionadas. Nosso estimador, chamado FLIPD, é compatível com todos os DMs populares e supera as linhas de base existentes em benchmarks de estimativa de LID. Também aplicamos o FLIPD em imagens naturais onde a verdadeira LID é desconhecida. Comparado a estimadores concorrentes, o FLIPD apresenta uma correlação maior com medidas de complexidade não-LID, melhor corresponde a uma avaliação qualitativa de complexidade e é o único estimador que permanece tratável com imagens de alta resolução na escala da Difusão Estável.

Uma Visão Geométrica da Complexidade de Dados: Estimativa Eficiente da Dimensão Intrínseca Local com Modelos de Difusão

Key Points

Abstract

Cite This Study