Key points are not available for this paper at this time.
Modelos de aprendizado de máquina geradores de imagens são tipicamente treinados com funções de perda baseadas na distância no espaço das imagens. Isso frequentemente leva a resultados excessivamente suavizados. Propomos uma classe de funções de perda, que chamamos de métricas de similaridade perceptual profunda (DeePSiM), que mitigam esse problema. Em vez de calcular distâncias no espaço das imagens, calculamos distâncias entre as características das imagens extraídas por redes neurais profundas. Essa métrica reflete melhor a similaridade perceptual das imagens e, assim, leva a melhores resultados. Apresentamos três aplicações: treinamento de autoencoders, uma modificação de um autoencoder variacional e inversão de redes neurais convolucionais profundas. Em todos os casos, as imagens geradas parecem nítidas e se assemelham a imagens naturais.
Dosovitskiy et al. (Mon,) estudaram essa questão.