Key points are not available for this paper at this time.
O pré-treinamento de redes neurais convolucionais com estratégias fracas e auto-supervisionadas está se tornando cada vez mais popular para várias tarefas de visão computacional. No entanto, devido à falta de sinais discriminativos fortes, essas representações aprendidas podem se ajustar excessivamente ao objetivo de pré-treinamento (por exemplo, previsão de hashtags) e não generalizar bem para tarefas posteriores. Neste trabalho, apresentamos uma estratégia simples - ClusterFit para melhorar a robustez das representações visuais aprendidas durante o pré-treinamento. Dado um conjunto de dados, nós (a) agrupamos suas características extraídas de uma rede pré-treinada usando k-means e (b) re-treinamos uma nova rede do zero nesse conjunto de dados usando atribuições de cluster como pseudo-rótulos. Demonstramos empiricamente que o agrupamento ajuda a reduzir a informação específica da tarefa de pré-treinamento das características extraídas, minimizando assim o ajuste excessivo ao mesmo. Nossa abordagem é extensível a diferentes estruturas de pré-treinamento - fracas e auto-supervisionadas, modalidades - imagens e vídeos, e tarefas de pré-treinamento - classificação de objetos e ações. Através de extensos experimentos de transferência de aprendizado em 11 diferentes conjuntos de dados-alvo de vocabulários e granularidades variadas, mostramos que o ClusterFit melhora significativamente a qualidade da representação em comparação com os modelos modernos de imagem e vídeo fraco-supervisionados de grande escala (milhões/bilhões) e modelos de imagem auto-supervisionados.
Yan et al. (Mon,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: