Key points are not available for this paper at this time.
Apesar de os métodos de aprendizado profundo terem alcançado um desempenho notável na classificação de imagens de patologia, eles dependem fortemente de dados rotulados, demandando extensos esforços de anotação humana. Neste estudo, apresentamos um novo método sem anotação humana para classificação de imagens patológicas, aproveitando Modelos de Visão-Linguagem (VLMs) pré-treinados. Sem anotação humana, os rótulos pseudo do conjunto de treinamento são obtidos utilizando as capacidades de inferência zero-shot do VLM, o que pode conter muito ruído devido à mudança de domínio entre os dados de pré-treinamento e o conjunto de dados alvo. Para abordar essa questão, introduzimos o VLM-CPL, uma nova abordagem baseada em rótulos pseudo de consenso que integra duas técnicas de filtragem de rótulos ruidosos com uma estratégia de aprendizado semi-supervisionado. Especificamente, primeiro obtemos rótulos pseudo baseados em prompts com estimativa de incerteza através de inferência zero-shot com o VLM usando múltiplas visualizações aumentadas de uma entrada. Então, aproveitando a capacidade de representação de características do VLM, obtemos rótulos pseudo baseados em características por meio de agrupamento de amostras no espaço de características. O consenso entre prompts e características é introduzido para selecionar amostras confiáveis com base no consenso entre os dois tipos de rótulos pseudo. Ao rejeitar rótulos pseudo de baixa qualidade, propomos ainda a Supervisão Cruzada de Alta Confiança (HCS) para aprender com amostras com rótulos pseudo confiáveis e as amostras não rotuladas restantes. Resultados experimentais mostraram que nosso método obteve uma precisão de 87,1% e 95,1% nos conjuntos de dados HPH e LC25K, respectivamente, e superou amplamente os métodos existentes de classificação zero-shot e aprendizado de rótulos ruidosos. O código está disponível em https://github.com/lanfz2000/VLM-CPL.
Zhong et al. (Sat,) estudaram essa questão.