Los puntos clave no están disponibles para este artículo en este momento.
Proponemos un nuevo método de sintonización de prompts llamado CoAPT (Palabras de Atributo de Contexto en Sintonización de Prompts) para la clasificación de imágenes en pocos/nulos disparos. La motivación principal es que los atributos son palabras descriptivas con rica información sobre un concepto dado. Así, nuestro objetivo es enriquecer las consultas de texto de los métodos de sintonización de prompts existentes, mejorando la alineación entre las incrustaciones de texto e imagen en el espacio de incrustación CLIP. Para ello, CoAPT integra palabras de atributo como prompts adicionales dentro de la sintonización de prompts aprendible y puede ser fácilmente incorporado en varios métodos existentes de sintonización de prompts. Para facilitar la incorporación de atributos en las incrustaciones de texto y la alineación con las incrustaciones de imagen, los prompts suaves se entrenan junto con una meta-red adicional que genera sesgos de características a nivel de imagen de entrada a partir de las codificaciones de características concatenadas de las consultas combinadas de imagen-texto. Nuestros experimentos demuestran que CoAPT conduce a mejoras considerables para los métodos base existentes en varias tareas de clasificación de imágenes en pocos/nulos disparos, incluyendo generalización de base a novel, transferencia entre conjuntos de datos y generalización de dominio. Nuestros hallazgos destacan la importancia de combinar prompts duros y suaves y allanan el camino para futuras investigaciones sobre la interacción entre los espacios latentes de texto e imagen en modelos preentrenados.
Lee et al. (Jue,) estudiaron esta pregunta.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: