Los puntos clave no están disponibles para este artículo en este momento.
Recuperar imágenes de peatones utilizando descripciones en lenguaje natural sigue siendo un desafío debido a la prevalencia de anotaciones imperfectas en los datos de entrenamiento del mundo real. La mayoría de los métodos existentes dependen de la fuerte suposición de pares de imágenes y textos alineados perfectamente, ignorando en gran medida el impacto perjudicial del ruido de anotación, que típicamente se manifiesta como descripciones de grano grueso y correspondencias erróneas. Estas imperfecciones degradan severamente el rendimiento y la generalización del modelo. Para abordar estos problemas, proponemos un nuevo marco centrado en dos innovaciones clave. Primero, desarrollamos un mecanismo probabilístico de identificación de ruido que emplea un modelo de mezcla gaussiana de dos canales (GMM) para evaluar la consistencia de alineación tanto a nivel global como local. Segundo, para las muestras identificadas como ruidosas, implementamos un pipeline de síntesis de descripciones que aprovecha un modelo de lenguaje multimodal grande (MLLM) para generar descripciones refinadas. Un módulo de consistencia semántica dinámica luego filtra estos textos sintetizados para asegurar la calidad. Evaluaciones exhaustivas en tres conjuntos de datos de referencia—CUHK-PEDES, ICFG-PEDES y RSTPReid—demuestran el rendimiento superior de nuestro método: ICFG-PEDES Rango-1 = 68.13%, Rango-5 = 83.39%, Rango-10 = 89.02%; RSTPReid Rango-1 = 66.31%, Rango-5 = 86.87%, Rango-10 = 92.01%; CUHK-PEDES Rango-1 = 75.98%, Rango-5 = 90.34%, Rango-10 = 94.32%. Estos resultados muestran mejoras consistentes en el top-k en comparación con métodos anteriores y validan la efectividad de la propuesta de aumento de pseudo-texto consciente del ruido.
Yu et al. (Tue,) estudiaron esta cuestión.