Los puntos clave no están disponibles para este artículo en este momento.
La selección de datos ha surgido como un problema central para el preentrenamiento de modelos de lenguaje visual a gran escala (por ejemplo, CLIP), particularmente con conjuntos de datos ruidosos seleccionados de la web. Tres enfoques principales de selección de datos son: (1) aprovechar modelos externos no-CLIP para ayudar en la selección de datos, (2) entrenar nuevos modelos de incrustación al estilo CLIP que son más efectivos para seleccionar datos de alta calidad que el modelo original CLIP de OpenAI, y (3) diseñar mejores métricas o estrategias aplicables universalmente a cualquier incrustación CLIP sin requerir propiedades específicas del modelo (por ejemplo, CLIPScore es una métrica popular). Mientras que los dos primeros enfoques han sido extensamente estudiados, el tercero permanece poco explorado. En este artículo, avanzamos en el tercer enfoque proponiendo dos nuevos métodos. Primero, en lugar de las puntuaciones CLIP clásicas que solo consideran la alineación entre dos modalidades de una única muestra, introducimos negCLIPLoss, un método inspirado en la pérdida CLIP que añade la alineación entre una muestra y sus pares contrastivos como un término de normalización adicional para una mejor medición de calidad. En segundo lugar, cuando se conocen las tareas descendentes, proponemos una nueva métrica basada en normas, NormSim, para medir la similitud entre los datos de preentrenamiento y los datos objetivo. Probamos nuestros métodos en el punto de referencia de selección de datos, DataComp~gadre2023datacomp. En comparación con la mejor línea base utilizando solo CLIP-L/14 de OpenAI, nuestros métodos logran una mejora del 5.3\% en ImageNet-1k y una mejora del 2.8\% en 38 tareas de evaluación descendentes. Además, tanto negCLIPLoss como NormSim son compatibles con técnicas existentes. Al combinar nuestros métodos con los mejores métodos actuales DFN~fang2023data y HYPE~kim2024hype, podemos aumentar el rendimiento promedio en tareas descendentes en un 0.9\%, logrando un nuevo estado del arte.
Wang et al. (Mié,) estudiaron esta cuestión.