Los puntos clave no están disponibles para este artículo en este momento.
Los sistemas de detección de objetos basados en CNN profundas han logrado un éxito notable en varios puntos de referencia de detección de objetos a gran escala. Sin embargo, entrenar detectores de este tipo requiere un gran número de cajas delimitadoras etiquetadas, que son más difíciles de obtener que las anotaciones a nivel de imagen. Trabajos anteriores abordan este problema transformando clasificadores a nivel de imagen en detectores de objetos. Esto se hace modelando las diferencias entre los dos en categorías con anotaciones tanto a nivel de imagen como de cajas delimitadoras, y transfiriendo esta información para convertir clasificadores en detectores para categorías sin anotaciones de cajas delimitadoras. Mejoramos este trabajo previo incorporando conocimiento sobre similitudes de objetos de dominios visuales y semánticos durante el proceso de transferencia. La intuición detrás de nuestro método propuesto es que las categorías visual y semánticamente similares deberían exhibir propiedades transferibles más comunes que las categorías disímiles, por ejemplo, un mejor detector resultaría de transformar las diferencias entre un clasificador de perro y un detector de perro a la clase de gato, que de transformar desde la clase de violín. Los resultados experimentales en el desafiante conjunto de datos de detección ILSVRC2013 demuestran que cada uno de nuestros métodos propuestos de transferencia de conocimiento basada en similitud de objetos supera a los métodos base. Encontramos una fuerte evidencia de que la similitud visual y la relación semántica son complementarias para la tarea, y que al combinarse mejoran notablemente la detección, logrando un rendimiento de detección de vanguardia en un entorno semisupervisado.
Tang et al. (Thu,) estudiaron esta cuestión.