El Aprendizaje Composicional Sin Ejemplos (CZSL) busca reconocer combinaciones no vistas de objetos y atributos conocidos aprovechando el conocimiento de composiciones previamente vistas. Los enfoques tradicionales se centran principalmente en desenredar atributos y objetos, tratándolos como entidades independientes durante el aprendizaje. Sin embargo, esta suposición pasa por alto las restricciones semánticas y las dependencias contextuales dentro de una composición. Por ejemplo, ciertos atributos se emparejan naturalmente con objetos específicos (por ejemplo, "rayado" se aplica a "cebra" o "camisas" pero no a "cielo" o "agua"), mientras que el mismo atributo puede manifestarse de manera diferente según el contexto (por ejemplo, "joven" en "árbol joven" frente a "perro joven"). Así, capturar la interdependencia atributo-objeto sigue siendo un desafío fundamental pero largamente ignorado en CZSL. En este artículo, adoptamos un Marco de Probabilidad Condicional (CPF) para modelar explícitamente las dependencias atributo-objeto. Descomponemos la probabilidad de una composición en dos componentes: la probabilidad de un objeto y la probabilidad condicional de su atributo. Para mejorar el aprendizaje de características de objetos, incorporamos descriptores textuales para resaltar regiones de imagen semánticamente relevantes. Estas características de objeto mejoradas guían luego el aprendizaje de atributos mediante un mecanismo de atención cruzada, asegurando una mejor alineación contextual. Al optimizar conjuntamente la probabilidad del objeto y la probabilidad condicional del atributo, nuestro método capta eficazmente las dependencias composicionales y generaliza bien a composiciones no vistas. Experimentos extensos en múltiples benchmarks de CZSL demuestran la superioridad de nuestro enfoque. El código está disponible aquí.
Wu et al. (Wed,) estudiaron esta cuestión.