What type of study is this?

This is a Quantitative Study study.

October 8, 2025Open Access

Un marco de probabilidad condicional para el aprendizaje composicional sin ejemplos

Puntos clave

Nuestro método captura dependencias composicionales y mejora la generalización a composiciones no vistas.
Experimentos en múltiples benchmarks de CZSL demuestran ganancias significativas de rendimiento sobre enfoques tradicionales.
El marco de probabilidad condicional descompone la probabilidad de composición en componentes de objeto y atributo.
Los descriptores textuales mejoran el aprendizaje de características del objeto, asegurando una mejor alineación contextual de los atributos.

Resumen

El Aprendizaje Composicional Sin Ejemplos (CZSL) busca reconocer combinaciones no vistas de objetos y atributos conocidos aprovechando el conocimiento de composiciones previamente vistas. Los enfoques tradicionales se centran principalmente en desenredar atributos y objetos, tratándolos como entidades independientes durante el aprendizaje. Sin embargo, esta suposición pasa por alto las restricciones semánticas y las dependencias contextuales dentro de una composición. Por ejemplo, ciertos atributos se emparejan naturalmente con objetos específicos (por ejemplo, "rayado" se aplica a "cebra" o "camisas" pero no a "cielo" o "agua"), mientras que el mismo atributo puede manifestarse de manera diferente según el contexto (por ejemplo, "joven" en "árbol joven" frente a "perro joven"). Así, capturar la interdependencia atributo-objeto sigue siendo un desafío fundamental pero largamente ignorado en CZSL. En este artículo, adoptamos un Marco de Probabilidad Condicional (CPF) para modelar explícitamente las dependencias atributo-objeto. Descomponemos la probabilidad de una composición en dos componentes: la probabilidad de un objeto y la probabilidad condicional de su atributo. Para mejorar el aprendizaje de características de objetos, incorporamos descriptores textuales para resaltar regiones de imagen semánticamente relevantes. Estas características de objeto mejoradas guían luego el aprendizaje de atributos mediante un mecanismo de atención cruzada, asegurando una mejor alineación contextual. Al optimizar conjuntamente la probabilidad del objeto y la probabilidad condicional del atributo, nuestro método capta eficazmente las dependencias composicionales y generaliza bien a composiciones no vistas. Experimentos extensos en múltiples benchmarks de CZSL demuestran la superioridad de nuestro enfoque. El código está disponible aquí.

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo