March 1, 2024

Un Método de Aprendizaje de Representación de Grafos de Conocimiento Multimodal Basado en Embedding de Hiperplanos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La mayoría de los métodos existentes para el aprendizaje de representación de grafos de conocimiento se centran principalmente en información estructurada y pasan por alto los beneficios potenciales de incorporar información multimodal 14. Además, depender únicamente de tripletas estructurales para el aprendizaje plantea desafíos tales como insuficientes semánticas de características, brechas significativas entre entidades relacionadas y baja similitud 13. Para abordar estos problemas, este documento propone un método de aprendizaje de representación de grafos de conocimiento multimodal basado en embedding de hiperplanos. En primer lugar, se utiliza una red neuronal gráfica como el codificador estructural para aprender las incrustaciones de entidades, mientras que un modelo visual preentrenado se emplea como el codificador de imágenes para aprender las incrustaciones de imágenes. A continuación, las relaciones en cada tripleta se mapean en hiperplanos, y las representaciones de entidades y visuales se proyectan en los hiperplanos de las relaciones para abordar el problema de datos de múltiples relaciones. Finalmente, se utiliza una función de distancia de traducción cruzada para evaluar la probabilidad de autenticidad de cada tripleta y realizar tareas de predicción de enlaces. Los resultados experimentales demuestran la superioridad de este enfoque, con una mejora del 0.87% en Hits@10 en el conjunto de datos WN18-IMG y una mejora del 14.5% en el conjunto de datos FB15K-IMG en comparación con modelos similares.

Preguntar a la IA

Me gusta

Guardar