July 23, 2002

Aprendiendo a emparejar y agrupar grandes conjuntos de datos de alta dimensión para la integración de datos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Parte del proceso de integración de datos es determinar qué conjuntos de identificadores se refieren a las mismas entidades del mundo real. Al integrar bases de datos encontradas en la Web o obtenidas mediante métodos de extracción de información, a menudo es posible resolver este problema explotando similitudes en los nombres textuales utilizados para objetos en diferentes bases de datos. En este documento describimos técnicas para agrupar y emparejar nombres de identificadores que son escalables y adaptativas, en el sentido de que pueden ser entrenadas para obtener un mejor rendimiento en un dominio particular. Una evaluación experimental en varios conjuntos de datos de muestra muestra que el método adaptativo a veces rinde mucho mejor que cualquiera de los dos sistemas de referencia no adaptativos, y es casi siempre competitivo con el mejor sistema de referencia.

Me gusta

Guardar