July 19, 2010

Modelo de relevancia posicional para retroalimentación de pseudo-relevancia

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La retroalimentación de pseudo-relevancia es una técnica efectiva para mejorar los resultados de recuperación. Los algoritmos de retroalimentación tradicionales utilizan un documento completo de retroalimentación como unidad para extraer palabras para la expansión de consultas, lo cual no es óptimo ya que un documento puede abarcar varios temas diferentes y, por lo tanto, contener mucha información irrelevante. En este artículo, estudiamos cómo seleccionar de manera efectiva las palabras de los documentos de retroalimentación que están enfocadas en el tema de la consulta, basándonos en las posiciones de los términos en los documentos de retroalimentación. Proponemos un modelo de relevancia posicional (PRM) para abordar este problema de manera probabilística unificada. El PRM propuesto es una extensión del modelo de relevancia para explotar las posiciones y proximidad de los términos, con el fin de asignar más peso a las palabras más cercanas a las palabras de la consulta, basándonos en la intuición de que las palabras más cercanas a las palabras de la consulta tienen más probabilidades de estar relacionadas con el tema de la consulta. Desarrollamos dos métodos para estimar el PRM basados en diferentes procesos de muestreo. Los resultados del experimento en dos grandes conjuntos de datos de recuperación muestran que el PRM propuesto es efectivo y robusto para la retroalimentación de pseudo-relevancia, superando significativamente al modelo de relevancia tanto en la retroalimentación basada en documentos como en la retroalimentación basada en pasajes.

Preguntar a la IA

Me gusta

Guardar