December 19, 2006Open Access

Uso de ejemplos etiquetados automáticamente para clasificar relaciones retóricas: una evaluación

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Resumen Poder identificar qué relaciones retóricas (por ejemplo, contraste o explicación) existen entre fragmentos de texto es importante para muchas aplicaciones de procesamiento de lenguaje natural. Utilizar el aprendizaje automático para obtener un clasificador que pueda distinguir entre diferentes relaciones normalmente depende de la disponibilidad de datos de entrenamiento etiquetados manualmente, lo cual es muy costoso en tiempo de crear. Sin embargo, las relaciones retóricas a veces están marcadas léxicamente, es decir, señaladas por marcadores del discurso (por ejemplo, porque, pero, en consecuencia, etc.), y se ha sugerido (Marcu y Echihabi, 2002) que la presencia de estas pistas en algunos ejemplos puede ser aprovechada para etiquetarlos automáticamente con la relación correspondiente. Los marcadores del discurso se eliminan y los datos etiquetados automáticamente se utilizan para entrenar un clasificador que determine relaciones incluso cuando no hay marcador del discurso presente (basándose en otras pistas lingüísticas, como las coocurrencias de palabras). En este artículo, investigamos empíricamente cuán factible es este enfoque. En particular, probamos si los ejemplos etiquetados automáticamente y marcados léxicamente son realmente material de entrenamiento adecuado para clasificadores que luego se aplican a ejemplos no marcados. Nuestros resultados sugieren que entrenar con este tipo de datos puede no ser una estrategia tan buena, ya que los modelos entrenados de esta manera no parecen generalizar muy bien a datos no marcados. Además, encontramos algunas evidencias de que este comportamiento es en gran medida independiente de los clasificadores utilizados y parece residir en los propios datos (por ejemplo, ejemplos marcados y no marcados pueden ser demasiado disímiles lingüísticamente y eliminar marcadores inequívocos en el proceso de etiquetado automático puede llevar a un cambio de significado en los ejemplos).

Leer artículo completoexternamente

Me gusta

Guardar

Ver artículo completo