January 1, 2022Open Access

Una revisión completa de la summarización de texto en árabe

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La explosión de datos en línea y fuera de línea ha cambiado la forma en que recopilamos, evaluamos y entendemos los datos. A menudo es difícil y consume tiempo comprender grandes documentos de texto y extraer información crucial de ellos. Las técnicas de resumir texto abordan los problemas mencionados comprimiendo textos largos mientras mantienen su contenido esencial. Estas técnicas se basan en la entrega rápida de contenido filtrado y de alta calidad a sus usuarios. Debido a las enormes cantidades de datos generados por la tecnología y diversas fuentes, la resumirización automática de datos a gran escala es un desafío. Hay tres tipos de técnicas automáticas de resumir texto: extractivas, abstractivas e híbridas. Independientemente de estas técnicas anteriores, los resúmenes generados están lejos de la resumirización producida por expertos humanos. Aunque el árabe es un idioma ampliamente hablado que se utiliza frecuentemente para compartir contenido en la web, la resumirización de texto árabe de contenido árabe es limitada y aún inmadura debido a varios problemas, incluyendo la estructura morfológica del idioma árabe, la variedad de dialectos y la falta de fuentes de datos adecuadas. Este artículo revisa enfoques de resumen de texto y modelos recientes de aprendizaje profundo para este enfoque. Además, se centra en los conjuntos de datos existentes para estos enfoques, que también se revisan, junto con sus características y limitaciones. Las métricas más utilizadas para la evaluación de calidad de resumen son ROUGE1, ROUGE2, ROUGE L y Bleu. Se analizan los desafíos encontrados durante los métodos y enfoques de resumir texto árabe y las soluciones propuestas en cada enfoque. Muchos métodos de resumir texto árabe tienen problemas, como la falta de tokens dorados durante las pruebas, palabras fuera de vocabulario (OOV), repetición de oraciones en el resumen, falta de metodologías y arquitecturas sistemáticas estándares, y la complejidad del idioma árabe. Finalmente, proporcionar los corpora requeridos, mejorar la evaluación utilizando representaciones semánticas, la falta de uso de métricas ROUGE en la resumenización abstractiva de texto, y utilizar modelos recientes de aprendizaje profundo para adoptarlos en estudios de resumirización en árabe es una demanda esencial.

Me gusta

Guardar

Ver artículo completo