January 1, 2006Open Access

Atribución de autoría de texto corto a través de núcleos de secuencia, cadenas de Markov y desenmascaramiento de autores

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Presentamos una investigación sobre núcleos de secuencia de caracteres y palabras recientemente propuestos para la tarea de atribución de autoría basada en textos relativamente cortos. Se compara el rendimiento con dos enfoques probabilísticos correspondientes basados en cadenas de Markov. Se estudian varias configuraciones de los núcleos de secuencia en un conjunto de datos relativamente grande (50 autores), donde cada autor cubría varios temas. Utilizando suavizado de Moffat, los dos enfoques probabilísticos obtienen un rendimiento similar, que a su vez es comparable al de los núcleos de secuencia de caracteres y es mejor que el de los núcleos de secuencia de palabras. Los resultados sugieren además que cuando se utiliza un entorno realista que toma en cuenta el caso de textos que no están escritos por ningún autor hipotetizado, la cantidad de material de entrenamiento tiene más influencia en el rendimiento de discriminación que la cantidad de material de prueba. Además, mostramos que el enfoque de desenmascaramiento de autores recientemente propuesto es menos útil al tratar con textos cortos.

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo