Los puntos clave no están disponibles para este artículo en este momento.
Presentamos una investigación sobre núcleos de secuencia de caracteres y palabras recientemente propuestos para la tarea de atribución de autoría basada en textos relativamente cortos. Se compara el rendimiento con dos enfoques probabilísticos correspondientes basados en cadenas de Markov. Se estudian varias configuraciones de los núcleos de secuencia en un conjunto de datos relativamente grande (50 autores), donde cada autor cubría varios temas. Utilizando suavizado de Moffat, los dos enfoques probabilísticos obtienen un rendimiento similar, que a su vez es comparable al de los núcleos de secuencia de caracteres y es mejor que el de los núcleos de secuencia de palabras. Los resultados sugieren además que cuando se utiliza un entorno realista que toma en cuenta el caso de textos que no están escritos por ningún autor hipotetizado, la cantidad de material de entrenamiento tiene más influencia en el rendimiento de discriminación que la cantidad de material de prueba. Además, mostramos que el enfoque de desenmascaramiento de autores recientemente propuesto es menos útil al tratar con textos cortos.
Sanderson et al. (Sun,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: