August 6, 2020Open Access

Repérage automatique de chiffres arabes et reconnaissance de chiffres manuscrits à l'aide de l'apprentissage par transfert profond dans les registres de population ottomans

Key Points

Key points are not available for this paper at this time.

Abstract

Les manuscrits historiques et la documentation d'archives sont des textes manuscrits qui constituent les sources fondamentales pour l'enquête historique. Les développements récents dans le domaine des humanités numériques et le besoin d'extraire des informations des documents historiques ont accéléré les processus de numérisation. Des méthodes d'apprentissage automatique de pointe sont appliquées pour extraire le sens de ces documents. La segmentation de pages (analyse de mise en page), le repérage de mots-clés, de chiffres et de symboles, ainsi que les algorithmes de reconnaissance de texte manuscrit sont testés sur des documents historiques. Pour la plupart des langues, ces techniques sont largement étudiées et des techniques à haute performance ont été développées. Cependant, les propriétés des scripts arabes (c'est-à-dire, les diacritiques, les styles d'écriture variés, les diacritiques et les ligatures) posent des problèmes supplémentaires à ces algorithmes et, par conséquent, le nombre de recherches est limité. Dans cette recherche, nous avons d'abord repéré automatiquement les chiffres arabes de la toute première série de registres de population de l'Empire ottoman réalisée au milieu du XIXe siècle et reconnu ces chiffres. Ils sont importants car ils contiennent des informations sur le nombre de ménages, les individus enregistrés et les âges des individus. Nous avons appliqué un filtre de couleur rouge pour séparer les chiffres du document en tirant parti de la structure des registres étudiés (les chiffres sont écrits en rouge). Nous avons d'abord utilisé une méthode de segmentation basée sur un CNN pour repérer ces chiffres. Dans la deuxième partie, nous avons annoté un ensemble de données local de chiffres manuscrits arabes à partir des chiffres repérés en sélectionnant ceux à un chiffre et testé la méthode d'apprentissage par transfert profond sur de grands ensembles de données ouvertes de chiffres manuscrits arabes pour la reconnaissance de chiffres. Nous avons obtenu des résultats prometteurs pour la reconnaissance de chiffres dans ces documents historiques.

Bookmark

View Full Paper