Key points are not available for this paper at this time.
Nous présentons CamelParser2.0, un analyseur de dépendance arabe open-source basé sur Python visant deux formalismes de dépendance arabe populaires, le Columbia Arabic Treebank (CATiB) et Universal Dependencies (UD). Le pipeline de CamelParser2.0 gère le traitement du texte brut et produit la tokenisation, les parties du discours et des caractéristiques morphologiques riches. Dans le cadre du développement de CamelParser2.0, nous explorons de nombreux hyperparamètres de conception du système, tels que l'architecture du modèle de parsing et la sélection de modèles linguistiques pré-entraînés, atteignant de nouvelles performances à la pointe de la technologie à travers divers genres arabes dans des configurations de tokenisation dorée et prédite.
Elshabrawy et al. (Sun,) ont étudié cette question.