Communiquer efficacement des connaissances structurées demeure un défi majeur du traitement automatique des langues (TAL), en particulier dans le contexte de la génération automatique de texte (GAT). Bien que les données structurées telles que les graphes de type RDF (Resource Description Framework ) utilisés dans le Web sémantique, et les graphes de type AMR (Abstract Meaning Representation) utilisés pour la représentation du sens d'énoncés permettent aux machines de représenter les connaissances avec clarté et cohérence, le langage naturel reste le moyen le plus adapté à la communication humaine. Cette thèse vise à faire progresser la génération de texte à partir de graphes (Graph-to-Text, G2T) en améliorant la fluidité et la fidélité sémantique des textes générés dans les langues bien ou moins bien dotées. Le principal obstacle traité dans ce travail est celui de la rareté des données parallèles graphe-textes, surtout pour les langues dites peu dotées, ce qui freine le développement et l'évaluation de systèmes G2T multilingues. Pour y remédier, cette thèse propose deux stratégies exploitant l'information phylogénétique (famille de langue) afin de guider l'apprentissage. La première stratégie introduit un pré-apprentissage monolingue de débruitage avec des prompts "souples" (soft prompts) incluant des informations phylogénétiques, suivi d'un ajustement (fine-tuning) complet, pour améliorer la génération de texte à partir de graphes RDF dans des langues celtiques sous-représentées. La deuxième stratégie présente un cadre multilingue de génération de texte à partir de graphes AMR reposant sur des données d'entraînement synthétiques, et d'adaptation de faible rang quantifiée (Quantized Low-Rank Adapters, QLoRA) également guidée par de l'information phylogénétique. Les deux approches montrent des gains constants de qualité, en particulier dans les langues pour lesquelles les données annotées sont limitées, ceci grâce à un transfert interlinguistique optimisé et à une maîtrise du bruit d'entraînement. Au-delà de la génération, la thèse s'intéresse également aux méthodes d'évaluation actuelles, et cherche à dépasser les limites des métriques basées sur la référence, en particulier dans le cas des langues sous-dotées. À cet égard, cette thèse propose une métrique multilingue et sans référence pour l'évaluation de textes générés à partir de graphes RDF. En s'appuyant sur des techniques d'inférence en langage naturel (Natural Language Inference, NLI), celle-ci mesure directement la fidélité sémantique entre le graphe d'entrée et le texte généré sous forme de précision, rappel et F1 sémantiques, pour diverses langues. Ces contributions améliorent collectivement l'inclusivité et la fiabilité de la génération et de l'évaluation G2T multilingues. En abordant la question de la rareté des données via le transfert phylogénétique et en proposant des cadres d'évaluation fondés sur des principes solides, ce travail soutient la démocratisation des technologies de traitement de la langue et un accès équitable à la connaissance structurée.
William Soto Martinez (Tue,) studied this question.