Key points are not available for this paper at this time.
L'efficacité et l'intégrité éthique des grands modèles de langage (LLMs) sont profondément influencées par la diversité et la qualité de leurs ensembles de données d'entraînement. Cependant, le paysage mondial de l'accessibilité des données présente des défis significatifs, en particulier dans les régions avec des lois strictes sur la confidentialité des données ou des informations open-source limitées. Cet article examine les défis multifacettes associés à l'acquisition de données d'entraînement de haute qualité pour les LLMs, en se concentrant sur la raréfaction des données, les biais et le contenu de faible qualité dans divers contextes linguistiques. Nous soulignons les implications techniques et éthiques de la dépendance à des sources de données disponibles publiquement mais potentiellement biaisées ou non pertinentes, ce qui peut conduire à la génération de contenu biaisé ou illusoire par les LLMs. À travers une série d'évaluations utilisant GPT-4 et GPT-4o, nous démontrons comment ces contraintes de données affectent négativement la performance des modèles et leur alignement éthique. Nous proposons et validons plusieurs stratégies d'atténuation conçues pour améliorer la qualité des données et la robustesse des modèles, y compris des techniques avancées de filtrage des données et des pratiques éthiques de collecte de données. Nos résultats soulignent la nécessité d'une approche proactive dans le développement des LLMs qui prend en compte à la fois l'efficacité et les implications éthiques des contraintes de données, visant à favoriser la création de systèmes d'IA plus fiables et universellement applicables.
Yang et al. (Mon,) ont étudié cette question.