Key points are not available for this paper at this time.
Les grands modèles de langage (LLMs) sont réputés être partiaux envers certaines cultures en raison de la dominance des données d'entraînement provenant des corpus anglais. Étant donné que les données culturelles multilingues sont souvent coûteuses à collecter, les efforts existants gèrent cela par l'ingénierie des invites ou le pré-entraînement spécifique à la culture. Cependant, ils peuvent négliger la lacune de connaissances des cultures à faibles ressources et nécessiter des ressources informatiques importantes. Dans cet article, nous proposons CultureLLM, une solution rentable pour intégrer les différences culturelles dans les LLMs. CultureLLM adopte le World Value Survey (WVS) comme données sources et génère des données d'entraînement sémantiquement équivalentes via l'augmentation de données sémantiques proposée. En utilisant seulement 50 échantillons sources du WVS avec des données augmentées, nous affinons les LLMs spécifiques à la culture et un modèle unifié (CultureLLM-One) pour 9 cultures couvrant des langues riches et à faibles ressources. Des expériences approfondies sur 60 ensembles de données liés à la culture démontrent que CultureLLM surpasse significativement divers homologues tels que GPT-3.5 (de 8,1 %) et Gemini Pro (de 9,5 %) avec des performances comparables à GPT-4 voire meilleures. Notre étude humaine montre que les échantillons générés sont sémantiquement équivalents aux échantillons originaux, fournissant une solution efficace pour l'augmentation des LLMs.
Li et al. (Thu,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: