Key points are not available for this paper at this time.
Les grands modèles de langage (LLMs) exhibent une vaste connaissance du monde, mais la plupart des évaluations ont été limitées à des sujets globaux ou anglocentriques. Cela soulève la question de la performance de ces modèles sur des sujets pertinents pour d'autres cultures, dont la présence sur le web n'est pas très proéminente. Pour combler cette lacune, nous introduisons BertaQA, un ensemble de données de trivia à choix multiples qui est parallèle en anglais et en basque. L'ensemble de données comprend un sous-ensemble local avec des questions liées à la culture basque, et un sous-ensemble global avec des questions d'intérêt plus large. Nous constatons que les LLMs à la pointe de la technologie ont du mal avec la connaissance culturelle locale, même s'ils excellent sur des sujets globaux. Toutefois, nous montrons que la poursuite de l'auto-apprentissage en basque améliore considérablement la performance des modèles sur la culture basque, même lorsqu'ils sont interrogés en anglais. À notre connaissance, il s'agit de la première preuve solide du transfert de connaissance d'une langue à faibles ressources vers une langue à fortes ressources. Notre analyse met en lumière l'interaction complexe entre la langue et la connaissance, et révèle que certaines conclusions antérieures ne tiennent pas complètement lorsqu'elles sont réévaluées sur des sujets locaux. Notre ensemble de données et notre code d'évaluation sont disponibles sous licences ouvertes sur https://github.com/juletx/BertaQA.
Etxaniz et al. (Mar), ont étudié cette question.