RÉSUMÉ Les grands modèles de langage (LLMs) ont à maintes reprises montré qu'ils reflétaient des biais systémiques. Parallèlement, les LLMs commerciaux sont mis à jour à un rythme rapide, souvent sans avertir les utilisateurs finaux, de sorte qu'un profil de biais capturé aujourd'hui peut déjà être obsolète demain. Cependant, la littérature s'appuie encore largement sur des évaluations ponctuelles de versions uniques de modèles, laissant un vide dans notre compréhension de l'évolution des biais au fil du temps et de la manière dont ils devraient être surveillés. Nous comblons ce vide en introduisant un cadre pour l'évaluation longitudinale des biais dans les LLMs, en nous concentrant sur le biais politique comme étude de cas. Ce cadre est indépendant du modèle, reproductible et convivial. Il consiste en (i) verrouiller les versions du modèle via des identifiants datés pour garantir la comparabilité temporelle, (ii) des questionnaires multi-invitations sur des déclarations de position pour analyser les biais potentiels ; et (iii) un cadre d'évaluation statistique longitudinale qui quantifie et infère le biais absolu et les dérives entre modèles. De plus, nous suggérons de réaliser (iv) des analyses de corrélation inter-questionnaires pour révéler des biais orthogonaux, ainsi que (v) des analyses de sensibilité sur les mécanismes d'attribution de rôle du modèle pour analyser la robustesse aux instructions concrètes. Tout le code, les invitations et les résultats sont librement disponibles pour faciliter la réplication et l'extension à d'autres analyses de biais. Pour illustrer ce cadre, nous étudions les biais politiques et traits de personnalité de ChatGPT, en comparant spécifiquement GPT-3.5, GPT-4, GPT-4o et GPT-5.2. De plus, la capacité des modèles à émuler des points de vue politiques (par exemple, positions libérales ou conservatrices) est analysée. Sur plus de 4000 réponses générées, nous observons des changements politiques clairs entre les versions : bien que les modèles plus récents semblent moins orientés à gauche, ils reproduisent toujours des profils de personnalité progressistes et présentent des biais. Ces résultats démontrent la persistance et la transformation des biais au cours des mises à jour, soulignant la nécessité d'une surveillance longitudinale.
Aksoy et al. (Sun,) ont étudié cette question.