Les récents progrès des grands modèles linguistiques (LLMs) ont permis leur utilisation généralisée dans diverses applications réelles. Cependant, des préoccupations subsistent quant à leur tendance à encoder et reproduire des biais idéologiques sur les dimensions politique et économique. Dans cet article, nous utilisons un cadre permettant d'explorer et d'atténuer ces biais dans les LLMs basés sur le décodeur via l'analyse des représentations internes des modèles. Basée sur le Political Compass Test (PCT), cette méthode utilise des paires contrastives pour extraire et comparer les activations des couches cachées de modèles tels que Mistral et DeepSeek. Nous introduisons un pipeline complet d'extraction d'activations capable d'une analyse couche par couche à travers plusieurs axes idéologiques, révélant des disparités significatives liées au cadrage politique. Nos résultats montrent que les LLMs décodeurs encodent systématiquement un biais de représentation à travers les couches, ce qui peut être exploité pour une atténuation efficace basée sur des vecteurs de direction. Ce travail apporte de nouvelles perspectives sur la façon dont le biais politique est encodé dans les LLMs et offre une approche raisonnée pour la déconstruction des biais au-delà des simples interventions sur les sorties de surface.
Building similarity graph...
Analyzing shared references across papers
Loading...
Afrozah Nadeem
Mark Dras
Usman Naseem
Building similarity graph...
Analyzing shared references across papers
Loading...
Nadeem et al. (Tue,) ont étudié cette question.
www.synapsesocial.com/papers/68d6d82e8b2b6861e4c3e09f — DOI: https://doi.org/10.48550/arxiv.2508.08846
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: