What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 10, 2025Open Access

Au-delà du RLHF et du NLHF : alignement proportionnel à la population dans un cadre axiomatique

Key Points

Le cadre aligne les politiques sur les préférences des évaluateurs, en traitant les biais des méthodes conventionnelles.
Les résultats clés ont révélé l'évolutivité et l'efficacité du modèle dans les tâches de recommandation et l'alignement des modèles de langage.
En utilisant des données de comparaison par paire, l'approche infère des distributions de population pour éclairer la prise de décision politique.
L'algorithme proposé met l'accent sur la monotonie et l'efficacité de Pareto ainsi que sur de nouveaux axiomes pour l'alignement.

Abstract

Les méthodes d'apprentissage des préférences conventionnelles priorisent souvent les opinions largement répandues lors de l'agrégation des préférences de plusieurs évaluateurs. Cela peut aboutir à des politiques biaisées en faveur de certains types d'opinions ou de groupes et susceptibles de manipulation stratégique. Pour résoudre ce problème, nous développons un nouveau cadre d'apprentissage des préférences capable d'aligner les opinions agrégées et les politiques proportionnellement à la véritable distribution de la population des préférences des évaluateurs. Ancrée dans la théorie du choix social, notre approche infère l'ensemble réalisable des distributions de la population des évaluateurs directement à partir des données de comparaison par paire. En utilisant ces estimations, l'algorithme construit une politique qui satisfait les axiomes fondamentaux de la théorie du choix social, à savoir la monotonie et l'efficacité de Pareto, ainsi que nos nouveaux axiomes d'alignement proportionnel à la population et de manipulabilité bornée par la population. De plus, nous proposons une méthode de relaxation soft-max qui équilibre l'alignement proportionnel à la population avec la sélection du gagnant de Condorcet (qui bat toutes les autres options dans les comparaisons par paire). Enfin, nous validons l'efficacité et l'évolutivité de notre approche à travers des expériences sur des tâches de recommandation tabulaires et l'alignement de modèles de langage de grande taille.

Au-delà du RLHF et du NLHF : alignement proportionnel à la population dans un cadre axiomatique

Key Points

Abstract

Cite This Study