Les méthodes d'apprentissage des préférences conventionnelles priorisent souvent les opinions largement répandues lors de l'agrégation des préférences de plusieurs évaluateurs. Cela peut aboutir à des politiques biaisées en faveur de certains types d'opinions ou de groupes et susceptibles de manipulation stratégique. Pour résoudre ce problème, nous développons un nouveau cadre d'apprentissage des préférences capable d'aligner les opinions agrégées et les politiques proportionnellement à la véritable distribution de la population des préférences des évaluateurs. Ancrée dans la théorie du choix social, notre approche infère l'ensemble réalisable des distributions de la population des évaluateurs directement à partir des données de comparaison par paire. En utilisant ces estimations, l'algorithme construit une politique qui satisfait les axiomes fondamentaux de la théorie du choix social, à savoir la monotonie et l'efficacité de Pareto, ainsi que nos nouveaux axiomes d'alignement proportionnel à la population et de manipulabilité bornée par la population. De plus, nous proposons une méthode de relaxation soft-max qui équilibre l'alignement proportionnel à la population avec la sélection du gagnant de Condorcet (qui bat toutes les autres options dans les comparaisons par paire). Enfin, nous validons l'efficacité et l'évolutivité de notre approche à travers des expériences sur des tâches de recommandation tabulaires et l'alignement de modèles de langage de grande taille.
Kim et al. (Jeu,) ont étudié cette question.