May 9, 2024Open Access

Corrections de base optimales pour les bandits contextuels hors politique

Key Points

Key points are not available for this paper at this time.

Abstract

Le paradigme d'apprentissage hors politique permet aux systèmes de recommandation et aux applications de classement général d'être considérés comme des problèmes de prise de décision, où nous visons à apprendre des politiques décisionnelles qui optimisent une estimation hors ligne non biaisée d'une mesure de récompense en ligne. Avec l'absence de biais vient une variance potentiellement élevée, et des méthodes prévalentes existent pour réduire la variance d'estimation. Ces méthodes utilisent généralement des variates de contrôle, soit additives (c'est-à-dire, corrections de base ou méthodes doubly robustes), soit multiplicatives (c'est-à-dire, auto-normalisation). Notre travail unifie ces approches en proposant un cadre unique basé sur leur équivalence dans des scénarios d'apprentissage. La base de notre cadre est la dérivation d'une correction de base équivalente pour toutes les variates de contrôle existantes. En conséquence, notre cadre nous permet de caractériser l'estimateur non biaisé optimal en termes de variance et de fournir une solution analytique pour celui-ci. Cet estimateur optimal améliore considérablement les performances tant en évaluation qu'en apprentissage, et minimise les exigences en matière de données. Des observations empiriques corroborent nos résultats théoriques.

Read Full Paperexternally

Demander à l'IA

Bookmark

View Full Paper