May 3, 2024Open Access

Multi-Objective-Empfehlungen mittels multivariatem Policy-Learning

Key Points

Key points are not available for this paper at this time.

Abstract

Echte Empfehlungs Systeme müssen häufig mehrere Ziele ausbalancieren, wenn sie entscheiden, welche Empfehlungen den Nutzern präsentiert werden sollen. Dazu gehören Verhaltenssignale (z.B. Klicks, Shares, Verweildauer) sowie breitere Ziele (z.B. Diversität, Fairness). Skalarisationsmethoden werden häufig verwendet, um diese Ausgleichsaufgabe zu bewältigen, bei denen ein gewogener Durchschnitt der belohnungssignale pro Ziel den finalen Score bestimmt, der für das Ranking verwendet wird. Natürlich ist es entscheidend für den Erfolg jeder Online-Plattform, wie diese Gewichte genau berechnet werden. Wir formulieren dies als Entscheidungsfindungsaufgabe, bei der die Skalarisationsgewichte Aktionen sind, die unternommen werden, um eine allgemeine North-Star-Belohnung (z.B. langfristige Nutzerbindung oder Wachstum) zu maximieren. Wir erweitern bestehende Policy-Learning-Methoden auf den kontinuierlichen multivariaten Aktionsbereich und schlagen vor, eine pessimistische Untergrenze für die North-Star-Belohnung zu maximieren, die die erlernte Policy erzielen wird. Typische Untergrenzen, die auf normalen Annäherungen basieren, leiden unter unzureichender Abdeckung, und wir schlagen eine effiziente und effektive policyabhängige Korrektur dafür vor. Wir geben Anleitungen zur Gestaltung stochastischer Datensammlungsrichtlinien sowie zu hochsensiblen Belohnungssignalen. Empirische Beobachtungen aus Simulationen, Offline- und Online-Experimenten verdeutlichen die Wirksamkeit unseres eingesetzten Ansatzes.

Read Full Paperexternally

KI fragen

Bookmark

View Full Paper