Key points are not available for this paper at this time.
Echte Empfehlungs Systeme müssen häufig mehrere Ziele ausbalancieren, wenn sie entscheiden, welche Empfehlungen den Nutzern präsentiert werden sollen. Dazu gehören Verhaltenssignale (z.B. Klicks, Shares, Verweildauer) sowie breitere Ziele (z.B. Diversität, Fairness). Skalarisationsmethoden werden häufig verwendet, um diese Ausgleichsaufgabe zu bewältigen, bei denen ein gewogener Durchschnitt der belohnungssignale pro Ziel den finalen Score bestimmt, der für das Ranking verwendet wird. Natürlich ist es entscheidend für den Erfolg jeder Online-Plattform, wie diese Gewichte genau berechnet werden. Wir formulieren dies als Entscheidungsfindungsaufgabe, bei der die Skalarisationsgewichte Aktionen sind, die unternommen werden, um eine allgemeine North-Star-Belohnung (z.B. langfristige Nutzerbindung oder Wachstum) zu maximieren. Wir erweitern bestehende Policy-Learning-Methoden auf den kontinuierlichen multivariaten Aktionsbereich und schlagen vor, eine pessimistische Untergrenze für die North-Star-Belohnung zu maximieren, die die erlernte Policy erzielen wird. Typische Untergrenzen, die auf normalen Annäherungen basieren, leiden unter unzureichender Abdeckung, und wir schlagen eine effiziente und effektive policyabhängige Korrektur dafür vor. Wir geben Anleitungen zur Gestaltung stochastischer Datensammlungsrichtlinien sowie zu hochsensiblen Belohnungssignalen. Empirische Beobachtungen aus Simulationen, Offline- und Online-Experimenten verdeutlichen die Wirksamkeit unseres eingesetzten Ansatzes.
Jeunen et al. (Fr,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: