January 1, 2025Open Access

Vergleichende Bewertung des mittleren kumulativen Bedauerns bei Multi-Armed Bandit-Algorithmen: ETC, UCB, asymptotisch optimaler UCB und TS

Key Points

Key points are not available for this paper at this time.

Abstract

Diese Forschung bietet Einblicke, wie man Entscheidungen auf kurze und lange Sicht bei verschiedenen Arten des Multi-Armed Bandit (MAB)-Problems, einem klassischen Problem des Entscheidens unter Unsicherheit, angehen kann. In dieser Studie werden vier Algorithmen - Explore-Then-Commit (ETC), der Upper Confidence Bound (UCB), asymptotisch optimaler UCB und Thompson Sampling-Algorithmen (TS) - ausgewählt, um das MAB-Problem mit numerischen und kategorialen Typen zu lösen. Verschiedene Typen repräsentieren unterschiedliche Werteintervalle. Jeder Algorithmus wird auf jedem Datensatz mit zwei unterschiedlichen Horizonten angewendet, die die Anzahl der Iterationen darstellen, um dessen Entscheidungsfähigkeit auf kurze und lange Sicht zu bewerten. Alle Algorithmen werden dann in jedem Datensatz verwendet, um zu vergleichen, welcher am besten geeignet ist, um einen bestimmten Typ von MAB-Problem zu lösen. Diese Forschung bietet eine explizite Einführung in das MAB-Problem und die vier Algorithmen. Darüber hinaus wird festgestellt, dass sowohl der asymptotisch optimale UCB als auch TS für Entscheidungen auf kurzer und langer Sicht geeignet sind. Gleichzeitig ist der asymptotisch optimale UCB am besten geeignet für das numerische MAB-Problem, während TS am besten für das kategoriale MAB-Problem geeignet ist. Darüber hinaus eignet sich UCB nur für kurzfristige Entscheidungen, während ETC nur im numerischen MAB-Problem effizient sein kann.

Bookmark

View Full Paper

Bookmark

View Full Paper

Vergleichende Bewertung des mittleren kumulativen Bedauerns bei Multi-Armed Bandit-Algorithmen: ETC, UCB, asymptotisch optimaler UCB und TS

Key Points

Abstract

Cite This Study