Key points are not available for this paper at this time.
Revisitamos o problema clássico da classificação multiclasse com feedback de bandido (Kakade, Shalev-Shwartz e Tewari, 2008), onde cada entrada classifica para um dos K rótulos possíveis e o feedback é restrito a saber se o rótulo previsto está correto ou não. Nossa principal investigação diz respeito à dependência do número de rótulos K e se os limites de arrependimento em T passos nesse contexto podem ser melhorados além da dependência KT exibida por algoritmos existentes. Nossa principal contribuição é mostrar que o arrependimento minimax de bandido multiclasse é, de fato, mais nuançado, e tem a forma (\{|H| + T, KT |{{H|} \}), onde H é a classe de hipóteses subjacente (finita). Em particular, apresentamos um novo algoritmo de classificação de bandido que garante um arrependimento O (|H|+T), melhorando os algoritmos clássicos para classes de hipóteses de tamanho moderado, e fornecemos um limite inferior correspondente estabelecendo a precisão dos limites superiores (até fatores logarítmicos) em todos os regimes de parâmetros.
Erez et al. (Thu,) estudaram essa questão.