Key points are not available for this paper at this time.
我々は、限られた適応性の要件の下で一般化線形文脈バンディット問題を研究する。本論文では、B-GLinCBとRS-GLinCBという2つのアルゴリズムを提案し、それぞれ、確率的文脈を持つバッチ学習と敵対的文脈におけるまれな方針切り替えという2つの広く認められた限られた適応性モデルに対処する。これら2つのモデルに対して、本質的に厳密な後悔の境界を確立する。特に、得られた境界において、基礎となる報酬モデルの非線形性を捉える重要なパラメータへの依存を排除することに成功している。我々のバッチ学習アルゴリズムB-GLinCBは、(T)バッチを持ち、後悔はO(T)としてスケールする。さらに、まれに切り替えるアルゴリズムRS-GLinCBは、方針を最大O(²T)回更新し、O(T)の後悔を達成する。我々の一般化線形文脈バンディットにおける依存関係を排除するアプローチは独立した興味を持つかもしれない。
Sawarni et al.(水曜日)はこの問題を研究した。