August 17, 2025

位置付けを伴う動的アソートメント選択のための最適レートオンライン学習

Key Points

TLR-UCBアルゴリズムを通じて最適な学習効率が達成され、収益生成が向上します。
多項ロジットモデルを使用することで、商品表示の位置が顧客の選択に大きく影響することが示されます。
提案されたEI-TLRポリシーは、未知の位置効果に効果的に対処しながら顧客の嗜好を推定します。
TLR-UCBおよびEI-TLRのシミュレーションでは、従来の手法に比べて顕著な改善が見られます。

Abstract

本研究は、オンライン小売における重要な課題、すなわち商品位置付けに取り組んでいます。著者は、位置付けを伴う動的アソートメント選択（DAP）と呼ばれる新しいオンライン学習フレームワークを提案します。従来のモデルがアイテム選択のみに焦点を当てるのとは異なり、DAPは収益を最大化するための最適な商品配置も学習します。研究者は、多項ロジットフレームワークを使用して顧客の選択をモデル化し、アイテムの魅力は内在的な嗜好と表示位置の両方に依存することを示します。位置の影響を無視すると最適ではない性能に繋がることを示し、幾何学的線形バンディット構造と切断線形回帰技術を通じて適応的な位置依存フィードバックを効果的に取り入れる新しいアルゴリズム、TLR-UCBを紹介します。理論的分析により、TLR-UCBが最適な学習効率を達成することが確認されています。未知の位置効果に対処するために、EI-TLRという二段階ポリシーをさらに開発し、顧客の嗜好と位置付けの影響を共同で推定してから一般化されたTLR-UCB手法を適用します。広範なシミュレーションにより、TLR-UCBとEI-TLRの両方が既存のベンチマークを大幅に上回り、オンラインマーケットプレイスにおけるダイナミックでデータ駆動型のアソートメントおよびレイアウト最適化のための強力なツールを提供することが示されています。

Bookmark

位置付けを伴う動的アソートメント選択のための最適レートオンライン学習

Key Points

Abstract

Cite This Study