Key points are not available for this paper at this time.
ベイズ逆強化学習(IRL)の目的は、学習者にとって未知の報酬を最適化する専門家のデモンストレーションのセットを使用して報酬関数に対する事後分布を回復することです。得られた報酬に関する事後分布は、同じまたは類似のタスクでうまく機能するアプレンティス方針を合成するために利用できます。ベイズIRLにおける主要な課題は、可能な報酬の仮説空間と尤度の間の計算ギャップを埋めることです。これは、通常Q値に基づいて定義されます:通常のベイズIRLは、アルゴリズムの各ステップで報酬からQ値へ移行するコストのかかる前方計画問題を解決しなければなりませんが、これは何千回も実行する必要があるかもしれません。我々はこれを、主に報酬の空間でサンプリングするのではなく、Q値の空間で作業することに焦点を合わせることで解決することを提案します。なぜなら、Q値から報酬に移行するための計算が根本的に安価だからです。さらに、この計算の反転により、勾配の計算が容易になり、ハミルトニアン・モンテカルロを使用した効率的なサンプリングが可能になります。我々はこの洞察に基づいた新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案し、いくつかのタスクでの利点を示します。
Bajgar et al. (Mon,) はこの問題を研究しました。