Key points are not available for this paper at this time.
我々は、エージェントが専門家による状態のみのデモンストレーションから専門家の行動を模倣することを目指す観察からの学習(LfO)の問題を考慮します。また、エージェントは環境と相互作用することはできませんが、未知の特性を持つエージェントによって収集されたアクションラベル付きの遷移データにアクセスできると仮定します。このLfOのオフライン設定は、真の専門家の行動にアクセスできず、恣意的な環境との相互作用がコストがかかるまたはリスクがある多くの現実的なシナリオにおいて魅力的です。本論文では、定常分布の空間における最適化を通じて専門家のポリシーを模倣することを学ぶオフラインLfOアルゴリズムLobsDICEを提示します。我々のアルゴリズムは、専門家とエージェントポリシーによって誘発される二つの状態遷移分布間のダイバージェンスを最小化する単一の凸最小化問題を解決します。広範なオフラインLfOタスクを通じて、LobsDICEが強力なベースライン手法を上回ることを示します。
Kim et al. (Mon,) はこの問題を研究しました。