過去の観察可能なPOMDPにおける解釈可能な方針の学習 部分的に監視された強化学習を通じて | Synapse