人間のフィードバックからの強化学習のパーソナライズ:変分的選好学習による手法 | Synapse