ギャップを埋める:マルコフサンプリング下でのアクター-クリティックのグローバル収束(最終反復)をニューラルネットワークパラメトリゼーションによって達成する | Synapse