最近的研究成功表明,稀疏深度强化学习代理在竞争中可以与其密集型代理相抗衡。这为推理时间和内存需求对成本敏感或受硬件限制的领域的强化学习应用打开了机会。到目前为止,密集到稀疏的方法依赖于手工设计的稀疏性调度,与代理的学习速度不同步。关键是,最终的稀疏水平被选择为超参数,这需要仔细调优,因为设定得过高可能导致性能不佳。在这项工作中,我们通过设计一个名为Eau De Q-Network(EauDeQN)的密集到稀疏算法来解决这些不足。为了以代理的学习速度提高稀疏性,我们考虑了具有不同稀疏水平的多个在线网络,其中每个在线网络都从一个共享目标网络中训练。在每次目标更新时,选择损失最小的在线网络作为下一个目标网络,而其他网络则由所选网络的剪枝版本替换。我们在Atari 2600基准测试和MuJoCo物理模拟器上评估了该方法,显示EauDeQN在保持高性能的同时达到较高的稀疏水平.
Vincent等(Mon,)研究了这个问题.