所有作者:冯涣婷
作者单位:江苏省徐州市中国矿业大学信息与电气工程学院
论文摘要:在离策略Actor-Critic(AC)强化学习中,虽然Critic使用重要采样技术可以减小值函数估计的偏差,但是重要采样方法没有考虑估计的方差,算法性能倾向于不稳定。为了减小估计方差,提出一种自适应重要采样AC学习算法。该算法将自适应重要采样技术应用于带资格迹的最小二乘时间差分AC方法中,重复使用策略更新过程中收集的数据样本,在重要权重的基础上引入一个用于权衡策略梯度估计偏差和方差的平衡因子,其中平衡因子的值由重要权重交叉验证方法根据样本和策略自动选择。排队问题的仿真结果表明,本文所提AC算法不仅具有稳定的性能,而且学习速度快
关键词: 策略梯度 自适应重要采样 重要权重交叉验证 最小二乘时间差分 AC学习
免费下载《自适应重要采样Actor-Critic算法》PDF全文(已停止下载)
本站“论文下载”文章收集整理于“中国科技论文在线”,由于各种原因,本站已暂停论文下载!请前往“中国科技论文在线http://www.paper.edu.cn/”免费下载!