以上来自wikipedia。
无模型深度强化学习算法可分为两类:
一类是直接根据策略梯度更新策略,获得最优策略;
一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。
上一篇:学校最新或2023(历届)元旦放假通知书 2023年学校元旦放假通知 2023元旦放假安排出炉
下一篇:【JavaScript】用echarts绘制饼图