首页 > 强化学习 > 正文

深入浅出强化学习-chap7 基于策略梯度的强化学习方法

标签:深入浅出强化学习, PG, policy gradient, 策略梯度


目录

参考《深入浅出强化学习》

1. 概述

广义的



上篇: 深入浅出强化学习-chap6 基于值函数逼近的强化学习方法
下篇: 深入浅出强化学习-chap8 基于置信域策略搜索的强化学习方法

comment here..