深入浅出强化学习-chap7 基于策略梯度的强化学习方法 - xdaping-github博客

首页 > 强化学习 > 正文

深入浅出强化学习-chap7 基于策略梯度的强化学习方法

标签：深入浅出强化学习, PG, policy gradient, 策略梯度

2018-04-12

目录

1. 概述

参考《深入浅出强化学习》

1. 概述

广义的

上篇：深入浅出强化学习-chap6 基于值函数逼近的强化学习方法

下篇：深入浅出强化学习-chap8 基于置信域策略搜索的强化学习方法

comment here..

栏目分类

最新文章