Toggle navigation
首页
常用链接
基础知识
编程语言
常用平台
机器学习
深度学习
强化学习
图像处理
自然语言处理
其他
关于
首页
>
强化学习
> 正文
rl summary
标签:
rl summary
2018-05-14
目录
概览
基于值函数的强化学习方法
策略搜索方法
概览
基于值函数的强化学习方法
基于值函数的方法是间接方法,即通过学习值函数(value function)或者动作值函数(action-value function)来得到policy。
策略搜索方法
直接对policy进行建模和学习
上篇:
分布式强化学习框架
下篇:
深入浅出强化学习-chap13 值迭代网络
comment here..
栏目分类
基础知识
编程语言
常用平台
机器学习
深度学习
强化学习
图像处理
自然语言处理
其它
常用链接
存档
标签
最新文章
perl
fastai
深入浅出强化学习-chap13 值迭代网络
rl summary
分布式强化学习框架
tensorflow优化
tensorflow probability
深入浅出强化学习-chap9 基于确定性策略搜索的强化学习方法
深入浅出强化学习-chap8 基于置信域策略搜索的强化学习方法
深入浅出强化学习-chap7 基于策略梯度的强化学习方法