RL 笔记系列
关于 RL 基础知识的学习笔记。
-
RL学习笔记(1): 强化学习简介强化学习简介
18 min read zh -
RL学习笔记(2): 多臂赌博机多臂赌博机问题(ϵ-贪心、UCB、汤普森采样……)
10 min read zh -
RL学习笔记(3): 马尔可夫决策过程马尔可夫决策过程(MDP)
11 min read zh -
RL学习笔记(4): 动态规划动态规划(Dynamic Programming)
19 min read zh -
RL学习笔记(5): 蒙特卡洛方法蒙特卡洛方法(Monte Carlo Methods)
22 min read zh -
RL学习笔记(6): 时序差分学习时序差分学习(Temporal Difference Learning)
7 min read zh