强化学习

课程介绍

强化学习基础技术系列原理与实践主要介绍的内容包含有:

1、马尔可夫决策过程的定义,包含状态行为状态概率转移矩阵,即时奖励以及执行策略等,马尔可夫决策过程可以对基于环境,actor及其之间的交互和奖励形成的系统进行抽象建模,同时定义了状态价值函数和行为价值函数,以及这两类函数的Bellman递归方程定义;
2、马尔可夫决策过程的最优策略求解,策略迭代和价值迭代属于有模型算法(状态转移概率矩阵,即时奖励等信息已知),而蒙特卡洛和时序差分的方法为无模型算法(状态转移概率矩阵,即时奖励等信息未知)
3、基于时序差分算法,有同策略的sarsa算法和异策略的Q learning(他们都是基于Q table这种状态行为价值表格的数据结构表示方法进行的求解)
4、Deep Q Learning Network,基于深度学习神经网络学习Q函数的方法;
5、Policy Gradient算法,基于Policy Network学习基于期望回报最大化的策略,REINFORCEMENT算法基于蒙特卡洛的回合采样策略(episode,trajectory)同时对期望回报的公式进行了分析和调整,将状态行为对应的回报因子更新为从该状态行为后形成的回报的折扣和,摒弃前面状态行为的干扰;
6、Actor-Critic算法,同时学习策略网络和价值网络,在策略网络的学习中和REINFORCEMENT不同的是加入了价值网络回归的结果作为基线的优势函数作为因子;
7、PPO算法,属于异策略的Actor-Critic算法,基于重要性采样机制多次重复利用参考网络采集的数据进行更加高效的训练,同时加入基于KL散度(可以自适应重要性因子)损失作为训练策略网络和参考策略的参数差距的约束;
8、TRPO算法,用优化算法对训练策略网络和参考策略网络的参数差距进行了硬约束,大体实现思路是基于kL散度的一阶和二阶展开,转化为一个在约束条件下梯度更新最大化的优化问题进行求解,通过拉格朗日乘数法,最终转化为解大规模对称正定的线性方程组的共轭法求解delta_theta。最后通过线性搜索去最大化梯度方向的步长以满足更新在Trust Region内。

具体视频分享参考链接为: https://space.bilibili.com/505620745/lists/3809563