深度强化学习中的分层强化学习(Hierarchical Reinforcement Learning)原理与方法
字数 1846 2025-11-29 18:51:31
深度强化学习中的分层强化学习(Hierarchical Reinforcement Learning)原理与方法
1. 问题背景
在传统强化学习(RL)中,智能体需从底层动作(如机器人关节控制)逐步学习复杂任务,但面临稀疏奖励和长期依赖问题:
- 稀疏奖励:仅最终成功时获得奖励,中间步骤无反馈,导致探索效率低。
- 长期依赖:当前动作的影响可能在很久后才显现,梯度难以回传。
分层强化学习(HRL)通过引入分层结构,将任务分解为子任务(或选项),使智能体能够进行高层规划与底层执行,提升学习效率。
2. HRL核心思想
HRL的核心是时间抽象(Temporal Abstraction):
- 底层:执行具体动作(如移动、抓取)。
- 高层:选择子任务(如“导航到A点”“拿起物体”),每个子任务包含多个底层动作。
例如,机器人搬箱子任务可分解为:
- 高层决策:选择“移动到箱子附近”。
- 底层执行:通过一系列关节控制实现移动。
3. 关键概念:选项(Options)
HRL常用选项框架(Options Framework)形式化描述分层结构:
- 选项 \(O = (I, \pi, \beta)\):
- \(I\):初始状态集(选项可被触发的状态)。
- \(\pi\):选项的内部策略(底层动作选择规则)。
- \(\beta\):终止条件(选项结束的概率函数)。
- 例子:选项“开门”的\(I\)是门前状态,\(\pi\)是控制手部动作的策略,\(\beta\)在门打开时终止。
4. HRL典型方法
方法1:Option-Critic(基于策略梯度)
- 原理:直接优化高层策略(选择选项)和底层策略(执行动作)的梯度。
- 步骤:
- 高层策略 \(\mu(O|s)\):根据状态\(s\)选择选项\(O\)。
- 底层策略 \(\pi(a|s, O)\):在选项\(O\)下选择动作\(a\)。
- 梯度更新:
- 底层策略梯度:最大化选项内的累积奖励。
- 高层策略梯度:考虑选项的长期价值(至终止状态)。
- 优势:端到端学习,无需人工设计子任务。
方法2:MAXQ值分解(Value Decomposition)
- 原理:将总Q值分解为子任务Q值的和。
- 分层Q函数:
- 顶层Q值:\(Q(s, O) = V^{\pi_O}(s) + C(s, O)\)
- \(V^{\pi_O}\):选项\(O\)的内部价值(执行O的收益)。
- \(C(s, O)\):完成O后的后续价值(高层规划)。
- 顶层Q值:\(Q(s, O) = V^{\pi_O}(s) + C(s, O)\)
- 更新规则:递归更新各层Q值,底层任务收敛后高层再学习。
方法3:HIRO(Data-Efficient HRL)
- 挑战:高层策略变化时,底层策略需重新适应。
- 解决方案:
- 高层目标:每\(c\)步生成一个目标(如“移动到坐标x,y”)。
- 底层策略:学习实现高层目标的动作序列。
- 离线校正:重用经验时,对高层目标进行微调以适应新策略。
5. HRL的训练流程
以Option-Critic为例:
- 初始化:高层策略\(\mu\)、选项内部策略\(\pi\)、终止函数\(\beta\)。
- 交互循环:
- 状态\(s_t\)下,高层根据\(\mu\)选择选项\(O_t\)。
- 底层根据\(\pi(a|s, O_t)\)执行动作,直至\(O_t\)终止(由\(\beta\)决定)。
- 收集轨迹\((s, O, a, r, s')\)。
- 梯度更新:
- 更新\(\pi\)以最大化选项内奖励。
- 更新\(\mu\)以最大化整体任务奖励。
- 更新\(\beta\)以优化选项终止时机(提前终止减少浪费)。
6. HRL的优势与挑战
- 优势:
- 解决长期依赖:高层决策跨越多个时间步。
- 提升探索效率:通过子任务获得中间奖励。
- 知识复用:学到的选项可迁移到新任务。
- 挑战:
- 子任务设计:自动发现有效选项仍是难题。
- 层级耦合:高层与底层策略需协同优化。
- 训练不稳定:梯度传播跨层级易发散。
7. 实例说明
蚂蚁机器人四足行走任务:
- 底层动作:控制每条腿的电机。
- 高层选项:
- 选项1:迈前腿(包含多个电机动作)。
- 选项2:保持平衡。
- HRL效果:高层先学习“迈腿顺序”,底层专注精细控制,比传统RL更快学会行走。
通过以上步骤,HRL将复杂任务分解为可管理的层次,兼具效率与可解释性。