深度强化学习中的分层强化学习（Hierarchical Reinforcement Learning）原理与方法

字数 1846 2025-11-29 18:51:31

深度强化学习中的分层强化学习（Hierarchical Reinforcement Learning）原理与方法

1. 问题背景

在传统强化学习（RL）中，智能体需从底层动作（如机器人关节控制）逐步学习复杂任务，但面临稀疏奖励和长期依赖问题：

稀疏奖励：仅最终成功时获得奖励，中间步骤无反馈，导致探索效率低。
长期依赖：当前动作的影响可能在很久后才显现，梯度难以回传。

分层强化学习（HRL）通过引入分层结构，将任务分解为子任务（或选项），使智能体能够进行高层规划与底层执行，提升学习效率。

2. HRL核心思想

HRL的核心是时间抽象（Temporal Abstraction）：

底层：执行具体动作（如移动、抓取）。
高层：选择子任务（如“导航到A点”“拿起物体”），每个子任务包含多个底层动作。
例如，机器人搬箱子任务可分解为：

高层决策：选择“移动到箱子附近”。
底层执行：通过一系列关节控制实现移动。

3. 关键概念：选项（Options）

HRL常用选项框架（Options Framework）形式化描述分层结构：

选项 \(O = (I, \pi, \beta)\)：
- \(I\)：初始状态集（选项可被触发的状态）。
- \(\pi\)：选项的内部策略（底层动作选择规则）。
- \(\beta\)：终止条件（选项结束的概率函数）。
例子：选项“开门”的\(I\)是门前状态，\(\pi\)是控制手部动作的策略，\(\beta\)在门打开时终止。

4. HRL典型方法

方法1：Option-Critic（基于策略梯度）

原理：直接优化高层策略（选择选项）和底层策略（执行动作）的梯度。
步骤：
1. 高层策略 \(\mu(O|s)\)：根据状态\(s\)选择选项\(O\)。
2. 底层策略 \(\pi(a|s, O)\)：在选项\(O\)下选择动作\(a\)。
3. 梯度更新：
  - 底层策略梯度：最大化选项内的累积奖励。
  - 高层策略梯度：考虑选项的长期价值（至终止状态）。
优势：端到端学习，无需人工设计子任务。

方法2：MAXQ值分解（Value Decomposition）

原理：将总Q值分解为子任务Q值的和。
分层Q函数：
- 顶层Q值：\(Q(s, O) = V^{\pi_O}(s) + C(s, O)\)
  - \(V^{\pi_O}\)：选项\(O\)的内部价值（执行O的收益）。
  - \(C(s, O)\)：完成O后的后续价值（高层规划）。
更新规则：递归更新各层Q值，底层任务收敛后高层再学习。

方法3：HIRO（Data-Efficient HRL）

挑战：高层策略变化时，底层策略需重新适应。
解决方案：
- 高层目标：每\(c\)步生成一个目标（如“移动到坐标x,y”）。
- 底层策略：学习实现高层目标的动作序列。
- 离线校正：重用经验时，对高层目标进行微调以适应新策略。

5. HRL的训练流程

以Option-Critic为例：

初始化：高层策略\(\mu\)、选项内部策略\(\pi\)、终止函数\(\beta\)。
交互循环：
- 状态\(s_t\)下，高层根据\(\mu\)选择选项\(O_t\)。
- 底层根据\(\pi(a|s, O_t)\)执行动作，直至\(O_t\)终止（由\(\beta\)决定）。
- 收集轨迹\((s, O, a, r, s')\)。
梯度更新：
- 更新\(\pi\)以最大化选项内奖励。
- 更新\(\mu\)以最大化整体任务奖励。
- 更新\(\beta\)以优化选项终止时机（提前终止减少浪费）。

6. HRL的优势与挑战

优势：
- 解决长期依赖：高层决策跨越多个时间步。
- 提升探索效率：通过子任务获得中间奖励。
- 知识复用：学到的选项可迁移到新任务。
挑战：
- 子任务设计：自动发现有效选项仍是难题。
- 层级耦合：高层与底层策略需协同优化。
- 训练不稳定：梯度传播跨层级易发散。

7. 实例说明

蚂蚁机器人四足行走任务：

底层动作：控制每条腿的电机。
高层选项：
- 选项1：迈前腿（包含多个电机动作）。
- 选项2：保持平衡。
HRL效果：高层先学习“迈腿顺序”，底层专注精细控制，比传统RL更快学会行走。

通过以上步骤，HRL将复杂任务分解为可管理的层次，兼具效率与可解释性。

深度强化学习中的分层强化学习（Hierarchical Reinforcement Learning）原理与方法 1. 问题背景在传统强化学习（RL）中，智能体需从底层动作（如机器人关节控制）逐步学习复杂任务，但面临稀疏奖励和长期依赖问题：稀疏奖励：仅最终成功时获得奖励，中间步骤无反馈，导致探索效率低。长期依赖：当前动作的影响可能在很久后才显现，梯度难以回传。分层强化学习（HRL）通过引入分层结构，将任务分解为子任务（或选项），使智能体能够进行高层规划与底层执行，提升学习效率。 2. HRL核心思想 HRL的核心是时间抽象（Temporal Abstraction）：底层：执行具体动作（如移动、抓取）。高层：选择子任务（如“导航到A点”“拿起物体”），每个子任务包含多个底层动作。例如，机器人搬箱子任务可分解为：高层决策：选择“移动到箱子附近”。底层执行：通过一系列关节控制实现移动。 3. 关键概念：选项（Options） HRL常用选项框架（Options Framework）形式化描述分层结构：选项 \( O = (I, \pi, \beta) \)： \( I \)：初始状态集（选项可被触发的状态）。 \( \pi \)：选项的内部策略（底层动作选择规则）。 \( \beta \)：终止条件（选项结束的概率函数）。例子：选项“开门”的\( I \)是门前状态，\( \pi \)是控制手部动作的策略，\( \beta \)在门打开时终止。 4. HRL典型方法方法1：Option-Critic（基于策略梯度）原理：直接优化高层策略（选择选项）和底层策略（执行动作）的梯度。步骤：高层策略 \( \mu(O|s) \)：根据状态\( s \)选择选项\( O \)。底层策略 \( \pi(a|s, O) \)：在选项\( O \)下选择动作\( a \)。梯度更新：底层策略梯度：最大化选项内的累积奖励。高层策略梯度：考虑选项的长期价值（至终止状态）。优势：端到端学习，无需人工设计子任务。方法2：MAXQ值分解（Value Decomposition）原理：将总Q值分解为子任务Q值的和。分层Q函数：顶层Q值：\( Q(s, O) = V^{\pi_ O}(s) + C(s, O) \) \( V^{\pi_ O} \)：选项\( O \)的内部价值（执行O的收益）。 \( C(s, O) \)：完成O后的后续价值（高层规划）。更新规则：递归更新各层Q值，底层任务收敛后高层再学习。方法3：HIRO（Data-Efficient HRL）挑战：高层策略变化时，底层策略需重新适应。解决方案：高层目标：每\( c \)步生成一个目标（如“移动到坐标x,y”）。底层策略：学习实现高层目标的动作序列。离线校正：重用经验时，对高层目标进行微调以适应新策略。 5. HRL的训练流程以Option-Critic为例：初始化：高层策略\( \mu \)、选项内部策略\( \pi \)、终止函数\( \beta \)。交互循环：状态\( s_ t \)下，高层根据\( \mu \)选择选项\( O_ t \)。底层根据\( \pi(a|s, O_ t) \)执行动作，直至\( O_ t \)终止（由\( \beta \)决定）。收集轨迹\( (s, O, a, r, s') \)。梯度更新：更新\( \pi \)以最大化选项内奖励。更新\( \mu \)以最大化整体任务奖励。更新\( \beta \)以优化选项终止时机（提前终止减少浪费）。 6. HRL的优势与挑战优势：解决长期依赖：高层决策跨越多个时间步。提升探索效率：通过子任务获得中间奖励。知识复用：学到的选项可迁移到新任务。挑战：子任务设计：自动发现有效选项仍是难题。层级耦合：高层与底层策略需协同优化。训练不稳定：梯度传播跨层级易发散。 7. 实例说明蚂蚁机器人四足行走任务：底层动作：控制每条腿的电机。高层选项：选项1：迈前腿（包含多个电机动作）。选项2：保持平衡。 HRL效果：高层先学习“迈腿顺序”，底层专注精细控制，比传统RL更快学会行走。通过以上步骤，HRL将复杂任务分解为可管理的层次，兼具效率与可解释性。