深度强化学习中的分层强化学习(Hierarchical Reinforcement Learning)原理与方法
字数 1846 2025-11-29 18:51:31

深度强化学习中的分层强化学习(Hierarchical Reinforcement Learning)原理与方法

1. 问题背景

在传统强化学习(RL)中,智能体需从底层动作(如机器人关节控制)逐步学习复杂任务,但面临稀疏奖励长期依赖问题:

  • 稀疏奖励:仅最终成功时获得奖励,中间步骤无反馈,导致探索效率低。
  • 长期依赖:当前动作的影响可能在很久后才显现,梯度难以回传。

分层强化学习(HRL)通过引入分层结构,将任务分解为子任务(或选项),使智能体能够进行高层规划与底层执行,提升学习效率。


2. HRL核心思想

HRL的核心是时间抽象(Temporal Abstraction):

  • 底层:执行具体动作(如移动、抓取)。
  • 高层:选择子任务(如“导航到A点”“拿起物体”),每个子任务包含多个底层动作。
    例如,机器人搬箱子任务可分解为:
  1. 高层决策:选择“移动到箱子附近”。
  2. 底层执行:通过一系列关节控制实现移动。

3. 关键概念:选项(Options)

HRL常用选项框架(Options Framework)形式化描述分层结构:

  • 选项 \(O = (I, \pi, \beta)\)
    • \(I\):初始状态集(选项可被触发的状态)。
    • \(\pi\):选项的内部策略(底层动作选择规则)。
    • \(\beta\):终止条件(选项结束的概率函数)。
  • 例子:选项“开门”的\(I\)是门前状态,\(\pi\)是控制手部动作的策略,\(\beta\)在门打开时终止。

4. HRL典型方法

方法1:Option-Critic(基于策略梯度)

  • 原理:直接优化高层策略(选择选项)和底层策略(执行动作)的梯度。
  • 步骤
    1. 高层策略 \(\mu(O|s)\):根据状态\(s\)选择选项\(O\)
    2. 底层策略 \(\pi(a|s, O)\):在选项\(O\)下选择动作\(a\)
    3. 梯度更新
      • 底层策略梯度:最大化选项内的累积奖励。
      • 高层策略梯度:考虑选项的长期价值(至终止状态)。
  • 优势:端到端学习,无需人工设计子任务。

方法2:MAXQ值分解(Value Decomposition)

  • 原理:将总Q值分解为子任务Q值的和。
  • 分层Q函数
    • 顶层Q值:\(Q(s, O) = V^{\pi_O}(s) + C(s, O)\)
      • \(V^{\pi_O}\):选项\(O\)的内部价值(执行O的收益)。
      • \(C(s, O)\):完成O后的后续价值(高层规划)。
  • 更新规则:递归更新各层Q值,底层任务收敛后高层再学习。

方法3:HIRO(Data-Efficient HRL)

  • 挑战:高层策略变化时,底层策略需重新适应。
  • 解决方案
    • 高层目标:每\(c\)步生成一个目标(如“移动到坐标x,y”)。
    • 底层策略:学习实现高层目标的动作序列。
    • 离线校正:重用经验时,对高层目标进行微调以适应新策略。

5. HRL的训练流程

以Option-Critic为例:

  1. 初始化:高层策略\(\mu\)、选项内部策略\(\pi\)、终止函数\(\beta\)
  2. 交互循环
    • 状态\(s_t\)下,高层根据\(\mu\)选择选项\(O_t\)
    • 底层根据\(\pi(a|s, O_t)\)执行动作,直至\(O_t\)终止(由\(\beta\)决定)。
    • 收集轨迹\((s, O, a, r, s')\)
  3. 梯度更新
    • 更新\(\pi\)以最大化选项内奖励。
    • 更新\(\mu\)以最大化整体任务奖励。
    • 更新\(\beta\)以优化选项终止时机(提前终止减少浪费)。

6. HRL的优势与挑战

  • 优势
    • 解决长期依赖:高层决策跨越多个时间步。
    • 提升探索效率:通过子任务获得中间奖励。
    • 知识复用:学到的选项可迁移到新任务。
  • 挑战
    • 子任务设计:自动发现有效选项仍是难题。
    • 层级耦合:高层与底层策略需协同优化。
    • 训练不稳定:梯度传播跨层级易发散。

7. 实例说明

蚂蚁机器人四足行走任务

  • 底层动作:控制每条腿的电机。
  • 高层选项:
    • 选项1:迈前腿(包含多个电机动作)。
    • 选项2:保持平衡。
  • HRL效果:高层先学习“迈腿顺序”,底层专注精细控制,比传统RL更快学会行走。

通过以上步骤,HRL将复杂任务分解为可管理的层次,兼具效率与可解释性。

深度强化学习中的分层强化学习(Hierarchical Reinforcement Learning)原理与方法 1. 问题背景 在传统强化学习(RL)中,智能体需从底层动作(如机器人关节控制)逐步学习复杂任务,但面临 稀疏奖励 和 长期依赖 问题: 稀疏奖励 :仅最终成功时获得奖励,中间步骤无反馈,导致探索效率低。 长期依赖 :当前动作的影响可能在很久后才显现,梯度难以回传。 分层强化学习(HRL)通过引入 分层结构 ,将任务分解为子任务(或选项),使智能体能够进行高层规划与底层执行,提升学习效率。 2. HRL核心思想 HRL的核心是 时间抽象 (Temporal Abstraction): 底层 :执行具体动作(如移动、抓取)。 高层 :选择子任务(如“导航到A点”“拿起物体”),每个子任务包含多个底层动作。 例如,机器人搬箱子任务可分解为: 高层决策:选择“移动到箱子附近”。 底层执行:通过一系列关节控制实现移动。 3. 关键概念:选项(Options) HRL常用 选项框架 (Options Framework)形式化描述分层结构: 选项 \( O = (I, \pi, \beta) \): \( I \):初始状态集(选项可被触发的状态)。 \( \pi \):选项的内部策略(底层动作选择规则)。 \( \beta \):终止条件(选项结束的概率函数)。 例子 :选项“开门”的\( I \)是门前状态,\( \pi \)是控制手部动作的策略,\( \beta \)在门打开时终止。 4. HRL典型方法 方法1:Option-Critic(基于策略梯度) 原理 :直接优化高层策略(选择选项)和底层策略(执行动作)的梯度。 步骤 : 高层策略 \( \mu(O|s) \):根据状态\( s \)选择选项\( O \)。 底层策略 \( \pi(a|s, O) \):在选项\( O \)下选择动作\( a \)。 梯度更新 : 底层策略梯度:最大化选项内的累积奖励。 高层策略梯度:考虑选项的长期价值(至终止状态)。 优势 :端到端学习,无需人工设计子任务。 方法2:MAXQ值分解(Value Decomposition) 原理 :将总Q值分解为子任务Q值的和。 分层Q函数 : 顶层Q值:\( Q(s, O) = V^{\pi_ O}(s) + C(s, O) \) \( V^{\pi_ O} \):选项\( O \)的内部价值(执行O的收益)。 \( C(s, O) \):完成O后的后续价值(高层规划)。 更新规则 :递归更新各层Q值,底层任务收敛后高层再学习。 方法3:HIRO(Data-Efficient HRL) 挑战 :高层策略变化时,底层策略需重新适应。 解决方案 : 高层目标 :每\( c \)步生成一个目标(如“移动到坐标x,y”)。 底层策略 :学习实现高层目标的动作序列。 离线校正 :重用经验时,对高层目标进行微调以适应新策略。 5. HRL的训练流程 以Option-Critic为例: 初始化 :高层策略\( \mu \)、选项内部策略\( \pi \)、终止函数\( \beta \)。 交互循环 : 状态\( s_ t \)下,高层根据\( \mu \)选择选项\( O_ t \)。 底层根据\( \pi(a|s, O_ t) \)执行动作,直至\( O_ t \)终止(由\( \beta \)决定)。 收集轨迹\( (s, O, a, r, s') \)。 梯度更新 : 更新\( \pi \)以最大化选项内奖励。 更新\( \mu \)以最大化整体任务奖励。 更新\( \beta \)以优化选项终止时机(提前终止减少浪费)。 6. HRL的优势与挑战 优势 : 解决长期依赖:高层决策跨越多个时间步。 提升探索效率:通过子任务获得中间奖励。 知识复用:学到的选项可迁移到新任务。 挑战 : 子任务设计:自动发现有效选项仍是难题。 层级耦合:高层与底层策略需协同优化。 训练不稳定:梯度传播跨层级易发散。 7. 实例说明 蚂蚁机器人四足行走任务 : 底层动作:控制每条腿的电机。 高层选项: 选项1:迈前腿(包含多个电机动作)。 选项2:保持平衡。 HRL效果:高层先学习“迈腿顺序”,底层专注精细控制,比传统RL更快学会行走。 通过以上步骤,HRL将复杂任务分解为可管理的层次,兼具效率与可解释性。