Transformer模型中的梯度检查点(Gradient Checkpointing)技术详解
**Transformer模型中的梯度检查点(Gradient Checkpointing)技术详解**
**1. 问题背景**
Transformer模型(尤其是大型模型如GPT、BERT)在训练时需要存储中间激活值(activations),用于反向传播中的梯度计算。随着模型层数增加,中间激活值占用的显存急剧增长,成为训练深度模型的主要瓶颈。梯度检查点是一种**时间换空间**的优化技术,通过减少中间激活值的存储来降低显存占用,使训练更大模型成为可能。
**2. 核心思想**
2025-11-18 01:31:14
0