Softmax回归中的权重衰减与正则化
字数 2234 2025-11-03 00:19:05
Softmax回归中的权重衰减与正则化
描述
在Softmax回归中,权重衰减(或称L2正则化)是一种用于防止模型过拟合的关键技术。它通过在原始损失函数中添加一个与模型权重(参数)的平方范数成正比的惩罚项,来约束权重的大小,从而鼓励模型学习更简单、更泛化的模式,避免对训练数据中的噪声过度敏感。
知识点详解
-
问题背景:Softmax回归与过拟合
- Softmax回归回顾:Softmax回归是逻辑回归在多分类问题上的推广。对于一个有K个类别的分类问题,模型会为每个类别k学习一组权重向量W_k(和一个偏置项b_k,为简化常并入W中)。给定一个输入样本x,其属于类别k的概率由Softmax函数给出:
P(y=k | x) = exp(W_k^T x) / (∑_{j=1}^{K} exp(W_j^T x)) - 过拟合风险:当模型参数过多或训练数据不足时,模型可能会学到一些只在训练集上存在的特定模式(甚至是噪声),导致在训练集上表现很好,但在未见过的测试集上表现很差。这就是过拟合。在Softmax回归中,如果权重W的数值变得非常大,模型会对输入特征的变化极度敏感,决策边界会变得非常“复杂”和“尖锐”,从而容易过拟合。
- Softmax回归回顾:Softmax回归是逻辑回归在多分类问题上的推广。对于一个有K个类别的分类问题,模型会为每个类别k学习一组权重向量W_k(和一个偏置项b_k,为简化常并入W中)。给定一个输入样本x,其属于类别k的概率由Softmax函数给出:
-
引入正则化:核心思想
- 直觉:我们倾向于认为一个“更好”的模型通常具有较小的权重值。较小的权重意味着模型不会过度依赖任何一个输入特征,其输出对输入的变化不那么敏感,从而更具鲁棒性。
- 方法:为了控制权重的大小,我们在原始的损失函数(通常是交叉熵损失)后面增加一个正则化项(或惩罚项)。这个项会随着权重向量范数(大小)的增大而增大。这样,在优化损失函数的过程中,优化算法不仅需要最小化预测误差(原始损失),还需要同时让权重保持较小值,从而在两者之间找到一个平衡。
-
L2正则化(权重衰减)的数学形式
- 原始损失函数:对于有N个样本的训练集,Softmax回归的原始交叉熵损失函数为:
J(W) = - (1/N) ∑{i=1}^{N} ∑{k=1}^{K} 1{y_i = k} log( P(y_i=k | x_i) )
其中1{y_i = k}是指示函数。 - 添加正则化项:带有L2正则化的新损失函数J_regularized(W)变为:
J_regularized(W) = J(W) + (λ / 2) ||W||_F^2- J(W):原始的交叉熵损失。
- ||W||_F^2:权重矩阵W的Frobenius范数的平方。你可以将其理解为将所有权重参数(包括所有W_k向量中的每一个元素)平方后求和。即 ||W||F^2 = ∑{k=1}^{K} ∑{d=1}^{D} W{k,d}^2,其中D是特征维度。
- λ:正则化强度超参数(λ > 0)。它控制着正则化项在总损失中的重要程度。
- λ = 0:正则化项无效,退化为原始损失函数。
- λ 很大:正则化项占主导,模型会优先让权重变小,可能导致欠拟合(模型过于简单,无法捕捉数据中的有效模式)。
- (1/2):添加1/2是为了后续求导时的计算方便,导数形式会更简洁。
- 原始损失函数:对于有N个样本的训练集,Softmax回归的原始交叉熵损失函数为:
-
正则化如何影响模型优化(梯度下降)
模型通过梯度下降法来最小化损失函数。我们来看一下添加L2正则化项后,权重更新过程发生了什么变化。- 原始梯度下降(无正则化):
权重的更新规则为: W := W - α * ∇_W J(W)
其中α是学习率,∇_W J(W)是原始损失函数J(W)关于权重W的梯度。 - 带有L2正则化的梯度下降:
我们先计算新的损失函数J_regularized(W)关于W的梯度:
∇_W J_regularized(W) = ∇_W [J(W) + (λ / 2) ||W||_F^2] = ∇_W J(W) + λW
(因为(λ/2)项求导后是λW,1/2正好与平方项的导数2相抵消)
此时,权重更新规则变为:
W := W - α * (∇_W J(W) + λW)
我们可以将这个公式重新排列一下:
W := W - αλW - α * ∇_W J(W)
W := (1 - αλ)W - α * ∇_W J(W) - “权重衰减”的由来:观察新的更新公式
W := (1 - αλ)W - ...。在每次更新权重之前,我们先将当前权重W乘以一个略小于1的因子(1 - αλ)。这一步操作独立于梯度,它会在每一步都让权重值有一个微小的、稳定的收缩(或曰“衰减”),然后才进行正常的梯度更新。这就是“权重衰减”名称的由来。超参数αλ共同决定了衰减的速率。
- 原始梯度下降(无正则化):
-
L2正则化的效果总结
- 抑制大权重:通过惩罚大的权重值,使权重向量整体上更加平滑、数值更小。
- 降低模型复杂度:实质上等价于强制要求模型使用所有特征,但不能过度依赖其中任何一个,从而学习到一个更简单、更稳定的决策边界。
- 提升泛化能力:通过减轻过拟合,使模型在未知数据(测试集)上的表现更好。
关键点回顾
- 目标:防止Softmax回归模型过拟合。
- 手段:在损失函数中增加权重的L2范数平方作为惩罚项。
- 核心超参数:λ(正则化强度),需要根据验证集性能进行调整。
- 优化影响:在梯度下降中,等效于在每一步更新前先对权重进行衰减。
通过引入权重衰减,我们为Softmax回归模型增加了一个有效的“刹车”机制,引导它走向一个泛化能力更强的解。