Softmax回归中的权重衰减与正则化

字数 2234 2025-11-03 00:19:05

Softmax回归中的权重衰减与正则化

描述
在Softmax回归中，权重衰减（或称L2正则化）是一种用于防止模型过拟合的关键技术。它通过在原始损失函数中添加一个与模型权重（参数）的平方范数成正比的惩罚项，来约束权重的大小，从而鼓励模型学习更简单、更泛化的模式，避免对训练数据中的噪声过度敏感。

知识点详解

问题背景：Softmax回归与过拟合
- Softmax回归回顾：Softmax回归是逻辑回归在多分类问题上的推广。对于一个有K个类别的分类问题，模型会为每个类别k学习一组权重向量W_k（和一个偏置项b_k，为简化常并入W中）。给定一个输入样本x，其属于类别k的概率由Softmax函数给出：
  P(y=k | x) = exp(W_k^T x) / (∑_{j=1}^{K} exp(W_j^T x))
- 过拟合风险：当模型参数过多或训练数据不足时，模型可能会学到一些只在训练集上存在的特定模式（甚至是噪声），导致在训练集上表现很好，但在未见过的测试集上表现很差。这就是过拟合。在Softmax回归中，如果权重W的数值变得非常大，模型会对输入特征的变化极度敏感，决策边界会变得非常“复杂”和“尖锐”，从而容易过拟合。
引入正则化：核心思想
- 直觉：我们倾向于认为一个“更好”的模型通常具有较小的权重值。较小的权重意味着模型不会过度依赖任何一个输入特征，其输出对输入的变化不那么敏感，从而更具鲁棒性。
- 方法：为了控制权重的大小，我们在原始的损失函数（通常是交叉熵损失）后面增加一个正则化项（或惩罚项）。这个项会随着权重向量范数（大小）的增大而增大。这样，在优化损失函数的过程中，优化算法不仅需要最小化预测误差（原始损失），还需要同时让权重保持较小值，从而在两者之间找到一个平衡。
L2正则化（权重衰减）的数学形式
- 原始损失函数：对于有N个样本的训练集，Softmax回归的原始交叉熵损失函数为：
  J(W) = - (1/N) ∑{i=1}^{N} ∑{k=1}^{K} 1{y_i = k} log( P(y_i=k | x_i) )
  其中1{y_i = k}是指示函数。
- 添加正则化项：带有L2正则化的新损失函数J_regularized(W)变为：
  J_regularized(W) = J(W) + (λ / 2) ||W||_F^2
  - J(W)：原始的交叉熵损失。
  - ||W||_F^2：权重矩阵W的Frobenius范数的平方。你可以将其理解为将所有权重参数（包括所有W_k向量中的每一个元素）平方后求和。即 ||W||F^2 = ∑{k=1}^{K} ∑{d=1}^{D} W{k,d}^2，其中D是特征维度。
  - λ：正则化强度超参数（λ > 0）。它控制着正则化项在总损失中的重要程度。
    - λ = 0：正则化项无效，退化为原始损失函数。
    - λ 很大：正则化项占主导，模型会优先让权重变小，可能导致欠拟合（模型过于简单，无法捕捉数据中的有效模式）。
  - (1/2)：添加1/2是为了后续求导时的计算方便，导数形式会更简洁。
正则化如何影响模型优化（梯度下降）
模型通过梯度下降法来最小化损失函数。我们来看一下添加L2正则化项后，权重更新过程发生了什么变化。
- 原始梯度下降（无正则化）：
  权重的更新规则为： W := W - α * ∇_W J(W)
  其中α是学习率，∇_W J(W)是原始损失函数J(W)关于权重W的梯度。
- 带有L2正则化的梯度下降：
  我们先计算新的损失函数J_regularized(W)关于W的梯度：
  ∇_W J_regularized(W) = ∇_W [J(W) + (λ / 2) ||W||_F^2] = ∇_W J(W) + λW
  （因为(λ/2)项求导后是λW，1/2正好与平方项的导数2相抵消）
  此时，权重更新规则变为：
  W := W - α * (∇_W J(W) + λW)
  我们可以将这个公式重新排列一下：
  W := W - αλW - α * ∇_W J(W)
  W := (1 - αλ)W - α * ∇_W J(W)
- “权重衰减”的由来：观察新的更新公式 W := (1 - αλ)W - ...。在每次更新权重之前，我们先将当前权重W乘以一个略小于1的因子(1 - αλ)。这一步操作独立于梯度，它会在每一步都让权重值有一个微小的、稳定的收缩（或曰“衰减”），然后才进行正常的梯度更新。这就是“权重衰减”名称的由来。超参数αλ共同决定了衰减的速率。
L2正则化的效果总结
- 抑制大权重：通过惩罚大的权重值，使权重向量整体上更加平滑、数值更小。
- 降低模型复杂度：实质上等价于强制要求模型使用所有特征，但不能过度依赖其中任何一个，从而学习到一个更简单、更稳定的决策边界。
- 提升泛化能力：通过减轻过拟合，使模型在未知数据（测试集）上的表现更好。

关键点回顾

目标：防止Softmax回归模型过拟合。
手段：在损失函数中增加权重的L2范数平方作为惩罚项。
核心超参数：λ（正则化强度），需要根据验证集性能进行调整。
优化影响：在梯度下降中，等效于在每一步更新前先对权重进行衰减。

通过引入权重衰减，我们为Softmax回归模型增加了一个有效的“刹车”机制，引导它走向一个泛化能力更强的解。

Softmax回归中的权重衰减与正则化描述在Softmax回归中，权重衰减（或称L2正则化）是一种用于防止模型过拟合的关键技术。它通过在原始损失函数中添加一个与模型权重（参数）的平方范数成正比的惩罚项，来约束权重的大小，从而鼓励模型学习更简单、更泛化的模式，避免对训练数据中的噪声过度敏感。知识点详解问题背景：Softmax回归与过拟合 Softmax回归回顾：Softmax回归是逻辑回归在多分类问题上的推广。对于一个有K个类别的分类问题，模型会为每个类别k学习一组权重向量W_ k（和一个偏置项b_ k，为简化常并入W中）。给定一个输入样本x，其属于类别k的概率由Softmax函数给出： P(y=k | x) = exp(W_ k^T x) / (∑_ {j=1}^{K} exp(W_ j^T x)) 过拟合风险：当模型参数过多或训练数据不足时，模型可能会学到一些只在训练集上存在的特定模式（甚至是噪声），导致在训练集上表现很好，但在未见过的测试集上表现很差。这就是过拟合。在Softmax回归中，如果权重W的数值变得非常大，模型会对输入特征的变化极度敏感，决策边界会变得非常“复杂”和“尖锐”，从而容易过拟合。引入正则化：核心思想直觉：我们倾向于认为一个“更好”的模型通常具有较小的权重值。较小的权重意味着模型不会过度依赖任何一个输入特征，其输出对输入的变化不那么敏感，从而更具鲁棒性。方法：为了控制权重的大小，我们在原始的损失函数（通常是交叉熵损失）后面增加一个正则化项（或惩罚项）。这个项会随着权重向量范数（大小）的增大而增大。这样，在优化损失函数的过程中，优化算法不仅需要最小化预测误差（原始损失），还需要同时让权重保持较小值，从而在两者之间找到一个平衡。 L2正则化（权重衰减）的数学形式原始损失函数：对于有N个样本的训练集，Softmax回归的原始交叉熵损失函数为： J(W) = - (1/N) ∑ {i=1}^{N} ∑ {k=1}^{K} 1{y_ i = k} log( P(y_ i=k | x_ i) ) 其中1{y_ i = k}是指示函数。添加正则化项：带有L2正则化的新损失函数J_ regularized(W)变为： J_ regularized(W) = J(W) + (λ / 2) ||W||_ F^2 J(W) ：原始的交叉熵损失。 ||W||_ F^2 ：权重矩阵W的 Frobenius范数的平方。你可以将其理解为将所有权重参数（包括所有W_ k向量中的每一个元素）平方后求和。即 ||W|| F^2 = ∑ {k=1}^{K} ∑ {d=1}^{D} W {k,d}^2，其中D是特征维度。 λ ：正则化强度超参数（λ > 0）。它控制着正则化项在总损失中的重要程度。 λ = 0：正则化项无效，退化为原始损失函数。 λ 很大：正则化项占主导，模型会优先让权重变小，可能导致欠拟合（模型过于简单，无法捕捉数据中的有效模式）。 (1/2) ：添加1/2是为了后续求导时的计算方便，导数形式会更简洁。正则化如何影响模型优化（梯度下降）模型通过梯度下降法来最小化损失函数。我们来看一下添加L2正则化项后，权重更新过程发生了什么变化。原始梯度下降（无正则化）：权重的更新规则为： W := W - α * ∇_ W J(W) 其中α是学习率，∇_ W J(W)是原始损失函数J(W)关于权重W的梯度。带有L2正则化的梯度下降：我们先计算新的损失函数J_ regularized(W)关于W的梯度： ∇_ W J_ regularized(W) = ∇_ W [ J(W) + (λ / 2) ||W||_ F^2] = ∇_ W J(W) + λW （因为(λ/2)项求导后是λW，1/2正好与平方项的导数2相抵消）此时，权重更新规则变为： W := W - α * (∇_ W J(W) + λW) 我们可以将这个公式重新排列一下： W := W - αλW - α * ∇_ W J(W) W := (1 - αλ)W - α * ∇_ W J(W) “权重衰减”的由来：观察新的更新公式 W := (1 - αλ)W - ... 。在每次更新权重之前，我们先将当前权重W乘以一个略小于1的因子(1 - αλ)。这一步操作独立于梯度，它会在每一步都让权重值有一个微小的、稳定的收缩（或曰“衰减”），然后才进行正常的梯度更新。这就是“权重衰减”名称的由来。超参数αλ共同决定了衰减的速率。 L2正则化的效果总结抑制大权重：通过惩罚大的权重值，使权重向量整体上更加平滑、数值更小。降低模型复杂度：实质上等价于强制要求模型使用所有特征，但不能过度依赖其中任何一个，从而学习到一个更简单、更稳定的决策边界。提升泛化能力：通过减轻过拟合，使模型在未知数据（测试集）上的表现更好。关键点回顾目标：防止Softmax回归模型过拟合。手段：在损失函数中增加权重的L2范数平方作为惩罚项。核心超参数：λ（正则化强度），需要根据验证集性能进行调整。优化影响：在梯度下降中，等效于在每一步更新前先对权重进行衰减。通过引入权重衰减，我们为Softmax回归模型增加了一个有效的“刹车”机制，引导它走向一个泛化能力更强的解。