Softmax回归中的权重衰减与正则化
字数 2234 2025-11-03 00:19:05

Softmax回归中的权重衰减与正则化

描述
在Softmax回归中,权重衰减(或称L2正则化)是一种用于防止模型过拟合的关键技术。它通过在原始损失函数中添加一个与模型权重(参数)的平方范数成正比的惩罚项,来约束权重的大小,从而鼓励模型学习更简单、更泛化的模式,避免对训练数据中的噪声过度敏感。

知识点详解

  1. 问题背景:Softmax回归与过拟合

    • Softmax回归回顾:Softmax回归是逻辑回归在多分类问题上的推广。对于一个有K个类别的分类问题,模型会为每个类别k学习一组权重向量W_k(和一个偏置项b_k,为简化常并入W中)。给定一个输入样本x,其属于类别k的概率由Softmax函数给出:
      P(y=k | x) = exp(W_k^T x) / (∑_{j=1}^{K} exp(W_j^T x))
    • 过拟合风险:当模型参数过多或训练数据不足时,模型可能会学到一些只在训练集上存在的特定模式(甚至是噪声),导致在训练集上表现很好,但在未见过的测试集上表现很差。这就是过拟合。在Softmax回归中,如果权重W的数值变得非常大,模型会对输入特征的变化极度敏感,决策边界会变得非常“复杂”和“尖锐”,从而容易过拟合。
  2. 引入正则化:核心思想

    • 直觉:我们倾向于认为一个“更好”的模型通常具有较小的权重值。较小的权重意味着模型不会过度依赖任何一个输入特征,其输出对输入的变化不那么敏感,从而更具鲁棒性。
    • 方法:为了控制权重的大小,我们在原始的损失函数(通常是交叉熵损失)后面增加一个正则化项(或惩罚项)。这个项会随着权重向量范数(大小)的增大而增大。这样,在优化损失函数的过程中,优化算法不仅需要最小化预测误差(原始损失),还需要同时让权重保持较小值,从而在两者之间找到一个平衡。
  3. L2正则化(权重衰减)的数学形式

    • 原始损失函数:对于有N个样本的训练集,Softmax回归的原始交叉熵损失函数为:
      J(W) = - (1/N) ∑{i=1}^{N} ∑{k=1}^{K} 1{y_i = k} log( P(y_i=k | x_i) )
      其中1{y_i = k}是指示函数。
    • 添加正则化项:带有L2正则化的新损失函数J_regularized(W)变为:
      J_regularized(W) = J(W) + (λ / 2) ||W||_F^2
      • J(W):原始的交叉熵损失。
      • ||W||_F^2:权重矩阵W的Frobenius范数的平方。你可以将其理解为将所有权重参数(包括所有W_k向量中的每一个元素)平方后求和。即 ||W||F^2 = ∑{k=1}^{K} ∑{d=1}^{D} W{k,d}^2,其中D是特征维度。
      • λ正则化强度超参数(λ > 0)。它控制着正则化项在总损失中的重要程度。
        • λ = 0:正则化项无效,退化为原始损失函数。
        • λ 很大:正则化项占主导,模型会优先让权重变小,可能导致欠拟合(模型过于简单,无法捕捉数据中的有效模式)。
      • (1/2):添加1/2是为了后续求导时的计算方便,导数形式会更简洁。
  4. 正则化如何影响模型优化(梯度下降)
    模型通过梯度下降法来最小化损失函数。我们来看一下添加L2正则化项后,权重更新过程发生了什么变化。

    • 原始梯度下降(无正则化)
      权重的更新规则为: W := W - α * ∇_W J(W)
      其中α是学习率,∇_W J(W)是原始损失函数J(W)关于权重W的梯度。
    • 带有L2正则化的梯度下降
      我们先计算新的损失函数J_regularized(W)关于W的梯度:
      ∇_W J_regularized(W) = ∇_W [J(W) + (λ / 2) ||W||_F^2] = ∇_W J(W) + λW
      (因为(λ/2)项求导后是λW,1/2正好与平方项的导数2相抵消)
      此时,权重更新规则变为:
      W := W - α * (∇_W J(W) + λW)
      我们可以将这个公式重新排列一下:
      W := W - αλW - α * ∇_W J(W)
      W := (1 - αλ)W - α * ∇_W J(W)
    • “权重衰减”的由来:观察新的更新公式 W := (1 - αλ)W - ...。在每次更新权重之前,我们先将当前权重W乘以一个略小于1的因子(1 - αλ)。这一步操作独立于梯度,它会在每一步都让权重值有一个微小的、稳定的收缩(或曰“衰减”),然后才进行正常的梯度更新。这就是“权重衰减”名称的由来。超参数αλ共同决定了衰减的速率。
  5. L2正则化的效果总结

    • 抑制大权重:通过惩罚大的权重值,使权重向量整体上更加平滑、数值更小。
    • 降低模型复杂度:实质上等价于强制要求模型使用所有特征,但不能过度依赖其中任何一个,从而学习到一个更简单、更稳定的决策边界。
    • 提升泛化能力:通过减轻过拟合,使模型在未知数据(测试集)上的表现更好。

关键点回顾

  • 目标:防止Softmax回归模型过拟合。
  • 手段:在损失函数中增加权重的L2范数平方作为惩罚项。
  • 核心超参数:λ(正则化强度),需要根据验证集性能进行调整。
  • 优化影响:在梯度下降中,等效于在每一步更新前先对权重进行衰减。

通过引入权重衰减,我们为Softmax回归模型增加了一个有效的“刹车”机制,引导它走向一个泛化能力更强的解。

Softmax回归中的权重衰减与正则化 描述 在Softmax回归中,权重衰减(或称L2正则化)是一种用于防止模型过拟合的关键技术。它通过在原始损失函数中添加一个与模型权重(参数)的平方范数成正比的惩罚项,来约束权重的大小,从而鼓励模型学习更简单、更泛化的模式,避免对训练数据中的噪声过度敏感。 知识点详解 问题背景:Softmax回归与过拟合 Softmax回归回顾 :Softmax回归是逻辑回归在多分类问题上的推广。对于一个有K个类别的分类问题,模型会为每个类别k学习一组权重向量W_ k(和一个偏置项b_ k,为简化常并入W中)。给定一个输入样本x,其属于类别k的概率由Softmax函数给出: P(y=k | x) = exp(W_ k^T x) / (∑_ {j=1}^{K} exp(W_ j^T x)) 过拟合风险 :当模型参数过多或训练数据不足时,模型可能会学到一些只在训练集上存在的特定模式(甚至是噪声),导致在训练集上表现很好,但在未见过的测试集上表现很差。这就是过拟合。在Softmax回归中,如果权重W的数值变得非常大,模型会对输入特征的变化极度敏感,决策边界会变得非常“复杂”和“尖锐”,从而容易过拟合。 引入正则化:核心思想 直觉 :我们倾向于认为一个“更好”的模型通常具有较小的权重值。较小的权重意味着模型不会过度依赖任何一个输入特征,其输出对输入的变化不那么敏感,从而更具鲁棒性。 方法 :为了控制权重的大小,我们在原始的损失函数(通常是交叉熵损失)后面增加一个 正则化项 (或 惩罚项 )。这个项会随着权重向量范数(大小)的增大而增大。这样,在优化损失函数的过程中,优化算法不仅需要最小化预测误差(原始损失),还需要同时让权重保持较小值,从而在两者之间找到一个平衡。 L2正则化(权重衰减)的数学形式 原始损失函数 :对于有N个样本的训练集,Softmax回归的原始交叉熵损失函数为: J(W) = - (1/N) ∑ {i=1}^{N} ∑ {k=1}^{K} 1{y_ i = k} log( P(y_ i=k | x_ i) ) 其中1{y_ i = k}是指示函数。 添加正则化项 :带有L2正则化的新损失函数J_ regularized(W)变为: J_ regularized(W) = J(W) + (λ / 2) ||W||_ F^2 J(W) :原始的交叉熵损失。 ||W||_ F^2 :权重矩阵W的 Frobenius范数 的平方。你可以将其理解为将所有权重参数(包括所有W_ k向量中的每一个元素)平方后求和。即 ||W|| F^2 = ∑ {k=1}^{K} ∑ {d=1}^{D} W {k,d}^2,其中D是特征维度。 λ : 正则化强度 超参数(λ > 0)。它控制着正则化项在总损失中的重要程度。 λ = 0:正则化项无效,退化为原始损失函数。 λ 很大:正则化项占主导,模型会优先让权重变小,可能导致 欠拟合 (模型过于简单,无法捕捉数据中的有效模式)。 (1/2) :添加1/2是为了后续求导时的计算方便,导数形式会更简洁。 正则化如何影响模型优化(梯度下降) 模型通过梯度下降法来最小化损失函数。我们来看一下添加L2正则化项后,权重更新过程发生了什么变化。 原始梯度下降(无正则化) : 权重的更新规则为: W := W - α * ∇_ W J(W) 其中α是学习率,∇_ W J(W)是原始损失函数J(W)关于权重W的梯度。 带有L2正则化的梯度下降 : 我们先计算新的损失函数J_ regularized(W)关于W的梯度: ∇_ W J_ regularized(W) = ∇_ W [ J(W) + (λ / 2) ||W||_ F^2] = ∇_ W J(W) + λW (因为(λ/2)项求导后是λW,1/2正好与平方项的导数2相抵消) 此时,权重更新规则变为: W := W - α * (∇_ W J(W) + λW) 我们可以将这个公式重新排列一下: W := W - αλW - α * ∇_ W J(W) W := (1 - αλ)W - α * ∇_ W J(W) “权重衰减”的由来 :观察新的更新公式 W := (1 - αλ)W - ... 。在每次更新权重之前,我们先将当前权重W乘以一个略小于1的因子(1 - αλ)。这一步操作 独立于梯度 ,它会在每一步都让权重值有一个微小的、稳定的收缩(或曰“衰减”),然后才进行正常的梯度更新。这就是“权重衰减”名称的由来。超参数αλ共同决定了衰减的速率。 L2正则化的效果总结 抑制大权重 :通过惩罚大的权重值,使权重向量整体上更加平滑、数值更小。 降低模型复杂度 :实质上等价于强制要求模型使用所有特征,但不能过度依赖其中任何一个,从而学习到一个更简单、更稳定的决策边界。 提升泛化能力 :通过减轻过拟合,使模型在未知数据(测试集)上的表现更好。 关键点回顾 目标 :防止Softmax回归模型过拟合。 手段 :在损失函数中增加权重的L2范数平方作为惩罚项。 核心超参数 :λ(正则化强度),需要根据验证集性能进行调整。 优化影响 :在梯度下降中,等效于在每一步更新前先对权重进行衰减。 通过引入权重衰减,我们为Softmax回归模型增加了一个有效的“刹车”机制,引导它走向一个泛化能力更强的解。