L1、L2正则化

从概率角度推导


本部分引知乎用户bsdelf

从概率论的角度:

  1. $Least Square$的解析解可以用$Gaussian$分布以及最大似然估计求得
  2. $Ridge$回归可以用$Gaussian$分布和最大后验估计解释
  3. $Lasso$回归可以用$Laplace$分布和最大后验估计解释

首先假设线性回归模型具有如下形式:

其中$\mathbf{x}\in \mathbb{R}^{1\times d},\mathbf{w}\in \mathbb{R}^{n\times d}$,误差$\epsilon\in\mathbb{R}$。

当前一直$\mathbf{X}=(\mathbf{x_1,x_2,…,x_n})^T\in\mathbb{R}^{n\times d},\mathbf{y}\in\mathbb{R}^{n\times 1}$,怎样求$\mathbf w$呢?

策略1:假设$\epsilon_i\sim N(0,\sigma^2)$,也就是说$\mathbf{y_i}\sim N(\mathbf{x_iw^T,\sigma^2})$,那么用最大似然估计推导:

$\arg\max_{\mathbf{w}}L(\mathbf{w})$

$=\ln \prod^n_{i=1}{1\over \sigma\sqrt{2\pi}}\exp (-{1\over 2}({\mathbf y_i-\mathbf{x_iw^T}\over\sigma})^2)$

$-{1\over 2\sigma^2}\sum^n_{i=1}(\mathbf y_i-\mathbf{w_iw^T})^2-n\ln \sigma\sqrt{2\pi}$

$\arg\min_{\mathbf w}f(\mathbf w)$

$=\sum^n_{i=1}(\mathbf y_i-\mathbf{x_iw^T})^2$

$=||\mathbf y-\mathbf{Xw^T}||^2_2$

这不就是最小二乘吗?

策略2:假设$\epsilon_i\sim N(0,\sigma^2)$,$\mathbf w_i\sim N(0,\tau^2)$,那么最后又最大后验估计推导:

$\arg\max_\mathbf{w}L(\mathbf w)$

$=\ln\prod^n_{i=1}{1\over \sigma\sqrt{2\pi}}\exp(-{1\over 2}({\mathbf y_i-\mathbf{x_iw^T}\over \sigma})^2)·\prod^d_{j=1}{1\over \tau\sqrt{2\pi}}\exp(-{1\over 2}({\mathbf w_j\over\tau})^2)$

$=-{1\over 2\sigma^2}\sum^n_{i=1}(\mathbf{y}_i-\mathbf{x_iw^T})^2-{1\over 2\tau^2}\sum^d_{j=1}\mathbf w^2_j-n\ln\sigma\sqrt{2\pi}-d\ln\tau\sqrt{2\pi}$

$\arg\min_\mathbf wf(\mathbf w)$

$=\sum^n_{i=1}(\mathbf y_i-\mathbf{x_iw^T})^2+\lambda\sum^d_{j=1}\mathbf w_j^2$

$=||\mathbf y-\mathbf{Xw^T||^2_2+\lambda||\mathbf w||^2_2}$

这不就是$Ridge$回归吗?

策略3:假设$\epsilon_i\sim N(0,\sigma^2)$,$\mathbf w_i\sim Laplace(0,b)$,那么最后又最大后验估计推导:

$\arg\max_\mathbf{w}L(\mathbf w)$

$=\ln\prod^n_{i=1}{1\over \sigma\sqrt{2\pi}}\exp(-{1\over 2}({\mathbf y_i-\mathbf{x_iw^T}\over \sigma})^2)·\prod^d_{j=1}{1\over 2b}\exp(-{|\mathbf w_j|\over b})$

$=-{1\over 2\sigma^2}\sum^n_{i=1}(\mathbf{y}_i-\mathbf{x_iw^T})^2-{1\over 2\tau^2}\sum^d_{j=1}|\mathbf w_j|-n\ln\sigma\sqrt{2\pi}-d\ln\tau\sqrt{2\pi}$

$\arg\min_\mathbf wf(\mathbf w)$

$=\sum^n_{i=1}(\mathbf y_i-\mathbf{x_iw^T})^2+\lambda\sum^d_{j=1}|\mathbf w_j|$

$=||\mathbf y-\mathbf{Xw^T||^2_2+\lambda||\mathbf w||_1}$

这不就是$Lasso$吗?

$L1、L2$正则化各自的特点


$L1$正则化

$L1$范数是指向量中各个元素绝对值之和,也叫“稀疏规则算子”。那么为什么$L1$范数会使权值稀疏?实际上:任何规则化孙子,如果它在$w_i=0$的地方不可微,并且可以分解为一个”求和”的形式,那么这个规则化算子就可以实现稀疏

权值稀疏的好处:

1)特征选择:

没有信息的特征权值比较小。

2)可解释性

我们可以相信权重非0的特征上面提供的信息远大于筛选掉的信息

$L1$正则化不可导

L1不可导可以使用$Proximal Algorithms$或者$ADMM$来解决。

$L2$正则化

$L2$范数又称“岭回归”,也叫“权值衰减”。让权值都趋向0,可以修正过拟合,原因可能权值系数小了,模型“多项式性”就不明显了?。

1)学习理论角度:

$L2$范数可以防止过拟合,提升模型泛化能力

2)优化计算角度:

$L2$有助于处理$condition number$不好的情况

这篇知乎文章对$L2$正则化从四个方面深度剖析。

  1. $mse$损失函数

    为使其达到最小,则关于$w$的偏导为0:

    然而会存在$X^TX$不可逆的情况。为了避免这个问题,将$X^TX$矩阵的对角元素增大一个量$\lambda$,变成$X^TX+\lambda I$。相当于在矩阵$X^TX$中的对角线上加一个值增高他的山岭。山岭增高后矩阵变成可逆的。带入得:

  2. 从贝叶斯的角度,假设$w$服从$N(0,\sigma^2I_p)$分布,在最大似然的基础上加入了$w$的先验知识,相当于极大化后验概率。求解该极大化的后验概率,对应的先验知识就是正则化部分

  3. $L2$正则化的解相当于先对数据做了主成分分析,然后对于方差小的主成分方向进行惩罚。主成分分析原样保留大方差方向,去掉小方差方向,相当于一个硬选择。而$ L2$ 正则根据方差的大小施加不同程度的惩罚,相当于软选择。

0%