Logistic Regression的理解

逻辑斯地回归模型

逻辑斯谛分布

设$X$是连续随机变量,$X$服从逻辑斯谛分布是指$X$具有下列分布函数和密度函数:

式中,$\mu$为位置参数,$\gamma\gt0$为形状参数。密度函数与分布函数如下图所示。

注:逻辑斯谛分布的回归会在从广义线性模型角度理解LR时给出

二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是一种分类模型,由条件概率分布$P(Y|X)$表示,形式为参数化的逻辑斯谛分布。这里,随机变量取值为实数,随机变量Y,取值为1或0,即Y满足二项分布。

定义:二项逻辑斯谛回归模型是如下的条件概率分布:

一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是$p$,那么该事件的几率是${p\over 1-p}$,该事件的对数几率或者logit函数是:

这里$logit(p)$就是广义线性模型中的$\eta$。

对于逻辑斯谛回归而言

从广义线性模型角度,二项分布指数族解出的$\eta = \log{p\over 1-p}=logit(p)$,又由第三条假设,$\eta=wx$即可得到$\log {p\over 1-p}=wx$,求解出$p$来就是$P(Y=1|X)$的概率,又因为二项分布期望为$P$,所以收敛的结果就是$P$.

模型参数估计

逻辑斯谛回归模型学习中,对于给定的训练数据集$T=\{(x_1,y_1),(x_2,y_2),…,(x_N,y_n)\}$ ,其中,$x_I\in R^n,y_i\in\{0,1\}$,可以应用极大似然估计法估计模型参数,从而得到逻辑斯谛回归模型。设:

似然函数为

对数似然函数为

从最大熵模型角度理解LR

LR是最大熵模型在类别为2时候的特例

假设每条输入第$i$个特征对第$k$类的贡献是$w_{ki}$,则数据点$(x_1,x_2,…,x_n)$属于第$k$类的概率正比于$exp(w_{k1}x_1+w_{k2}x_2+…+w_{kn}x_n)$。

根据最大熵模型:

现在回到两类的情况$\{0,1\}$,此时分母上有两项:

分子、分母同时除以分子,则有:

这就变成了$logistic$函数。

从广义线性模型角度理解LR

线性回归中我们假设:

$LR$中我们假设:

其实他们只是广义线性模型($GlMs$)的特例。

自己的理解

广义线性模型是通过链接函数($LR$中为$logit$函数),把自变量的线性组合($\eta$ 自然参数/标准参数)与因变量($T(y)$)的期望联系起来。

注:$LR$也可以说与因变量的概率分布结合起来,因为二项伯努利分布$E=P$

指数分布族($The exponential family$)

首先我们定义一下什么是指数分布族,它有如下形式($\eta$自变量,$y$因变量):

简单介绍一下其中的参数:

1.$\eta $是自然参数

2.$T(y)$是充分统计量(一般情况下$T(y)=y$)

3.$a(\eta)$是$\log partition function$( $ exp(-a(\eta))$充当正规化常量的角色,保证$\sum p(y;\eta)=1 $)

也就是说$T,a,b$确定了一种分布,$\eta$是该分布的参数。

选择合适的$T,a,b$我们可以得到高斯分布和$Bernouli$分布

广义线性模型的形式化定义

GLM有三个假设:

1.$y|x;\theta$~$ExpFamily(\eta)$(某指数分布族);给定样本$x$与参数$\theta$,样本分类$y$服从指数分布族中的某个分布;

2.给定一个$x$,我们需要的目标函数为$h_{\theta}(x)=E[T(y)|x]$

3.$\eta=\theta^Tx$

推导过程

0%