当前位置: 主页 > 论文库 > 教育 > 高等教育 >

Logistic模型的极大似然估计

时间:2012-10-24 10:23 来源:www.lunwen163.com 作者:163论文网 点击:

摘要:Logistic模型是对二值因变量(即 或 )进行回归分析时广泛采用的模型。本文利用Bayes分析取得的成果,给出了基于两步数据扩张的logistic模型的参数估计的EM算法。
关键词:  Logistic模型,极大似然估计,EM算法,混合模型,极值分布
中图分类号:O212.1            文献标识码: A             文章编号:

0  引言
Logistic模型是对二值因变量(即 或 )进行回归分析时广泛采用的模型。logistic模型的参数估计问题,传统的方法是用数值算法搜索似然函数的极大值点,该方法应用时有两个缺点:一是搜索算法不是基于概率统计的思想,显得不够自然;二是不适合回归自变量较多的情形,因为数值搜索算法在高维空间中的效率是成问题的。1977年Dempster等人提出了EM算法 ,然而,EM算法不能直接用于logistic模型 。最近,logistic模型的Bayes分析  取得了很大的进展,然而,Bayes估计一般缺乏精度,而且Monte Carlo搜索算法 一般需要很大的计算量。因此,就参数估计而言,极大似然估计依然是最佳的选择。本文利用最近Bayes分析方面取得的成果,讨论了基于两步数据扩张的logistic模型的参数估计的EM算法.
1  Logistic模型的极大似然估计的基础推导
假设 是一列二项数据的观测值,其中 则有二项logistic回归模型:P( | )  ,其中 是回归自变量, 是 维回归参数.
1.1 Logistic模型似然函数的相关推导
假设有 个观测构成的总体, ,从中随机抽取 个作为样本,观测值为 .可设 为给定 的条件下得到结果 的条件概率,而在同样条件下得到结果 的条件概率为 .于是得到一个观测值的,概率为
                         (1)
其中 或 ,式中 或者 只是表示对于一个特定观测。当 时, ,否则, .
因为各项观测值相互独立,所以它们的联合分布可以表示为各边际分布的乘积:
                             (2)  
上式(2)也称为 个观测的似然函数,对于logistic回归模型模型来说,这是充分的统计量。因为 是 的单调函数,所以为了达到似然函数 的最大化,只需使自然对数变化式(即 )最大。其logistic模型的对数似然值 为:
  (3)
从式(4)可以看出 的最大似然估计,就是通过对给定的 代入数据对似然函数求最大值就是可以得到。
1.2  数据放大
对于二项logistic回归模型,EM算法是不能直接对其进行使用的,所以此处采用数据放大,也就是Friihwirth—Sclmatter and Friihwi(2007)提出的两步数据扩张的方法,引入隐藏变量,将二项logistic回归模型转化为误差项服从正态分布的线性回归模型 。
首先,引入隐藏变量 ,代表观测类别为0,其中 独立于任何已知变量;同时引入隐藏变量 代表观测类别为1。其中,
 ,                                    (4)
 的定义是:若 ,则有 ;反之有 .
数据放大的第一个步骤是对于每一个 都引入代表观测类别为1的隐藏变量 作为缺失数据,从而问题可以转化为处理线性模型 .对于回归参数 采用Metropolis-Hastings方法进行了的估计计算;而第二步则是为每个误差项 设置一个隐藏的指示变量 ,从而通过混合正态分布得到 中的近似密度 在 已知的情况下, 可以简化为带异方差性误差的高斯回归模型: .这时,logistic模型在经过两步数据扩张后,成功地转化成了一个我们熟悉的正态线性模型。对于这个模型可以基于两组辅助混合抽样得到 的条件后验是一个多项正态分布,具结论列出如下:
当 ,则可以得到 ,在这样的情况下我们得到结论
当 ,则可以得到 ,在这样的情况下我们得到结论 其中
令 ,可以得到条件概率密度函数:
     (5)
联合密度函数:
 (6)
得完全数据的似然为:
 (7)

2  EM算法的推导
2.1模型的参数估计的EM算法(E步)
记 是迭代开始时所得的估计值,进行E步的推导如下(即求解对数似然函数的条件期望):令 ,则可以得到
 当 时,对上面的式子进行积分运算,得:
    同理,当 时,有:
 
由上述推导,可以得到:
   
其中,
2.2 模型的参数估计的EM算法(M步)}
关于 求导, ,令
当 是可逆方阵时, 由 得到:
  ,          
  ,            
 ,       
当 为一般矩阵时,利用Newton-Raphson法有:
 
其中 是 矩阵中对应的第 个个体向量, 为回归系数。此处,只需在给出 的估计初始值的情况下,重复上述方程中的步骤,只需对数似然函数的变化小于某一个指定值为止。

3 总结
  我们将上述方法做一个总结:采用了这种数据放大的方法,将logistic回归模型化成了误差项服从混合正态分布的线性回归模型,在此基础上再进行了参数估计的EM算法。和之前最普遍使用的Bayes分析方法比较,有两个明显的优越性:
1.用Bayes方法对logistic回归模型分析时必然会涉及到Monte-Carlo方法,这一定会带来精度缺乏的问题,我们用EM算法对logistic回归模型进行极大似然运算是,可以让结果更为精确。
2.用Bayes方法对logistic回归模型分析时无疑会有很大的计算量,绝大多数需要迭代千次甚至是上万次,而用EM算法对logistic回归模型进行极大似然运算时,会发现需要迭代的次数会明显减少。

参考文献:
[1] Dempster, A. P., Laird, N. M., Rubin, D. B., 1977.Maximum likelihood from incomplete data using the EM algorithm (with discussion), J. R. Stat. Soc. B,39: 1- 38.
[2] Blimes, J.A. 1998. Gentle tutorial of the EM algorithm and its application to parameter for Gaussian mixture and hidden markov model,  April 25, 97–121.
[3] Holmes, C. C. and L. Held. 2006. Bayesian auxiliary variable models for binary and multinomial regression, Bayesian Analysis 1, 145–168.
[4] Lenk, P. J. and W. S. DeSarbo. 1998. Bayesian inference for finite mixtures of generalized linear models with random effects 95, 724–727.
[5] GU M.G., Kong F.H.,1998,Asochastic Appraximiation Algorithm with Markov Chain Monte-Carla Method for Incomplete Data Estimation Problems,Proceeding of National Academy Sciences,95:7270-7274.
[6] Sylvia Frühwirth-Schnattera, Rudolf Frühwirth, Auxiliary mixture sampling with applications to logistic models, Computational Statistics & Data Analysis 51 (2007) 3509 – 3528.