一、Logistic概念
Logistic回归是一种广义线性回归,适用于因变量为分类变量的回归分析,研究分类变量(因变量)与影响因素(自变量)之间的关系,实际中最为常用的就是二分类的Logistic回归。
二、Logistic与多重线性回归区别
多重线性回归:自变量和因变量是连续变量;资料符合正态性、线性等条件要求;主要用于研究一个因变量与多个自变量之间依存关系。
Logistic回归:主要用于筛选疾病的危险因素,作病因分析;控制和校正混杂因素的影响;其因变量是分类变量,自变量可以是分类变量,也可以是连续变量;自变量X与因变量Y之间无线性关系;属于概率型非线性回归方法。
三、什么情况下用Logistic回归
二分类变量如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露,此类资料不满足多元回归的条件。
适用条件
1、因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。
2、残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
3、自变量和Logistic概率是线性关系。
4、各观测对象间相互独立。
四、案例分析
此处用中国中医药出版社教材、徐刚主编全国中医药行业高等教育“十三五”创新教材《医学统计方法学》案例:欲分析2型糖尿病相关危险因素的研究,分别调查了2型糖尿病患者495例,健康对照998例,调查项目包括性别、年龄、文化程度、饮酒情况、睡眠质量、体力活动以及吸烟情况7个相关因素的资料。
分析思路:
案例因变量Y为2型患病与否,属于二分类变量。病例与对照没有进行匹配设计,此时想要研究各调查因素性别X1、年龄X2、文化程度X3、饮酒情况X4、睡眠质量X5、体力活动X6以及吸烟情况X7与二分类因变量间的数量依存关系,选择非条件二分类Logistic回归分析。
操作步骤
1.建立数据文件
定义变量,输入数据,建立数据文件
此处用中国中医药出版社教材、徐刚主编全国中医药行业高等教育“十三五”创新教材《医学统计方法学》数据:
2.分析步骤
在数据视图中选择
①【分析—回归—二元Logistic】
②【将因变量Y移入因变量,协变量X1-X7移入协变量 】
若协变量为分类变量,移入分类协变量,参考类别更改为第一个,即结果以分类协变量的第一个分类为参考。
③【保存—选中概率、组成员】
④【选项—选中Hosmer-Lemeshow拟合度、exp(B)的CI(X):95%—继续—确认】
3.对结果进行解释
(1)对所建立的回归模型进行假设检验
卡方为146.486,P<0.001的检验水准下,表明建立起来的回归模型至少有一个自变量的作用有意义,所以回归模型有统计学意义。
(2)对回归模型进行评价
(3)霍斯默-莱梅肖检验
(4)所建立起来的回归模型的预测准确性进行评估
结果显示利用此回归模型预测的准确率可达到67.8%。
(5)建立的回归模型的参数估计与检验
OR值:优势比,扣除其他自变量的影响后某一自变量对于肺癌的作用。
B:回归系数
当B=0时,OR=1,表示暴露因素与疾病结局间不存在关联;当B>0时,OR>1,表示暴露因素是疾病的危险因素;当B<0时,OR<1,表示暴露因素是疾病的保护因素。
所有纳入的自变量中最终有意义的自变量为X4,X5,X6,X7。
饮酒情况X4的回归系数为1.508,Waldx2为8.926,P=0.003,有统计学意义,OR值为4.158,说明饮酒人群患2型糖尿病是不饮酒人群的4.158倍;
睡眠质量X5的回归系数为0.486,Waldx2为26.803,P<0.001,有统计学意义,OR值为1.626,说明睡眠质量每降低一个等级人群患2型唐尿病的危险是上一个等级的1.626倍;
体力活动X6的回归系数为-0.173,Waldx2为4.107,P=0.043,有统计学意义,OR值为0.841,说明体力活动每增加一个等级人群患2型糖尿病的危险是上一个等级的0.841倍;
吸烟情况X7的回归系数为1.206,Waldx2为72.112,P<0.001,有统计学意义,OR值为3.340,说明吸烟人群患2型糖尿病是不吸烟人群的3.340倍。
其建立起的Logistic 回归方程为:Logit(P)=-3.093+0.015X1-0.094X2+0.107X3+1.508X4+0.486X5-0.173X6+1.206X7
(6)此时在数据视图窗口中出现了预测概率值
(7)应用Forward LR逐步法,进入模型标准为0.05,剔除模型标准为0.10
利用逐步回归法得到
饮酒情况X4的回归系数为1.401,WaldX2为7.878,P=0.005,有统计学意义,OR值为4.058,说明饮酒人群患2型糖尿病是不饮酒人群的4.058倍;
睡眠质量X5的回归系数为0.473,WaldX2为25.581,P<0.001,有统计学意义,OR值为1.604,说明睡眠质量每降低一个等级人群患2型糖尿病的危险是上一个等级的1.604倍;
吸烟情况X7的回归系数为1.174,Wald X2为100.287,P<0.001,有统计学意义,OR值为3.235,说明吸烟人群患2型糖尿病是不吸烟人群的3.235倍。
其建立起的 Logistic 回归方程为:
Logit(P)=-3.616+1.401X4+0.473X5+1.174X7
本例中Logistic逐步回归模型引入的所有自变量的回归系数都有统计学意义,相较于全进入法要好。
但预测的准确率方面,只有常数项时模型预测准确率为66.8%,筛选变量引入后,模型预测准确率为68.3%,只提高了1.5%,Cox & Snell R2以及 Nagelkerke R2系数分别为0.088与0.122,说明该回归模型的预测能力不够强。