目录
10.1简单线性回归分析
1.描述性统计分析
2.对数据进行相关性分析
3.对数据进行回归分析的结果
4.变量的方差-协方差矩阵
5.对变量系数的假设检验结果
6.对因变量的拟合值的预测
7.回归分析得到残差序列
案例延伸
1.在回归方程中不包含常数项
2.限定参与回归的样本范围
3.关于回归预测
10.2多重线性回归分析
案例延伸
1.自动剔除不显著的变量
回归分析是经典的数据分析方法之一,应用广泛。它是研究分析某一变量受到其他变量影响的分析方法,基本思想是以被影响变量为因变量,以影响变量为自变量,研究因变量与自变量之间的因果关系。本章主要介绍最简单最常用的最小二乘线性回归分析方法(包括简单线性回归、多重线性回归)的应用。
10.1简单线性回归分析
简单线性回归又称一元线性回归分析,是最简单也是最基本的一种回归分析方法。简单线性回归的特色是只涉及一个自变量,主要用来处理一个因变量一个自变量之间的线性关系,建立变量之间的线性模型并根据模型进行评价和预测。
数据(案例10.1)菲利普斯曲线表明,失业率和通货膨胀之间存在着替代关系。案例10.1给出了我国1998年-2007年的通货膨胀率和城镇登记失业率。使用简单回归分析方法研究这种替代关系在我国是否存在。
1.描述性统计分析
进行描述性统计是要看数据是否存在异常值(非常大、非常小),也有些时候各个变量之间的额量纲差距过大,例如某个变量是几百万,同时另一个变量是零点几,那么系统可能会把小变量忽略掉,这些都会严重影响数据的回归分析结果。
summarize year inflation unwork,detail #旨在对年份、通货膨胀率、失业率进行详细描述性分析
通过上图我们可以的到很多信息,包括百分位数、4个最小值、4个最大值、平均值、标准差、偏度、峰度等。此部分解释在第三章中有着详细解说。由于我太懒所以我就不想多说了。
2.对数据进行相关性分析
相关性分析是回归分析中非常重要的一部分,因为回归分析的本意就是研究自变量对因变量的影响关系,如果参与回归分析的变量本身就是不相关的,那么回归分析就会失去意义。如果通过回归分析探索出变量之间存在着一定关系,那么这种关系也未必是真是的。他可能仅仅是由于数据特征的某种巧合而拟合出了回归模型。综上所述,变量之间存在存在相关关系是进行回归分析的必要前提。
correlate year inflation unwork #本指令是对三个变量进行相关性分析
3.对数据进行回归分析的结果
从上面的结果中我们可以看到,共有10个样本参与了分析,模型F值(1,8)=5.36,P值(Prob > F)=0.0493,说明模型整体是非常显著的。模型的可决系数(R-squared)为0.4011,模型修正的可决系数(Adj R-squared)=0.3263,说明模型的解释能力还是差强人意的。
模型的回归方程是:
unwork=0.157083*inflation+3.0600665
变量inflation的系数标准误是0.0678616,t值是2.31,P值为0.049,系数是非常显著的,95%的置信区间为[0.0005938,0.3135721]。常数项的系数标准误是0.148548,t值为24.21,P值为0.000,系数也是非常显著的,95%的置信区间是[3.257635,3.943694]。
从上面的分析可以看出通货膨胀率和失业率之间是一种正向联动变化关系,通货膨胀率每增加一点,失业率就增加0.157点。通货膨胀和失业率的替代关系在我国并不存在。
4.变量的方差-协方差矩阵
vce #本命令是获得参与回归的各自变量的系数以及常数项的方差-协方差矩阵
我们可以看出,变量的方差与协方差都不是很大。
5.对变量系数的假设检验结果
test inflation #本命令的含义是检验变量通货膨胀率的系数是否显著
我们可以看出通货膨胀率的系数是非常显著的,在5%的显著性水平上通过了检验。
6.对因变量的拟合值的预测
predict yhat #旨在对因变量的拟合值进行预测
因变量预测拟合值是根据自变量的值和得到的回归方程计算出来的,主要用于预测来。上图中我们可以看到yhat的值与unwork的值是比较接近的,所以拟合的回归模型还是不错的。
7.回归分析得到残差序列
predict e ,resid #本命令旨在获得回归后的残差序列
残差序列是很有用处的。例如,它可以用来检验变量是否存在异方差,也可以用来检验变量间是否存在协整关系等。在后续章节将会进行详细说明,这里不再赘述。
案例延伸
1.在回归方程中不包含常数项
regress unwork inflation,nocon
2.限定参与回归的样本范围
regress unwork inflation if year>=2000
3.关于回归预测
将数据年份拓展到2008年,假定该年的通货膨胀率为5%,把样本数据输入到数据文件中,然后进行预测,操作命令如下:
predict yyhat
我们可以预测出了因变量的数据,预测的失业率将会是4.221404%。
10.2多重线性回归分析
多重线性回归分析也称多元线性回归分析,多重线性分析涉及到多个自变量,用来处理一个因变量与多个自变量之间的线性关系,建立变量之间的线性模型并根据模型进行评判。
数据(案例10.2)是为了检验没过电力行业是否存在规模经济,Nerlove(1963)收集了1955年145家没过电力企业的总成本(TC)、产量(Q)、工资率(PL)、燃料价格(PF)、以及资本租赁价格(PK)的数据。试以总成本为因变量,以产量、工资率、燃料价格和租赁价格为自变量,利用多重线性回归扽系方法研究其间的关系。
sum TC Q PL PF PK,detail #本命令旨在对这些变量进行描述性统计分析
correlate TC Q PL PF PK #本命令的含义主要是观察因变量TC和其他变量之间的相关新关系
regress TC Q PL PF PK #本命令的含义是以TC为因变量进行多重线性回归分析
vce #本命令的含义是获得参与回归的各自变量的系数以及常数项的方差-协方差矩阵
test Q PL PF PK #本命令的含义是检验各自变量系数的联合显著性
predict yhat #本命令的含义是对因变量的拟合值进行预测
predict e, resid #本命令的含义是获得回归后的残差序列
regress TC Q PL PF #在前面我们的回归分析中我们可以看到PK的系数并不显著所以剔除掉PK
上述结果不再过多赘述。
案例延伸
1.自动剔除不显著的变量
sw regress TC Q PL PF PK,pr(0.05)