统计学习
最近一直在处理数据,发现自己的理论基础不够,在某些小细节上做不好选择。
因此,开始了这趟补习之旅,将学习成果总结出来,也方便大家的学习于讨论。
线性回归分析
线性回归分析,是一个很强大的工具。它可以通过一个已知的变量的值,进而推断一个未知的变量的确切的值。
更精确地说,如果X和Y是两个相关的变量,那么线性回归分析会帮助我们在给定x的情况下预计y的值,反之亦然。
举栗子,一个人的年龄和他的成熟度是相关的变量,那么线性回归分析可以在给定年龄的情况下预测他的成熟度。
非独立和独立变量
在线性回归模型中,我们假设模型只有一个独立和一个依赖变量。等待被预测的变量的值别认为是依赖变量,另一个别用来预测其他变量的变量则是独立变量。
两条回归线
这里有两条回归线-y对x的,以及x对y的。
y对x的回归线可以通过y=a+bx确定,其中a和b是未知常量,分别代表方程的截距和斜率。它被用来预测变量y的未知值,当值x已知的时候。
Y=a+bX
Y
=
a
+
b
X
另一方面,x对y的回归线可以通过方程X=c+dy,该方程可以在给出变量y的值之后,用来计算x的值。通常一般只需要计算出两条线中的一条。
确切地说,哪条线适合于手上的分析将取决于待分析的问题中的依赖变量和独立变量的定义。
线性回归的选择
例如,考虑两个变量,作物产量(Y)和降雨量(X)。在这里,构造y对x的回归线是有意义的,并且能够证明作物产量对降雨的依赖性。然后我们就能估算出给定降雨时的作物产量。
粗心的线性回归分析的使用者可能会构建一条X对Y的回归线的,这将给出降雨依赖于作物产量的可笑预测;这表明如果你长出很大的庄稼,你可以保证马上有一场大雨要来。
回归系数
Y对X的回归系数R,称为y对x的回归系数,它表示与独立变量(x)的单位变化对量应的因变量(y)的值的变化。
例如,如果Y对X的回归系数是0.53单位,则可以认为如果x增加了1单位,Y将增加0.53。对于Y对X的回归系数,可以给出相应类似的解释。
一旦构造回归线,就可以通过检查确定系数(R2)来检验它的优良(在预测能力方面)。R2总是介于0和1之间。每当运行回归过程时,所有软件都会提供它。
R2−定义协同因子
R
2
−
定
义
协
同
因
子
R2越接近1,模型和预测能力越好。一个相关的问题是自变量是否显著地影响因变量。统计上,等价于检验回归系数为零的零假设。这可以用t检验来完成。
线性的假设
线性回归并不检验数据是否是线性的。它只在假设独立变量和因变量之间的关系可以用直线来最好地解释,确定了斜率和截距。
可以通过画出散点图来确认这个假设,如果散点图表示没有线性关系,通常一个更适宜的变换可以用来构造出线性关系。