《回归分析》素材2 新人教B版必修2-3
展开回归分析的基本思想及其初步应用知识梳理
一.线性回归方程的确定
如果一组具有相关关系的数据 作出散点图大致分布在一条直线附近,那么我们称这样的变量之间的关系为线性相关关系(也称一元线性相关),这条直线就是回归直线,记为.
那么如何求得参数使得各点与此直线的距离的平方和为最小,即如何求得线性回归方程呢?
高考资源网 在所求回归直线方程中,当取时,与实际收集到的数据之间的偏差为,偏差的平方为(如图1).
即 来刻画出个点与回归直线在整体上的偏差的平方和,显然Q取最小值时的的值就是我们所求的:
其中为样本数据,为样本平均数,称为样本点中心,且所求线性回归直线经过样本点中心(如图2所示).
当回归直线斜率时,为线性正相关, 时为线性负相关.
应注意,这个最小距离不是通常所指的各数据的点到直线的距离,而是各数据点沿平行y轴方向到直线的距离(如图1所示).
对于上面参数的求法原理及方法是简单的,但是运算量较大,需要将展开,再合并,然后配方整理,从而求得.
例如,当取怎样实数时, 的值为最小,显然当时最小值为,像这样配方求最值的方法是经常用到的, 线性回归方程中的参数就是这样求出的.
教材中用了添项法较为简捷的求出了截距和斜率分别是使取最小值时的值.
求得,的值,请同学们体会其解法.
线性回归方程的确定是进行回归分析的基础.
二.回归分析:是对具有相关关系的两个变量进行统计分析的一种常用方法.
1.线性相关关系的强弱
两个变量之间线性相关关系的样本相关系数衡量线性相性关系的强弱,由于分子与斜率的分子一样,因此,当时,两个变量正相关;当时两个变量负相关.当的绝对值接近1,表明两个变量的线性相关性很强;当的绝对值接近0,表明两个变量之间几乎不存在线性相关关系.规定当时,我们认为两个变量有很强的线性相关关系.
2.解释变量与随机误差对预报精度的影响以及残差分析
(1)有关概念
线性回归模型
其中和为模型的未知参数;
称为解释变量,称为预报变量;
是与之间的误差,
叫随机误差。
随机误差的估计值为
称为相应于样本点的残差(如图3).
(2)随机误差的方差估计值衡量回归方程的预报精度
由于随机误差的均值=0,
因此,可以用随机误差的方差估计值= (其中,残差平方和为)衡量回归方程的预报精度,显然越小,预报精度越高。
(3)通过残差分析判断模型拟合效果
由计算出残差,,…,,然后选取横坐标为编号、或解释变量或预报变量,纵坐标为残差作出残差图.通过图形分析,如果样本点的残差较大,就要分析样本数据的采集是否有错误;另一方面,可以通过残差点分布的水平带状区域的宽窄,说明模型拟合效果,反映回归方程的预报精度.
3.相关指数反应模型的拟合效果
=
(1)变量理解:
为总偏差平方和,表示解释变量和随机误差产生的总的效应;
为残差平方和,表示了随机误差效应;
,表示了解释变量效应.
(2)模型拟合效果
,反映了随机误差对预报变量(总效应)的贡献率;
反映了解释变量对预报变量(总效应)的贡献率; 因此,越接近1(即越接近0),表示回归的效果越好,
即解释变量和预报变量的线性相关性越强.
三.非线性回归的问题转化为线性回归问题
(1)作散点图确定曲线模型
根据收集的数据作散点图(如图4),
可见两个变量不呈线性相关关系.而是
分布在某一条指数函数曲线的
周围,也可以认为样本点集中在某二次
曲线的附近.
(2)非线性转化为线性
这时通过对数变换把指数关系
变为线性关系;通过换元把二次函数关系变换为
线性关系. 在这两种情况下就可以利用线性回归模型,建立和之间的非线性回归方程了.
(3)比较两种模型的拟合效果
对于给定的样本点
ⅰ可以通过转换后的对应数表作散点图来确定线性回归的拟合情况,判断选用哪一种曲线模型较为合适;
ⅱ可以通过原始数据及和之间的非线性回归方程列出残差对比分析表,一
般通过残差平方和比较两种模型的拟合效果,显然残差平方和较小的拟合效果较好;
ⅲ还可以用来比较两个模型的拟合效果,越大(越接近1),拟合效果越好。
高考资源网