高考数学一轮复习第9章概率与统计第6讲回归分析与独立性检验课件
展开(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系.
(2)将样本中 n 个数据点(xi,yi)(i=1,2,…,n)描在平面直角坐标系中,表示两个变量关系的一组数据的图形叫做散点图.
(3)正相关、负相关.
①在散点图中,点散布在从左下角到右上角的区域,两个
变量的这种相关关系称为正相关.
②在散点图中,点散布在从左上角到右下角的区域,两个
变量的这种相关关系称为负相关.
(1)定义:对具有相关关系的两个变量进行统计分析的一种
观察散点图的特征,如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归直线的求法:
得到回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法,则回归直线
(4)线性相关强度的检验:
②当 r>0 时,表明两个变量正相关;
当 r<0 时,表明两个变量________.
r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关系.通常|r|>0.75 时,认为两个变量有很强的线性相关性.
R2 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2 表示解释变量对于预报变量变化的贡献率,R2 越接近于 1,表示回归的效果越好.
(1)分类变量:变量的不同“值”表示个体所属的不同类
别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量 X 和 Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为
(3)独立性检验:利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独立性检验.
1.某省二线城市地铁正式开工建设,地铁时代的到来能否缓解该市的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
A.有 95%的把握认为“对能否缓解交通拥堵的认识与性别
B.有 95%的把握认为“对能否缓解交通拥堵的认识与性别
C.有 99%的把握认为“对能否缓解交通拥堵的认识与性别
D.有 99%的把握认为“对能否缓解交通拥堵的认识与性别
解 析 : 由 2×2 列 联 表 , 可 求 K2 的 观 测 值 , k =
P(K2≥3.841)=0.05,∴有 95%的把握认为“能否缓解交通拥堵的认识与性别有关”.答案:A
解析:∵变量 x 和 y 正相关,则回归直线的斜率为正,故可以排除选项 C 和 D.∵样本点的中心在回归直线上,把点(3,3.5)分别代入选项 A和 B 中的直线方程进行检验,可以排除 B.故选 A.
3.对四组数据进行统计(如图 9-6-1),获得以下关于其相关
系数的比较,正确的是(A.r2
解析:依题意,画散点图,如图 D111,两个变量负相关,
(2)已知 x 与 y 之间的几组数据如下表:
(3)(2018 年福建泉州模拟)某厂在生产甲产品的过程中,产
量 x(吨)与生产能耗 y(吨)的对应数据如下表:
例 2:(2015 年新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单位:t)和年利润 z(单位:千元)的影响,对近 8 年的宣传费 xi 和年销售量 yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图(如图 9-6-2)及一些统计量的值.图 9-6-2
(2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方
(3)已知这种产品的年利润 z 与 x,y 的关系为 z=0.2y-x,根据(2)的结果回答下列问题:①当年宣传费 x=49 时,年销售量及年利润的预报值是多少?②当年宣传费 x 为何值时,年利润的预报值最大?
(2)回归分析是处理变量相关关系的一种数学方法.主要解决:①确定特定量之间是否有相关关系,如果有,就找出它们之间的数学表达式;②根据一组观察值,预测变量的取值及判断变量取值的变化趋势;③求出回归直线方程.
1.(2016 年新课标Ⅲ)如图 9-6-3 是我国 2008 年至 2014 年生
活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码 1~7 分别对应年份 2008~2014.
(1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明;(2)建立 y 关于 t 的回归方程(系数精确到 0.01),预测 2016年我国生活垃圾无害化处理量.
例 3:(2019 年新课标Ⅰ)某商场为提高服务质量,随机调查了 50 名男顾客和 50 名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有 95%的把握认为男、女顾客对该商场服务的评价有差异?
【规律方法】解决独立性检验问题的一般步骤:①制作列联表;
要精确到小数点后三位;③查表得出结论,要选择满足条件 P(K2>k0)=α的k0 作为拒绝域的临界值.
2.为了解人们对“延迟退休年龄政策”的态度,某部门从年龄在 15 岁到 65 岁的人群中随机调查了 100 人,将这 100 人的年龄数据分成 5 组:[15,25),[25,35),[35,45),[45,55),[55,65],整理得到如图 9-6-4 所示的频率分布直方图.
在这 100 人中不支持“延迟退休”的人数与年龄的统计结
(1)由频率分布直方图,估计这 100 人年龄的平均数;(2)由频率分布直方图,若在年龄[25,35),[35,45),[45,55)的三组内用分层抽样的方法抽取 12 人做问卷调查,求年龄在[35,45)组内抽取的人数;
(3)根据以上统计数据填写下面的 2×2 列联表,据此表,能否在犯错误的概率不超过 5%的前提下,认为以 45 岁为分界点的不同人群对“延迟退休年龄政策”的不支持态度存在差异?
(3)由频率分布直方图可知,年龄在[15,25),[25,35),[35,45),这三组内的频率和为 0.5,∴45 岁以下共有 50 人,45 岁以上共有 50 人.列联表如下:
∴在犯错误的概率不超过 5%的前提下,认为以 45 岁为分界点的不同人群对“延迟退休年龄政策”的不支持态度存在差异.
例题:某景区的各景点从 2009 年取消门票实行免费开放后,旅游的人数不断地增加,不仅带动了该市淡季的旅游,而且优化了旅游产业的结构,促进了该市旅游向“观光、休闲、会展”三轮驱动的理想结构快速转变.下表是从 2009 年至 2018年,该景点的旅游人数 y(万人)与年份 x 的数据:
该景点为了预测 2021 年的旅游人数,建立了 y 与 x 的两个
50.8x+169.7;
模型②:由散点图(如图 9-6-5)的样本点分布,可以认为样
本点集中在曲线 y=aebx 的附近.
(2)根据下列表中的数据,比较两种模型的相关指数 R2,并选择拟合精度更高、更可靠的模型,预测 2021 年该景区的旅游人数(单位:万人,精确到个位).
解:(1)对 y=aebx 取对数,得 lny=bx+lna,设 u=lny,c=lna,先建立 u 关于 x 的线性回归方程.
【跟踪训练】3.近年来,随着汽车消费的普及,二手车流通行业得到迅猛发展.某汽车交易市场对 2018 年成交的二手车的交易前的使用时间(以下简称“使用时间”)进行统计,得到如图 9-6-6 所示的频率分布直方图.在图 9-6-6 对使用时间的分组中,将使用时间落入各组的频率视为概率.
(1)若在该交易市场随机选取 3 辆 2018 年成交的二手车,求恰有 2 辆使用年限在(8,16]的概率;(2)根据该汽车交易市场往年的数据,得到图 9-6-7 所示的散点图,其中 x (单位:年)表示二手车的使用时间,y (单位:万元)表示相应的二手车的平均交易价格.
试选用表中数据,求出 y 关于 x 的回归方程;
②该汽车交易市场拟定两个收取佣金的方案供选择.甲:对每辆二手车统一收取成交价格的 5%的佣金;
乙:对使用 8 年以内(含 8 年)的二手车收取成交价格的 4%的佣金,对使用时间 8 年以上(不含 8 年)的二手车收取成交价格的 10%的佣金.
假设采用何种收取佣金的方案不影响该交易市场的成交量,根据回归方程和图 9-6-6,并用各时间组的区间中点值代表该组的各个值,判断该汽车交易市场应选择哪个方案能获得更多佣金.
解:(1)由频率分布直方图知,该汽车交易市场 2018 年成交的二手车使用时间在(8,12]的频率为 0.07×4=0.28,使用时间在(12,16]的频率为 0.03×4=0.12.∴在该汽车交易市场 2018 年成交的二手车中随机选取 1辆,其使用年限在(8,16]的概率为 0.28+0.12=0.4,
=e0.55≈1.73;
②根据频率分布直方图和①中的回归方程,对成交的二手汽车可预测:使用年限在(0,4]的频率为 0.05×4=0.2,对应的成交价格的预测值为 e3.55-0.3×2=e2.95≈19.1;使用年限在(4,8]的频率为 0.09×4=0.36,对应的成交价格的预测值为 e3.55-0.3×6=e1.75≈5.75;使用年限在(8,12]的频率为 0.07×4=0.28,
对应的成交价格的预测值为 e3.55-0.3×10
使用年限在(12,16]的频率为 0.03×4=0.12,
对应的成交价格的预测值为 e3.55-0.3×14=e-0.65
使用年限在(16,20]的频率为 0.01×4=0.04,对应的成交价格的预测值为 e3.55-0.3×18=e-1.85≈0.16.若采用甲方案,预计该汽车交易市场对于成交的每辆车可获得的平均佣金为(0.2×19.1 + 0.36×5.75 + 0.28×1.73 + 0.12×0.52 +0.04×0.16)×5%=0.322 16≈0.32(万元);
若采用乙方案,预计该汽车交易市场对于成交的每辆车可
(0.2×19.1+0.36×5.75)×4% +(0.28×1.73+0.12×0.52 +
0.04×0.16)×10%=0.290 92≈0.29(万元).∵0.32>0.29,∴采用甲方案能获得更多佣金.
《高考总复习》数学 第九章 第6讲 回归分析与独立性检验[配套课件]: 这是一份《高考总复习》数学 第九章 第6讲 回归分析与独立性检验[配套课件],共57页。PPT课件主要包含了变量间的关系,回归分析,常用方法,2线性相关关系,样本点的中心,负相关,5相关指数,独立性检验,×2列联表,3独立性检验等内容,欢迎下载使用。
高考数学一轮复习第9章概率与统计第11讲条件概率与正态分布课件: 这是一份高考数学一轮复习第9章概率与统计第11讲条件概率与正态分布课件,共43页。PPT课件主要包含了正态分布,分布越集中,x=μ,A0477,B0628,C0954,D0977,A09772,B06826,C09974等内容,欢迎下载使用。
高考数学一轮复习第9章概率与统计第5讲用样本估计总体课件: 这是一份高考数学一轮复习第9章概率与统计第5讲用样本估计总体课件,共45页。PPT课件主要包含了用样本估计总体,频率组距,3茎叶图,据的众数,最中间,平均数,A19,B20,C215,D23等内容,欢迎下载使用。