搜索
    上传资料 赚现金
    2020版高考新创新一轮复习数学新课改省份专用讲义:第九章第二节 变量的相关性与统计案例
    立即下载
    加入资料篮
    2020版高考新创新一轮复习数学新课改省份专用讲义:第九章第二节 变量的相关性与统计案例01
    2020版高考新创新一轮复习数学新课改省份专用讲义:第九章第二节 变量的相关性与统计案例02
    2020版高考新创新一轮复习数学新课改省份专用讲义:第九章第二节 变量的相关性与统计案例03
    还剩7页未读, 继续阅读
    下载需要20学贝
    使用下载券免费下载
    加入资料篮
    立即下载

    2020版高考新创新一轮复习数学新课改省份专用讲义:第九章第二节 变量的相关性与统计案例

    展开

    第二节 变量的相关性与统计案例

    突破点一 回归分析

    1变量间的相关关系

    (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.

    (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.

    2两个变量的线性相关

    回归直线

    从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线

    回归方程

    回归方程为x,其中

    最小二乘法

    通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法

    相关系数

    r0时,表明两个变量正相关;当r0时,表明两个变量负相关.

    r的绝对值越接近于1,表明两个变量的线性相关性越强r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性

     

    一、判断题(对的打,错的打“×”)

    (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(  )

    (2)名师出高徒可以解释为教师的教学水平与学生的水平成正相关关系.(  )

    (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.(  )

    答案:(1)× (2) (3)

    二、填空题

    1.已知xy的取值如下表,从散点图可以看出yx具有线性相关关系,且回归方程为0.95x,则________.

    x

    0

    1

    3

    4

    y

    2.2

    4.3

    4.8

    6.7

    答案:2.6

    2.两个变量yx的回归模型中,分别选择了4个不同模型,经计算得到它们的相关系数r的值如下表,其中拟合效果最好的模型是________.

    模型

    模型1

    模型2

    模型3

    模型4

    r

    0.98

    0.80

    0.50

    0.25

    答案:模型1

    3.已知变量xy之间具有线性相关关系,其回归方程为=-3x,若i17  i4,则的值为________

    答案:2

    考法一 相关关系的判断 

    [1] (1)(2019·福建泉州月考)在下列各图中,两个变量具有相关关系的图是(  )

    A①②          B①③

    C②③   D②④

    (2)(2019·昆明一中一模)若对于变量x的取值为3,4,5,6,7时,变量y对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u的取值为1,2,3,4时,变量v对应的值依次分别为2,3,4,6,则变量xy,变量uv的相关关系是(  )

    A.变量xy是正相关,变量uv是正相关

    B.变量xy是正相关,变量uv是负相关

    C.变量xy是负相关,变量uv是负相关

    D.变量xy是负相关,变量uv是正相关

    [解析] (1)为函数关系;为正相关关系;为负相关关系;没有明显相关性.

    (2)变量x增加,变量y减少,所以变量xy是负相关;变量u增加,变量v增加,所以变量uv是正相关,故选D.

    [答案] (1)C (2)D

    [方法技巧]

    判断相关关系的2种方法

    (1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.

    (2)相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.  

     

     

     

    考法二 线性回归分析 

    [2] (2018·全国卷)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.

    为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,217)建立模型=-30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,27)建立模型9917.5t.

    (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;

    (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

    [] (1)利用模型,可得该地区2018年的环境基础设施投资额的预测值为=-30.413.5×19226.1(亿元)

    利用模型,可得该地区2018年的环境基础设施投资额的预测值为9917.5×9256.5(亿元)

    (2)利用模型得到的预测值更可靠.

    理由如下:

    ()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠.

    ()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠.

    (以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)

    [方法技巧]

    1回归直线方程中系数的2种求法

    (1)公式法:利用公式,求出回归系数.

    (2)待定系数法:利用回归直线过样本点中心()求系数.

    2回归分析的2种策略

    (1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.

    (2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数.  

    1.四名同学根据各自的样本数据研究变量xy之间的相关关系,并求得回归直线方程,分别得到以下四个结论

    yx负相关且2.347x6.423

    yx负相关且=-3.476x5.648

    yx正相关且5.437x8.493

    yx正相关且=-4.326x4.578.

    其中一定不正确的结论的序号是(  )

    A①②   B②③

    C③④   D①④

    解析:D 正相关指的是yx的增大而增大,负相关指的是yx的增大而减小,故不正确的为①④.

    2.二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据

    使用年数x

    2

    3

    4

    5

    6

    7

    售价y

    20

    12

    8

    6.4

    4.4

    3

    zln y

    3.00

    2.48

    2.08

    1.86

    1.48

    1.10

    z关于x的折线图,如图所示:

    (1)由折线图可以看出,可以用线性回归模型拟合zx的关系,请用相关系数加以说明

    (2)y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少(小数点后保留两位有效数字)

    参考公式

    r .

    参考数据iyi187.4izi47.64139

    4.18, 13.96

    1.53ln 1.460.38.

    (1)由题意×(234567)4.5

    ×(32.482.081.861.481.10)2

    izi47.644.18

    1.53

    r=-0.99

    zx的相关系数大约为-0.99,说明zx的线性相关程度很高.

    (2)=-0.36

    20.36×4.53.62

    zx的线性回归方程是=-0.36x3.62

    zln yy关于x的回归方程是e0.36x3.62.

    x9,得e0.36×93.62e0.38

    ln 1.460.381.46

    即预测某辆A型号二手车当使用年数为9年时售价约为1.46万元.

    突破点二 独立性检验

    1分类变量

    变量的不同表示个体所属的不同类别,像这类变量称为分类变量.

    2列联表

    列出两个分类变量的频数表,称为列联表.假设有两个分类变量XY,它们的可能取值分别为{x1x2}{y1y2},其样本频数列联表(称为2×2列联表)

     

    y1

    y2

    总计

    x1

    a

    b

    ab

    x2

    c

    d

    cd

    总计

    ac

    bd

    abcd

    K2(其中nabcd样本容量),可利用独立性检验判断表来判断XY的关系”.

    一、判断题(对的打,错的打“×”)

    (1)事件XY关系越密切,则由观测数据计算得到的K2的值越大.(  )

    (2)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.(  )

    答案:(1) (2)×

    二、填空题

    1.下面是2×2列联表:

     

    y1

    y2

    总计

    x1

    a

    21

    73

    x2

    22

    25

    47

    总计

    b

    46

    120

    则表中ab的值分别为________

    解析:a2173a52,又a22bb74.

    答案:52,74

     

    2.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:

     

    理科

    文科

    13

    10

    7

    20

    已知P(K23.841)0.05P(K25.024)0.025.

    根据表中数据,得到K2的观测值k4.844.则认为选修文科与性别有关系出错的可能性为________

    答案:5%

    3(2019·阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:

     

    认为作业多

    认为作业不多

    总计

    喜欢玩电脑游戏

    12

    8

    20

    不喜欢玩电脑游戏

    2

    8

    10

    总计

    14

    16

    30

    该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________

    答案:0.05

    [典例] (2018·全国卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:

    (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.

    (2)40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:

     

    超过m

    不超过m

    第一种生产方式

     

     

    第二种生产方式

     

     

      (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?

    附:K2

    [] (1)第二种生产方式的效率更高.

    理由如下:

    ()由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.

    ()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.

    ()由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.

    ()由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.

    (以上给出了4种理由,答出其中任意一种或其他合理理由均可得分)

    (2)由茎叶图知m80.

    列联表如下:

     

    超过m

    不超过m

    第一种生产方式

    15

    5

    第二种生产方式

    5

    15

    (3)因为K2106.635,所以有99%的把握认为两种生产方式的效率有差异.

    [方法技巧]

    (1)独立性检验的关键是正确列出2×2列联表,并计算出K2的值.

    (2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断.

    [针对训练]

    1(2019·安徽黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是(  )

    A.若K2的观测值为k6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌

    B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌

    C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误

    D.以上三种说法都不正确

    解析:C 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C.

    2(2019·池州模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100)

    (1)求图中a的值;

    (2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表)

    (3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为晋级成功与性别有关.

     

    晋级成功

    晋级失败

    总计

    16

     

     

     

     

    50

    总计

     

     

     

     

    P(K2k)

    0.40

    0.25

    0.15

    0.10

    0.05

    0.025

    k

    0.708

    1.323

    2.072

    2.706

    3.841

    5.024

    解:(1)由频率分布直方图中各小长方形面积总和为1,得(2a0.0200.0300.040)×101,解得a0.005.

    (2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95

    对应的频率分别为0.05,0.30,0.40,0.20,0.05

    则估计该次考试的平均分为55×0.0565×0.375×0.485×0.295×0.0574()

    (3)由频率分布直方图知,晋级成功的频率为0.20.050.25,故晋级成功的人数为100×0.2525,填写2×2列联表如下:

     

    晋级成功

    晋级失败

    总计

    16

    34

    50

    9

    41

    50

    总计

    25

    75

    100

    K22.6132.072,所以有85%的把握认为晋级成功与性别有关.

     

     

    • 精品推荐
    • 所属专辑

    免费资料下载额度不足,请先充值

    每充值一元即可获得5份免费资料下载额度

    今日免费资料下载份数已用完,请明天再来。

    充值学贝或者加入云校通,全网资料任意下。

    提示

    您所在的“深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载 10 份资料 (今日还可下载 0 份),请取消部分资料后重试或选择从个人账户扣费下载。

    您所在的“深深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载10份资料,您的当日额度已用完,请明天再来,或选择从个人账户扣费下载。

    您所在的“深圳市第一中学”云校通余额已不足,请提醒校管理员续费或选择从个人账户扣费下载。

    重新选择
    明天再来
    个人账户下载
    下载确认
    您当前为教习网VIP用户,下载已享8.5折优惠
    您当前为云校通用户,下载免费
    下载需要:
    本次下载:免费
    账户余额:0 学贝
    首次下载后60天内可免费重复下载
    立即下载
    即将下载:0份资料
    • 充值学贝下载 90%的用户选择 本单免费
    • 扫码直接下载
    选择教习网的 4 个理由
    • 更专业

      地区版本全覆盖, 同步最新教材, 公开课⾸选;1200+名校合作, 5600+⼀线名师供稿

    • 更丰富

      涵盖课件/教案/试卷/素材等各种教学资源;500万+优选资源 ⽇更新5000+

    • 更便捷

      课件/教案/试卷配套, 打包下载;手机/电脑随时随地浏览;⽆⽔印, 下载即可⽤

    • 真低价

      超⾼性价⽐, 让优质资源普惠更多师⽣

    开票申请 联系客服
    本次下载需要:0学贝 0学贝 账户剩余:0学贝
    本次下载需要:0学贝 原价:0学贝 账户剩余:0学贝
    了解VIP特权
    您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送

        扫码支付后直接下载

        0元

        扫码支付后直接下载

        使用学贝下载资料比扫码直接下载优惠50%
        充值学贝下载,本次下载免费
        了解VIP特权
        • 微信
        • 支付宝

        微信扫码支付

        支付宝扫码支付(支持花呗)

        到账0学贝
        • 微信
        • 支付宝

        微信扫码支付

        支付宝扫码支付 (支持花呗)

          下载成功

          Ctrl + Shift + J 查看文件保存位置

          若下载不成功,可重新下载,或查看 资料下载帮助

          本资源来自成套资源

          更多精品资料

          正在打包资料,请稍候…

          预计需要约10秒钟,请勿关闭页面

          服务器繁忙,打包失败

          请联系右侧的在线客服解决

          单次下载文件已超2GB,请分批下载

          请单份下载或分批下载

          支付后60天内可免费重复下载

          我知道了
          正在提交订单

          欢迎来到教习网

          • 900万优选资源,让备课更轻松
          • 600万优选试题,支持自由组卷
          • 高质量可编辑,日均更新2000+
          • 百万教师选择,专业更值得信赖
          微信扫码注册
          qrcode
          二维码已过期
          刷新

          微信扫码,快速注册

          还可免费领教师专享福利「樊登读书VIP」

          手机号注册
          手机号码

          手机号格式错误

          手机验证码 获取验证码

          手机验证码已经成功发送,5分钟内有效

          设置密码

          6-20个字符,数字、字母或符号

          注册即视为同意教习网「注册协议」「隐私条款」
          QQ注册
          手机号注册
          微信注册

          注册成功

          下载确认

          下载需要:0 张下载券

          账户可用:0 张下载券

          立即下载

          如何免费获得下载券?

          加入教习网教师福利群,群内会不定期免费赠送下载券及各种教学资源, 立即入群

          即将下载

          2020版高考新创新一轮复习数学新课改省份专用讲义:第九章第二节 变量的相关性与统计案例

          该资料来自成套资源,打包下载更省心

          [共10份]
          浏览全套
            立即下载(共1份)
            返回
            顶部