搜索
    上传资料 赚现金
    通用版高考数学(文数)一轮复习第15单元《统计与统计案例》学案(含详解)
    立即下载
    加入资料篮
    通用版高考数学(文数)一轮复习第15单元《统计与统计案例》学案(含详解)01
    通用版高考数学(文数)一轮复习第15单元《统计与统计案例》学案(含详解)02
    通用版高考数学(文数)一轮复习第15单元《统计与统计案例》学案(含详解)03
    还剩54页未读, 继续阅读
    下载需要10学贝
    使用下载券免费下载
    加入资料篮
    立即下载

    通用版高考数学(文数)一轮复习第15单元《统计与统计案例》学案(含详解)

    展开
    这是一份通用版高考数学(文数)一轮复习第15单元《统计与统计案例》学案(含详解),共57页。

    第十五单元 统计与统计案例
    教材复习课“统计与统计案例”相关基础知识一课过

    三种抽样方法
    [过双基]
    三种抽样方法
    类别
    共同点
    各自特点
    相互联系
    适用范围
    简单随机抽样
    是不放回抽样,抽样过程中,每个个体被抽到的机会(概率)相等
    从总体中逐个抽取

    总体中的个数较少
    系统抽样
    将总体均分成几部分,按事先确定的规则,在各部分抽取
    在起始部分抽样时,采用简单随机抽样
    总体中的个数比较多
    分层抽样
    将总体分成几层,分层进行抽取
    各层抽样时,采用简单随机抽样或系统抽样
    总体由差异明显的几部分组成
     
    1.从一个容量为N的总体中抽取一个容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则(  )
    A.p1=p2 C.p1=p3 解析:选D 根据简单随机抽样、系统抽样和分层抽样的定义可知,无论哪种抽样,每个个体被抽中的概率都是相等的,所以p1=p2=p3.
    2.某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是(  )
    A.10 B.11
    C.12 D.16
    解析:选D 从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16.
    3.为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学中抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C学校中应抽取的人数为(  )
    A.10 B.12
    C.18 D.24
    解析:选A 根据分层抽样的特征,从C学校中应抽取的人数为×60=10.
    [清易错]
    1.系统抽样中,易忽视抽取的样本数也就是分段的段数,当不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.
    2.分层抽样中,易忽视每层抽取的个体的比例是相同的,即.
    1.从2 018名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 018名学生中剔除18名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率(  )
    A.不全相等 B.均不相等
    C.都相等,且为 D.都相等,且为
    解析:选C 从N个个体中抽取M个个体,则每个个体被抽到的概率都等于.
    2.从300名学生(其中男生180人,女生120人)中按性别用分层抽样的方法抽取50人参加比赛,则应该抽取男生人数为(  )
    A.27 B.30
    C.33 D.36
    解析:选B 因为男生与女生的比例为180∶120=3∶2,
    所以应该抽取男生人数为50×=30.

    频率分布直方图和茎叶图
    [过双基]
    1.作频率分布直方图的步骤
    (1)求极差(即一组数据中最大值与最小值的差);
    (2)决定组距与组数;
    (3)将数据分组;
    (4)列频率分布表;
    (5)画频率分布直方图.
    2.频率分布折线图和总体密度曲线
    (1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
    (2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
    3.茎叶图的优点
    茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便.
     
    1.在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的,且样本容量为80,则中间一组的频数为(  )
    A.0.25 B.0.5
    C.20 D.16
    解析:选D 设中间一组的频数为x,
    依题意有=,解得x=16.

    2.某学生在8次测试中,数学成绩的茎叶图如图,则这8次成绩的中位数是(  )
    A.86 B.87
    C.87.5 D.88.5
    解析:选A 由茎叶图得到8个数的大小顺序依次是78,79,83,85,87,88,89,96,中间的两个数为85,87,所以中位数为=86.
    [清易错]
    1.易把直方图与条形图混淆
    两者的区别在于条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,连续随机变量在某一点上是没有频率的.
    2.易忽视频率分布直方图中纵轴表示的应为.
    3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.
    1.某校100名学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100],则图中a的值为 (  )

    A.0.006 B.0.005
    C.0.004 5 D.0.002 5
    解析:选B 由题意知,a==0.005,故选B.
    2.(郑州检测)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值=________.
    解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m=3.由此可以得出甲的平均数为33,所以乙的平均数也是33,所以=33,
    解得n=8,所以=.
    答案:

    样本的数字特征
    [过双基]
    1.众数、中位数、平均数
    数字特征
    定义与求法
    优点与缺点
    众数
    一组数据中重复出现次数最多的数
    众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使得无法客观地反映总体特征
    中位数
    把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
    中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
    平均数
    如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
    平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
    2.标准差、方差
    (1)标准差:样本数据到平均数的一种平均距离,一般用s表示,s= .
    (2)方差:标准差的平方s2
    s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
     
    1.对于一组数据xi(i=1,2,3,…,n),如果将它们改变为xi+C(i=1,2,3,…,n),其中C≠0,则下列结论正确的是(  )
    A.平均数与方差均不变  B.平均数变,方差保持不变
    C.平均数不变,方差变 D.平均数与方差均发生变化
    解析:选B 依题意,记原数据的平均数为,方差为s2,
    则新数据的平均数为=+C,即新数据的平均数改变;新数据的方差为[(x1+C)-(+C)]2+[(x2+C)-(+C)]2+…+[(xn+C)-(+C)]2=s2,即新数据的方差不变.
    2.样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为(  )
    A. B.
    C. D.2
    解析:选D 依题意得m=5×1-(0+1+2+3)=-1,样本方差s2=(12+02+12+22+22)=2,即所求的样本方差为2.
    3.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则a,b,c的大小关系为(  )
    A.a>b>c         B.b>c>a
    C.c>a>b D.c>b>a
    解析:选D 依题意,这些数据由小到大依次是10,12,14,14,15,15,16,17,17,17,因此a<15,b=15,c=17,c>b>a.
    4.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如下表:
    学生
    1号
    2号
    3号
    4号
    5号
    甲班
    6
    7
    7
    8
    7
    乙班
    6
    7
    6
    7
    9
    若以上两组数据的方差中较小的一个为s2,则s2=________.
    解析:由数据表可得乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,其方差较小,其平均值为7,方差s2=(1+0+0+1+0)=.
    答案:

    变量间的相关关系、统计案例
    [过双基]
    1.变量间的相关关系
    (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
    (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
    2.两个变量的线性相关
    (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
    (2)回归方程为=x+,其中=, =-.
    (3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
    (4)相关系数:
    当r>0时,表明两个变量正相关;
    当r<0时,表明两个变量负相关.
    r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
    3.独立性检验
    假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:

    y1
    y2
    总计
    x1
    a
    b
    a+b
    x2
    c
    d
    c+d
    总计
    a+c
    b+d
    a+b+c+d
    K2=(其中n=a+b+c+d为样本容量).
     
    1.如图是根据x,y的观测数据(xi,yi)(i=1,2,…,10)得到的散点图,可以判断变量x,y具有线性相关关系的图是(  )

    A.①② B.①④
    C.②③ D.③④
    解析:选D 若变量x,y具有线性相关关系,那么散点就在某条直线附近,从左上到右下,或从左下到右上,故选D.
    2.已知变量x,y取值如表所示:
    x
    0
    1
    4
    5
    6
    y
    1.3
    m
    3m
    5.6
    7.4
    画散点图分析可知:y与x线性相关,且求得回归方程为=x+1,则m的值(精确到0.1)为(  )
    A.1.5 B.1.6
    C.1.7 D.1.8
    解析:选C 由题意知,=3.2代入回归方程=x+1可得=4.2,则4m=4.2×5-(1.3+5.6+7.4)=6.7,解得m=1.675,则精确到0.1后m的值为1.7.
    3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:

    理科
    文科

    13
    10

    7
    20
    已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
    根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
    解析:K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
    答案:5%
    [清易错]
    1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
    2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能所有的样本数据点都不在直线上.
     设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是(  )
    A.y与x具有正的线性相关关系
    B.回归直线过样本点的中心(,)
    C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
    D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
    解析:选D 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(,),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79kg,而不是具体值,因此D不正确.

    一、选择题
    1.(邯郸摸底)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=(  )
    A.660           B.720
    C.780 D.800
    解析:选B 由已知条件,抽样比为=,
    从而=,解得n=720.
    2.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能为(  )
    A.=0.4x+2.3 B.=2x-2.4
    C.=-2x+9.5 D.=-0.3x+4.4
    解析:选A 依题意知,相应的回归直线的斜率应为正,排除C,D.且直线必过点(3,3.5),代入A、B,知A正确.
    3.从编号为001,002,…,500的500个产品中用系统抽样的方法抽取一个样本,已知样本中编号最小的两个编号分别为007,032,则样本中最大的编号应该为(  )
    A.480 B.481
    C.482 D.483
    解析:选C 根据系统抽样的定义可知样本的编号成等差数列,令a1=7,a2=32,则d=25,所以7+25(n-1)≤500,所以n≤20,最大编号为7+25×19=482.
    4.根据如下样本数据:
    x
    2
    3
    4
    5
    6
    7
    y
    4.1
    2.5
    -0.5
    0.5
    -2.0
    -3.0
    得到的回归方程为=x+,则(  )
    A.>0,>0 B.>0,<0
    C.<0,>0 D. <0,<0
    解析:选B 根据样本数据画出散点图(图略),可知<0,>0.
    5.如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为(  )

    A.84,4.84 B.84,1.6
    C.85,1.6 D.85,4
    解析:选C 依题意,所剩数据的平均数是80+×(4×3+6+7)=85,所剩数据的方差是×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.
    6.某时段内共有100辆汽车经过某一雷达测速区域,将测得的汽车的时速绘制成如图所示的频率分布直方图,根据图形推断,该时段时速超过50 km/h的汽车的辆数为(  )

    A.56 B.61
    C.70 D.77
    解析:选D 由图知,时速超过50 km/h的汽车的频率为(0.039+0.028+0.010)×10=0.77,
    所以时速超过50 km/h的汽车的辆数为100×0.77=77.
    7.(江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.

    非一线
    一线
    总计
    愿生
    45
    20
    65
    不愿生
    13
    22
    35
    总计
    58
    42
    100
    由K2=,
    得K2=≈9.616.
    参照下表,
    P(K2≥k0)
    0.050
    0.010
    0.001
    k0
    3.841
    6.635
    10.828
    下列说法中,正确的结论是(  )
    A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
    B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
    C.有99%以上的把握认为“生育意愿与城市级别有关”
    D.有99%以上的把握认为“生育意愿与城市级别无关”
    解析:选C ∵K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.
    8.从甲、乙两个城市分别随机抽取14台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图),设甲、乙两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则(  )

    A.甲<乙,m甲>m乙 B.甲<乙,m甲 C.甲>乙,m甲>m乙 D. 甲>乙,m甲 解析:选A 由题意得甲=≈24.3,
    乙=≈24.4,
    即甲<乙;
    又m甲==23.5,m乙=23,
    即m甲>m乙,故选A.
    二、填空题
    9.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是________.
    解析:间隔数k==16,即每16人抽取一个人.由于39=2×16+7,所以第1小组中抽取的数为7.
    答案:7
    10.某车间需要确定加工零件的加工时间,进行了若干次试验.根据收集到的数据(如表):
    零件数x/个
    10
    20
    30
    40
    50
    加工时间y/分钟
    62
    68
    75
    81
    89
    由最小二乘法求得回归直线方程=0.67x+,则的值为________.
    解析:∵=×(10+20+30+40+50)=30,
    =×(62+68+75+81+89)=75,
    回归直线方程=0.67x+过样本中心点(,),
    ∴=75-0.67×30=54.9.
    答案:54.9
    11.已知甲、乙、丙三类产品共有1 200件,且甲、乙、丙三类产品的数量之比为3∶4∶5,现采用分层抽样的方法抽取60件进行质量检测,则乙类产品抽取的件数为________.
    解析:由题意可知,乙类产品抽取的件数为
    60×=20.
    答案:20
    12.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
    ①有95%的把握认为“这种血清能起到预防感冒的作用”;
    ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;
    ③这种血清预防感冒的有效率为95%;
    ④这种血清预防感冒的有效率为5%.
    解析:K2≈3.918≥3.841,而P(K2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.
    答案:①
    三、解答题
    13.某地区2011年至2017年农村居民家庭人均纯收入y(单位:千元)的数据如表:
    年份
    2011
    2012
    2013
    2014
    2015
    2016
    2017
    年份代号x
    1
    2
    3
    4
    5
    6
    7
    人均纯收入y
    2.9
    3.3
    3.6
    4.4
    4.8
    5.2
    5.9
    (1)求y关于x的线性回归方程;
    (2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.
    附:回归直线的斜率和截距的最小二乘法估计公式分别为:=,=-(其中,为样本平均值).
    解:(1)由题意,得=×(1+2+3+4+5+6+7)=4,
    =×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
    (xi-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0+1×0.5+2×0.9+3×1.6=14,
    (xi-)2=(-3)2+(-2)2+(-1)2+02+12+22+32=28,
    所以==0.5,
    =-=4.3-0.5×4=2.3,
    所以y关于x的线性回归方程为=0.5x+2.3.
    (2)因为=0.5>0,
    所以2011年至2017年该地区农村居民家庭人均纯收入逐年增加, 平均每年增加0.5千元,
    因为2019的年份代号是x=9,所以代入(1)中的回归方程,可得=0.5×9+2.3=6.8,
    所以预测该地区2019年农村居民家庭人均纯收入为
    6.8千元.
    14.(唐山统考)为了调查某校学生体质健康达标情况,现采用随机抽样的方法从该校抽取了m名学生进行体育测试.根据体育测试得到了这m名学生的各项平均成绩(满足100分),按照以下区间分为七组:[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],并得到频率分布直方图(如图).已知测试平均成绩在区间[30,60)内有20人.

    (1)求m的值及中位数n;
    (2)若该校学生测试平均成绩小于n,则学校应适当增加体育活动时间.根据以上抽样调查数据,该校是否需要增加体育活动时间?
    解:(1)由频率分布直方图知第1组,第2组和第3组的频率分别是0.02,0.02和0.06,
    则m×(0.02+0.02+0.06)=20,解得m=200.
    由直方图可知,中位数n位于[70,80)内,则0.02+0.02+0.06+0.22+0.04(n-70)=0.5,解得n=74.5.
    (2)设第i(i=1,2,3,4,5,6,7)组的频率和频数分别为pi和xi,由图知,p1=0.02,p2=0.02,p3=0.06,p4=0.22,p5=0.40,p6=0.18,p7=0.10,则由xi=200×pi,可得
    x1=4,x2=4,x3=12,x4=44,x5=80,x6=36,x7=20,
    故该校学生测试平均成绩是
    =×(35x1+45x2+55x3+65x4+75x5+85x6+95x7)=74<74.5,
    所以学校应该适当增加体育活动时间.
    高考研究课(一) 随机抽样
    [全国卷5年命题分析]
    考点
    考查频度
    考查角度
    系统抽样
    未考查

    分层抽样
    5年1考
    抽样方法的选择


    系统抽样
    [典例] 将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在A营区,从301到495在B营区,从496到600在C营区,则三个营区被抽中的人数依次为(  )
    A.26,16,8        B.25,17,8
    C.25,16,9 D.24,17,9
    [解析] 依题意及系统抽样的意义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(k∈N*)组抽中的号码是3+12(k-1).令3+12(k-1)≤300,得k≤,因此A营区被抽中的人数是25;令300<3+12(k-1)≤495,得 [答案] B
    [方法技巧]
    解决系统抽样问题的2个关键步骤
    (1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.
    (2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.  
    [即时演练]
    1.某学校教务处采用系统抽样方法,从学校高三年级全体1 000名学生中抽50名学生做学习状况问卷调查.现将1 000名学生从1到1 000进行编号,求得间隔数k=20,即分50组,每组20人.在第一组中随机抽取一个号,如果抽到的是17号,则第8组中应抽取的号码是(  )
    A.117 B.157
    C.417 D.367
    解析:选B 根据系统抽样法的特点,可知抽取出的号码成首项为17,公差为20的等差数列,所以第8组应抽取的号码是17+(8-1)×20=157.
    2.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.
    解析:由题意,把40名职工分成5组,故组距为=8,又第一组抽出的号码为2,则抽出的所有号码组成以2为首项,8为公差的等差数列,故抽出的号码为2,10,18,26,34.
    答案:2,10,18,26,34

    分层抽样    
    分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.
    这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.,常见的命题角度有:
    (1)与频率分布直方图相结合问题;
    (2)与概率相结合问题.
    角度一:与频率分布直方图相结合问题
    1.某校从高三年级中随机选取200名学生,将他们的一模数学成绩绘制成频率分布直方图(如图). 由图中数据可知a=________.若要从成绩在[120, 130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从成绩在[130,140) 内的学生中选取的人数应为________.

    解析:由题意知,(0.020+0.035+a+0.010+0.005)×10=1,解得a=0.030.由分层抽样的原则可知,在[120, 130),[130 ,140),[140 , 150]三组内的学生中,人数比为6∶2∶1.所以从成绩在[130 ,140) 内的学生中选取的人数为18×=4.
    答案:0.030 4
    2.从某学校所有高一学生某次计算机笔试成绩中选出40名学生的成绩(单位:分),成绩分组区间为[50,70),[70,90),[90,110),[110,130),[130,150],由此绘制成如图所示的频率分布直方图,规定成绩低于90分为不及格,成绩不低于90分为及格.

    (1)求频率分布直方图中m的值;
    (2)求这40名学生中不及格的学生人数;
    (3)从不及格的学生中按成绩用分层抽样的方法任选5人,再从这5人中任选2人,求这2人的成绩均在[70,90)内的概率.
    解:(1)由题中频率分布直方图知,组距为20,
    由×20=1,解得m=0.005.
    (2)这40名学生中不及格的学生人数为
    ×0.005×20×40=10.
    (3)按成绩分层抽样,则从成绩在[50,70),[70,90)的学生中应选取的人数分别为×5=2,×5=3,记成绩在[50,70)内的2人分别为A1,A2,成绩在[70,90)内的3人分别为B1,B2,B3,“2人的成绩均在[70,90)内”为事件A,则从这5人中任选2人的基本事件有(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3),共10个.
    其中这2人的成绩都在[70,90)内的基本事件有(B1,B2),(B1,B3),(B2,B3),共3个.
    故所求概率P(A)=.
    角度二 与概率相结合问题
    3.由世界自然基金会发起的“地球1小时”活动已发展成为最有影响力的环保活动之一,今年的参与人数再创新高,然而也有部分公众对该活动的实际效果与影响提出了疑问.对此,某新闻媒体进行了网上调查,在所有参与调查的人中,持“支持”、“保留”和“不支持”态度的人数如下表所示:
    态度
    年龄   
    支持
    保留
    不支持
    20岁以下
    800
    450
    200
    20岁以上(含20岁)
    100
    150
    300
    (1)在所有参与调查的人中,用分层抽样的方法抽取n个人,已知从持“支持”态度的人中抽取了45人,求n的值;
    (2)在持“不支持”态度的人中,用分层抽样的方法抽取5人看成一个总体,从这5人中任意选取2人,求至少有1人年龄在20岁以下的概率.
    解:(1)由题意得
    =,
    解得n=100.
    (2)设所抽取的人中,有m人年龄在20岁以下,
    则=,解得m=2.
    即20岁以下抽取了2人,分别记为A1,A2;20岁以上(含20岁)抽取了3人,分别记为B1,B2,B3,
    则从中任取2人的所有基本事件为(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(A1,A2),(B1,B2),(B2,B3),(B1,B3),共10个.
    其中至少有1人年龄在20岁以下的基本事件为(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(A1,A2),共7个,所以从中任意抽取2人,至少有1人年龄在20岁以下的概率为.
    [方法技巧]
    进行分层抽样的相关计算时,常用到的2个关系
    (1)=;
    (2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.  

    1.(2013·全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是(  )
    A.简单随机抽样 B.按性别分层抽样
    C.按学段分层抽样 D.系统抽样
    解析:选C 由于该地区的中小学生人数比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.
    2.(2015·北京高考)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为(  )
    类别
    人数
    老年教师
    900
    中年教师
    1 800
    青年教师
    1 600
    合计
    4 300
    A.90 B.100
    C.180 D.300
    解析:选C 设该样本中的老年教师人数为x,由题意及分层抽样的特点得=,故x=180.
    3.(2015·湖南高考)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.

    若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是(  )
    A.3 B.4
    C.5 D.6
    解析:选B 35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据,在区间[139,151]上共有20个数据,分在4个小组中,每组取1人,共取4人.
    4.(2015·福建高考)某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________.
    解析:设男生抽取x人,则有=,
    解得x=25.
    答案:25

    一、选择题
    1.某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为(  )
    A.16          B.17
    C.18 D.19
    解析:选C 设第一组抽取的号码为x,根据题意可得抽样间隔为=25,则x+25×(18-1)=443,解得x=18.
    2.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①②这两项调查宜采用的抽样方法依次是(  )
    A.分层抽样法,系统抽样法
    B.分层抽样法,简单随机抽样法
    C.系统抽样法,分层抽样法
    D.简单随机抽样法,分层抽样法
    解析:选B 一般甲、乙、丙、丁四个地区会存在差异,采用分层抽样法较好.在丙地区中抽取的样本个数较少,易采用简单随机抽样法.
    3.《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为(  )

    A.2 B.4
    C.5 D.6
    解析:选B 由茎叶图可知,“诗词达人”有8人,“诗词能手”有16人,“诗词爱好者”有16人,由分层抽样可得, 抽选的学生中获得“诗词能手”称号的人数为×16=4.
    4.某校高一、高二、高三的学生人数之比为2∶3∶5,若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为(  )
    A.40 B.60
    C.80 D.100
    解析:选D ∵高一、高二、高三的学生人数之比为2∶3∶5,
    ∴若用分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为×200=100.
    5.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为(  )
    A.7 B.9
    C.10 D.15
    解析:选C 由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k+9(k=0,1,…,31).由451≤30k+9≤750,解得≤k≤,又k∈N,故k=15,16,…,24,共10人.
    6.一个总体中有600个个体,随机编号为001,002,…,600,利用系统抽样方法抽取容量为24的一个样本,总体分组后在第一组随机抽得的编号为006,则在编号为051~125之间抽得的编号为(  )
    A.056,080,104 B.054,078,102
    C.054,079,104 D.056,081,106
    解析:选D 依题意可知,在随机抽样中,首次抽到006号,以后每隔=25个号抽到一个人, 则构成以6为首项,25为公差的等差数列,即所抽取的编号依次为006,031,056,081,106,131……,故编号为051~125之间抽得的编号为056,081,106.
    故在编号为051 ~125之间抽到的编号为056,081,106.
    7.我国古代数学名著《九章算术》有“米谷粒分”题:发仓募粮,所募粒中秕不百三则收之(不超过3%),现抽样取米一把,取得235粒米中夹秕n粒,若这批米合格,则n不超过(  )
    A.6粒 B.7粒
    C.8粒 D.9粒
    解析:选B 由题意得,≤3%,
    解得n≤7.05,
    所以若这批米合格,则n不超过7粒.
    8.某工厂在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a,b,c,且a,b,c构成等差数列,则第二车间生产的产品数为(  )
    A.800双 B.1 000双
    C.1 200双 D.1 500双
    解析:选C 因为a,b,c成等差数列,所以2b=a+c,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占12月份生产总数的三分之一,即为1 200双皮靴.
    二、填空题
    9.某中学高一(8)班共有学生56人,编号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知6,20,48号的同学已在样本中,那么还有一个同学的编号为________.
    解析:56人中抽取样本容量为4的样本,则样本组距为56÷4=14,
    则6+14×2=34,
    故另外一个同学的编号为34.
    答案:34
    10.(江苏高考)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
    解析:应从丙种型号的产品中抽取
    60×=18(件).
    答案:18
    11.一个总体中有90个个体,随机编号0,1,2,…,89依从小到大的编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码是________.
    解析:由题意知,m=8,k=8,则m+k=16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.
    答案:76
    12.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1 020小时、980小时、1 030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.

    解析:第一分厂应抽取的件数为100×50%=50;该产品的平均使用寿命为1 020×0.5+980×0.2+1 030×0.3=1 015.
    答案:50 1 015
    三、解答题
    13.某校高中三年级的295名学生已经编号为1,2,3,…,295,为了了解学生的学习情况,要按1∶5的比例抽取一个样本,用系统抽样的方法进行抽取,请写出抽样过程.
    解:按1∶5的比例抽样.
    295÷5=59.
    第一步,把295名同学分成59组,每组5人.第一组是编号为1~5的5名学生,第二组是编号为6~10的5名学生,依次类推,第59组是编号为291~295的5名学生.
    第二步,采用简单随机抽样,从第一组5名学生中随机抽取1名,不妨设其编号为k(1≤k≤5).
    第三步,从以后各段中依次抽取编号为k+5i(i=1,2,3,…,58)的学生,再加上从第一段中抽取的编号为k的学生,得到一个容量为59的样本.
    14.重庆因夏长酷热多伏旱而得名“火炉”,八月是重庆最热、用电量最高的月份.下图是沙坪坝区居民八月份用电量(单位:度)的频率分布直方图,其分组区间依次为:[180,200),[200,220),[220,240),[240,260),[260,280),[280,300),[300,320].

    (1)求频率分布直方图中的x;
    (2)根据频率分布直方图估计八月份用电量的众数和中位数;
    (3)在用电量为[240,260),[260,280),[280,300),[300,320]的四组用户中,用分层抽样的方法抽取11户居民,则用电量在[240,260)的用户应抽取多少户?
    解:(1)20×(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)=1,解得x=0.007 5.
    (2)由于第四组[240,260)的频率最大,故众数为=250.
    第一组频率为0.04,第二组频率为0.19,第三组频率为0.22,第四组频率为0.25,所以中位数在第四组[240,260),故中位数为240+20×=244.
    (3)因为[240,260),[260,280),[280,300),[300,320]四组的频率之比为0.25∶0.15∶0.1∶0.05=5∶3∶2∶1,
    所以用电量在[240,260)的用户应抽取11×=5户.

    1.已知某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层抽样的方法抽取20%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为(  )

    A.100,8 B.80,20
    C.100,20 D.80,8
    解析:选A 由图1可知,抽取20%的户主,可得样本容量为100,第四居室抽取了100×20%=20人,由满意率可得,抽取的户主对四居室满意的人数为20×40%=8.
    2.我国古代数学算经十书之一的《九章算术》有一衰分问题:今有北乡八千一百人,西乡七千四百八十八人,南乡六千九百一十二人,凡三乡,发役三百人,则北乡遣(  )
    A.104人 B.108人
    C.112人 D.120人
    解析:选B 由题意知,抽样比为
    =,
    所以北乡遣×8 100=108(人).
    高考研究课(二) 样本估计总体
    [全国卷5年命题分析]
    考点
    考查频度
    考查角度
    频率分布直方图
    5年5考
    用频率估计概率、由直方图求方差、特征值
    茎叶图
    5年2考
    茎叶图绘制、特征值估计
    图表
    5年2考
    柱状图、由图表数据分析


    茎叶图
    [典例] (山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的

    产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为(  )
    A.3,5      B.5,5
    C.3,7 D.5,7
    [解析] 由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,
    所以×[56+62+65+74+(70+x)]=×(59+61+67+65+78),解得x=3.
    [答案] A
    [方法技巧]
    使用茎叶图时的2个注意点
    (1)观察所有的样本数据,弄清图中数字的特点,注意不要漏掉数据.
    (2)注意易混淆茎叶图中茎与叶的含义.  
    [即时演练]
    1.如图所示的茎叶图是甲、乙两位同学在期末考试中的六科成绩,已知甲同学的平均成绩为85,乙同学的六科成绩的众数为84,则x,y的值为(  )
    A.2,4 B.4,4
    C.5,6 D.6,4
    解析:选D 甲==85,解得x=6,由茎叶图可知y=4.
    2.为从甲、乙两人中选一人参加数学竞赛,老师将二人最近6次数学测试的分数进行统计,甲、乙两人的平均成绩分别是甲,乙,则下列说法正确的是(  )
    A.甲>乙,乙比甲成绩稳定,应选乙参加比赛
    B.甲>乙,甲比乙成绩稳定,应选甲参加比赛
    C.甲<乙,甲比乙成绩稳定,应选甲参加比赛
    D.甲<乙,乙比甲成绩稳定,应选乙参加比赛
    解析:选D 由茎叶图知
    甲==82.
    乙=≈87.33.
    所以甲<乙,
    又由乙的茎集中在8,而甲较分散,即乙比甲成绩稳定.

    频率分布直方图
    [典例] (北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:

    (1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
    (2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
    (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
    [解] (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
    所以样本中分数小于70的频率为1-0.6=0.4.
    所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计值为0.4.
    (2)根据题意,样本中分数不小于50的频率为
    (0.01+0.02+0.04+0.02)×10=0.9,
    故样本中分数小于50的频率为0.1,
    故分数在区间[40,50)内的人数为100×0.1-5=5.
    所以总体中分数在区间[40,50)内的人数估计为
    400×=20.
    (3)由题意可知,样本中分数不小于70的学生人数为
    (0.02+0.04)×10×100=60,
    所以样本中分数不小于70的男生人数为60×=30.
    所以样本中的男生人数为30×2=60,
    女生人数为100-60=40,
    男生和女生人数的比例为60∶40=3∶2.
    所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
    [方法技巧]
    1.绘制频率分布直方图时的2个注意点
    (1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;
    (2)频率分布直方图的纵坐标是,而不是频率.
    2.与频率分布直方图有关的2个关系式
    (1)×组距=频率.
    (2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.  
    [即时演练]
    1.(西安一检)某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x的值等于(  )

    A.0.12 B.0.012
    C.0.18 D.0.018
    解析:选D 依题意,0.054×10+10×x+0.01×10+0.006×10×3=1,解得 x=0.018.
    2.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨).将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.

    (1)求直方图中a的值;
    (2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
    (3)估计居民月均用水量的中位数.
    解:(1)由频率分布直方图可知,月均用水量在[0,0.5)内的频率为0.08×0.5=0.04,同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.
    由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=2a×0.5,
    解得a=0.30.
    (2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
    由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
    (3)设中位数为x吨.
    因为前5组的频率之和为
    0.04+0.08+0.15+0.21+0.25=0.73>0.5,
    而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,所以2≤x<2.5.
    由0.50×(x-2)=0.5-0.48,
    解得x=2.04.
    故可估计居民月均用水量的中位数为2.04吨.

    样本的数字特征
    [典例] 对划艇运动员甲、乙二人在相同的条件下进行了6次测试,测得他们最大速度的数据如下:
    甲:27,38,30,37,35,31;
    乙:33,29,38,34,28,36.
    根据以上数据,试判断他们谁更优秀.
    [解] 甲=(27+38+30+37+35+31)=33,
    乙=(33+29+38+34+28+36)=33,
    s=[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]=×94=15,
    s=[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]=×76=12.
    ∴甲=乙,s>s.
    由此可以说明,甲、乙二人的最大速度的平均值相同,但乙比甲更稳定,故乙比甲更优秀.
    [方法技巧]
    (1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
    (2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.  
    [即时演练]
    1.设样本数据x1,x2,…,x20的均值和方差分别为1和8,若y=2x+3,则y1,y2,…,y20的均值和方差分别是(  )
    A.5,32         B.5,19
    C.1,32 D.4,35
    解析:选A ∵yi=2xi+3,
    ∴=2+3=2×1+3=5,
    方差s2=22×8=32.
    2.为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
    服用A药的20位患者日平均增加的睡眠时间:
    0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5
    2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4
    服用B药的20位患者日平均增加的睡眠时间:
    3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.4
    1.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5
    (1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
    (2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?

    解:(1)设A药观测数据的平均数为,B药观测数据的平均数为.
    由观测结果可得
    =×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,
    =×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.
    由以上计算结果可得>,因此可看出A药的疗效更好.
    (2)由观测结果可绘制如下茎叶图:

    从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的疗效更好.

    1.(全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是(  )
    A.x1,x2,…,xn的平均数
    B.x1,x2,…,xn的标准差
    C.x1,x2,…,xn的最大值
    D.x1,x2,…,xn的中位数
    解析:选B 标准差能反映一组数据的稳定程度.故选B.
    2.(全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.

    根据该折线图,下列结论错误的是(  )
    A.月接待游客量逐月增加
    B.年接待游客量逐年增加
    C.各年的月接待游客量高峰期大致在7,8月
    D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
    解析:选A 根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A错误.由图可知,B、C、D正确.
    3.(全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是(  )

    A.各月的平均最低气温都在0 ℃以上
    B.七月的平均温差比一月的平均温差大
    C.三月和十一月的平均最高气温基本相同
    D.平均最高气温高于20 ℃的月份有5个
    解析:选D 由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;平均最高气温高于20 ℃的月份只有2个,D错误.
    4.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是(  )

    A.逐年比较,2008年减少二氧化硫排放量的效果最显著
    B.2007年我国治理二氧化硫排放显现成效
    C.2006年以来我国二氧化硫年排放量呈减少趋势
    D.2006年以来我国二氧化硫年排放量与年份正相关
    解析:选D 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.
    5.(全国卷Ⅰ)某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:

    记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
    (1)若n=19,求y与x的函数解析式;
    (2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
    (3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?
    解:(1)当x≤19时,y=3 800;
    当x>19时,y=3 800+500(x-19)=500x-5 700,
    所以y与x的函数解析式为
    y=(x∈N).
    (2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.
    (3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800(元),20台的费用为4 300(元),10台的费用为4 800(元),因此这100台机器在购买易损零件上所需费用的平均数为(3 800×70+4 300×20+4 800×10)=4 000(元).
    若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000(元),10台的费用为4 500(元),因此这100台机器在购买易损零件上所需费用的平均数为(4 000×90+4 500×10)=4 050(元).比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
    6.(全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
    抽取次序
    1
    2
    3
    4
    5
    6
    7
    8
    零件尺寸
    9.95
    10.12
    9.96
    9.96
    10.01
    9.92
    9.98
    10.04
    抽取次序
    9
    10
    11
    12
    13
    14
    15
    16
    零件尺寸
    10.26
    9.91
    10.13
    10.02
    9.22
    10.04
    10.05
    9.95
    经计算得=i=9.97,s==≈0.212, ≈18.439,(xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
    (1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
    (2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
    ①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
    ②在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
    附:样本(xi,yi)(i=1,2,…,n)的相关系数
    r=,≈0.09.
    解:(1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r==≈-0.18.
    由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
    (2)①由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
    ②剔除离群值,即第13个数据,剩下数据的平均数为(16×9.97-9.22)=10.02,
    所以这条生产线当天生产的零件尺寸的均值的估计值为10.02,
    =16×0.2122+16×9.972≈1 591.134,
    剔除第13个数据,剩下数据的样本方差为
    (1 591.134-9.222-15×10.022)≈0.008,
    所以这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.

    一、选择题
    1.(内江模拟)某公司10个销售店某月销售某产品数量(单位:台)的茎叶图如下:

    分组成[11,20),[20,30),[30,39]时,所作的频率分布直方图是(  )

    解析:选B 由直方图的纵坐标是频率/组距,排除C和D;又第一组的频率是0.2,直方图中第一组的纵坐标是0.02,排除A,故选B.
    2.一个公司有8名员工,其中6名员工的月工资分别为5 200,5 300,5 500,6 100,6 500,6 600,另两名员工数据不清楚,那么8名员工月工资的中位数不可能是(  )
    A.5 800        B.6 000
    C.6 200 D.6 400
    解析:选D 由题意,把8名员工的工资由小到大排列,中位数为中间两数的平均值,若另两名员工的工资都低于5 200时,则中位数为=5 400,若另两名员工的工资都高于6 600时,则中位数为=6 300.
    ∴8名员工工资的中位数的取值范围为[5 400,6 300],
    故员工工资的中位数不可能为6 400.
    3.(长沙模拟)如图是民航部门统计的2017年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是(  )

    A.深圳的变化幅度最小,北京的平均价格最高
    B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
    C.平均价格从高到低居于前三位的城市为北京、深圳、广州
    D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
    解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,选D.
    4.某校对高三年级的学生进行体检,现将高三男生的体重(kg)数据进行整理后分成五组,并绘制频率分布直方图(如图所示).根据一般标准,高三男生的体重超过65 kg属于偏胖,低于55 kg属于偏瘦.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25,0.2,0.1,0.05,第二小组的频数为400,则估计该校高三年级的男生总数和体重正常的频率分别为(  )

    A.1 000,0.5 B.800,0.5
    C.800,0.6 D.1 000,0.6
    解析:选D 由已知得,第二小组的频率为1-0.25-0.2-0.1-0.05=0.4,所以该校高三年级的男生总数是=1 000,体重正常的频率为0.4+0.2=0.6.
    5.某项测试成绩满分为10分,现随机抽取30名学生参加测试,得分如图所示,假设得分值的中位数为me,平均值为,众数为m0,则(  )

    A.me=m0= B.me=m0<
    C.me<m0< D.m0<me<
    解析:选D 由图可知m0=5.
    由中位数的定义知应该是第15个数与第16个数的平均值,由图知将数据从小到大排,第15个数是5,第16个数是6,
    所以me==5.5.
    =(3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×2)≈5.97>5.5,
    所以m0<me<,故选D.
    6.(山西大学附中诊断测试)已知样本(x1,x2,…,xn)的平均数为,样本(y1,y2,…,ym)的平均数为(≠),若样本(x1,x2,…,xn,y1,y2,…,ym)的平均数=a+(1-a),其中0<a<,则n,m的大小关系为(  )
    A.n<m B.n>m
    C.n=m D.不能确定
    解析:选A 由题意可得=,
    =,

    =·+·
    =·+·=a+(1-a),
    所以=a,=1-a,
    又0<a<,
    所以0<<<,
    故n<m.
    二、填空题
    7.如图是甲、乙两名篮球运动员在五场比赛中所得分数的茎叶图,则在这五场比赛中得分较为稳定(方差较小)的那名运动员的得分的方差为________.

    解析:根据茎叶图中的数据知乙的得分波动性小,较为稳定(方差较小),
    乙的平均数为=×(8+9+10+13+15)=11.
    则乙得分的方差为
    s2=×[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]= .
    答案:
    8.学校为了解学生的上学的距离,随机抽取50名学生,调查他们的居住地与学校的距离d(单位:km).若样本数据分组为[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],由数据绘制的频率分布直方图如图所示,则样本中学生与学校的距离不超过4 km的人数为________.

    解析:由图知,样本中学生与学校的距离不超过4 km的频率为0.1×2+0.14×2=0.48,则样本中学生与学校的距离不超过4 km的人数为50×0.48=24.
    答案:24
    9.(安徽名校模拟)一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{an},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数是________,中位数是________.
    解析:设等差数列{an}的公差为d(d≠0),因为a3=8,a1a7=(a3)2=64,所以(8-2d)(8+4d)=64,(4-d)(2+d)=8,2d-d2=0,又d≠0,所以d=2,故样本数据为4,6,8,10,12,14,16,18,20,22,平均数为==13,中位数为=13.
    答案:13 13
    三、解答题
    10.(南昌一模)某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题:

    (1)求分数在[50,60]的频率及全班人数;
    (2)求分数在[80,90]的频数,并计算频率分布直方图中[80,90]间的矩形的高.
    解:(1)分数在[50,60]的频率为0.008×10=0.08.
    由茎叶图知,分数在[50,60]之间的频数为2,
    所以全班人数为=25.
    (2)分数在[80,90]的频数为25-2-7-10-2=4,频率分布直方图中[80,90]间的矩形的高为÷10=0.016.
    11.某市为了了解今年高中毕业生的体能状况,从本市某高中毕业班中抽取了一个班进行铅球测试,成绩在8.0 m(精确到0.1 m)以上的为合格,把所得数据进行整理后,分成6组画出条形图(如图),已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30,第6小组的频数是7.

    (1)求这次铅球测试成绩合格的人数;
    (2)若从第1小组和第2小组中随机抽取两个人的测试成绩,则两个人的测试成绩来自同一个组的概率为多少?
    解:(1)第6小组的频率为1-(0.04+0.10+0.14+0.28+0.30)=0.14,
    则此次测试总人数为=50,
    又第4,5,6组成绩均合格,
    所以合格的人数为50×(0.28+0.30+0.14)=36.
    (2)由(1)易得第1小组含2个样本,第2小组含5个样本,将第1小组的学生成绩编号为a1,a2,将第2小组的学生成绩编号为b1,b2,b3,b4,b5,从第1,2小组中随机取两个人的测试成绩的所有基本事件共有21个:(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a1,b4),(a1,b5),(a2,b1),(a2,b2),(a2,b3),(a2,b4),(a2,b5),(b1,b2),(b1,b3),(b1,b4),(b1,b5),(b2,b3),(b2,b4),(b2,b5),(b3,b4),(b3,b5),(b4,b5),而且这些基本事件是等可能出现的.
    用A表示“两个人的测试成绩来自同一组”这一事件,
    则A包含的基本事件有11个,所以P(A)=.
    12.某城市为满足市民的出行需要和节能环保的要求,在公共场所提供单车共享服务,某部门为了对共享单车进行更好的监管,随机抽取了20位市民对共享单车的情况进行了问卷调查,并根据其满足度评分值制作了茎叶图如下:

    (1)分别计算男性打分的中位数和女性打分的平均数;
    (2)从打分在80分以下(不含80分)的市民中抽取3人,求有女性被抽中的概率.
    解:(1)由茎叶图可知,
    男性打分的中位数为=81.
    女性打分的平均数为
    (77+78+80+83+85+88+89+92+97+99)=86.8.
    (2)由茎叶图可知,80分以下的市民共有6人,其中男性4人,记作A,B,C,D,女性2人,记作a,b,
    从6人中抽取3人所构成的基本事件空间为:
    {ABC,ABD,ABa,ABb,ACD,ACa,ACb,ADa,ADb,Aab,BCD,BCa,BCb,BDa,BDb,Bab,CDa,CDb,Cab,Dab},共20个基本事件,
    其中“有女性被抽中”包含的基本事件有:
    {ABa,ABb,ACa,ACb,ADa,ADb,Aab,BCa,BCb,BDa,BDb,Bab,CDa,CDb,Cab,Dab}, 共16个基本事件,
    所以从打分在80分以下(不含80分)的市民中抽取3人,有女性被抽中的概率P==.


     某校对高三年级的学生进行体检,现将高三男生的体重(单位:kg)数据进行整理后分成六组,并绘制频率分布直方图(如图).已知图中从左到右第一、第六小组的频率分别为0.16,0.07,第一、第二、第三小组的频率成等比数列,第三、第四、第五、第六小组的频率成等差数列,且第三小组的频数为100,则该校高三年级的男生总数为________人.

    解析:设第三小组的频率为x,等比数列的公比为q,等差数列的公差为d,

    解得q=1.25,x=0.25,
    因为第三小组的人数为100,
    所以该校高三年级的男生总数为=400人.
    答案:400
    高考研究课(三) 变量间的相关关系、统计案例
    [全国卷5年命题分析]
    考点
    考查频度
    考查角度
    回归分析
    5年4考
    求回归方程及其应用
    统计案例
    5年2考
    独立性检验的应用问题


    相关关系的判断
    [典例] (1)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是(  )

    A.r2<r4<0<r3<r1
    B.r4<r2<0<r1<r3
    C.r4<r2<0<r3<r1
    D.r2<r4<0<r1<r3
    (2)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是(  )
    A.x与y正相关,x与z负相关
    B.x与y正相关,x与z正相关
    C.x与y负相关,x与z负相关
    D.x与y负相关,x与z正相关
    [解析] (1)由相关系数的定义,以及散点图所表达的含义可知r2<r4<0<r3<r1.
    (2)因为y=-0.1x+1的斜率小于0,故x与y负相关.
    因为y与z正相关,可设z=y+,>0,
    则z=y+=-0.1x++,
    故x与z负相关.
    [答案] (1)A (2)C
    [方法技巧]
    相关关系的判断的2种方法
    (1)散点图法.
    (2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.  
    [即时演练]
    1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是(  )


    解析:选D 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.

    2.(湖北七市联考)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴、y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是(  )
    A.线性相关关系较强,b的值为1.25
    B.线性相关关系较强,b的值为0.83
    C.线性相关关系较强,b的值为-0.87
    D.线性相关关系较弱,无研究价值
    解析:选B 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.

    线性回归分析
    [典例] 如表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据
    x
    3
    4
    5
    6
    y
    2.5
    3
    4
    4.5
    参考公式:=,=-.
    (1)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
    (2)已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?
    [解] (1)∵=×(3+4+5+6)=4.5,
    =×(2.5+3+4+4.5)=3.5,
    =32+42+52+62=86,
    iyi=3×2.5+4×3+5×4+6×4.5=66.5,
    ∴==0.7,
    ∴=- =3.5-0.7×4.5=0.35,
    ∴所求线性回归方程为=0.7x+0.35.
    (2)当x=100时,
    =0.7×100+0.35=70.35,
    ∴90-70.35=19.65(吨),
    故预测生产100吨甲产品的生产能耗比技术改造前降低了19.65吨标准煤.
    [方法技巧]
    (1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
    (2)回归直线方程y=x+必过样本点中心(,).
    (3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.  
    [即时演练]
    1.已知两组数据x,y的对应值如下表,若已知x,y线性相关且线性回归方程为=x+,经计算知:=-1.4,则=(  )
    x
    4
    5
    6
    7
    8
    y
    12
    10
    9
    8
    6
    A.-0.6         B.0.6
    C.-17.4 D.17.4
    解析:选D ==6,==9.
    线性回归方程为=x+,必经过点(,),即9=-1.4×6+,解得=17.4.
    2.在某化学反应的中间阶段,压力保持不变,温度从1°变化到5°,反应结果如下表所示(x代表温度,y代表结果):
    x
    1
    2
    3
    4
    5
    y
    3
    5
    7
    10
    11
    (1)求化学反应的结果y对温度x的线性回归方程=x+;
    (2)判断变量x与y之间是正相关还是负相关,并预测当温度达到10°时反应结果为多少?
    附:线性回归方程=x+中,=,
    =-.
    解:(1)由题意知,=(1+2+3+4+5)=3,
    =(3+5+7+10+11)=7.2,
    且=12+22+32+42+52=55,
    iyi=3×1+2×5+3×7+4×10+5×11=129,
    ∴===2.1,
    =-=7.2-2.1×3=0.9,
    故所求的回归方程为=2.1x+0.9.
    (2)由于变量y的值随温度x的值增加而增加(=2.1>0),故x与y之间是正相关.
    当x=10时,=2.1×10+0.9=21.9.

    独立性检验
    [典例] (沈阳模拟)为考查某种疫苗预防疾病的效果,进行动物实验,得到统计数据如下:

    未发病
    发病
    总计
    未注射疫苗
    20
    x
    A
    注射疫苗
    30
    y
    B
    总计
    50
    50
    100
    现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为.
    (1)求2×2列联表中的数据x,y,A,B的值;
    (2)绘制发病率的条形统计图,并判断疫苗是否有效?

    (3)能够有多大把握认为疫苗有效?
    附:K2=,n=a+b+c+d.
    P(K2≥k0)
    0.05
    0.01
    0.005
    0.001
    k0
    3.841
    6.635
    7.879
    10.828

    [解] (1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件E,由已知得P(E)==,所以y=10,B=40,x=40,A=60.
    (2)未注射疫苗发病率为=,注射疫苗发病率为=.
    作出发病率的条形统计图如图所示,由图可以看出疫苗影响到发病率,且注射疫苗的发病率小,故判断疫苗有效.

    (3)K2==≈16.667>10.828.
    所以至少有99.9%的把握认为疫苗有效.
    [方法技巧]
    解独立性检验的应用问题的关注点
    (1)两个明确
    ①明确两类主体;②明确研究的两个问题.
    (2)两个关键
    ①准确画出2×2列联表;②准确计算K2.
    [提醒] 准确计算K2的值是正确判断的前提.  
    [即时演练]
    已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.

    (1)求n的值;
    (2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?
    附:
    P(K2≥k0)
    0.10
    0.05
    0.010
    0.005
    k0
    2.706
    3.841
    6.635
    7.879
    K2=
    解:(1)依题意得
    解得b=0.01.
    因为成绩在[90,100]内的有6人,所以n==60.
    (2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,
    设及格的人中,女生有x人,则男生有x-4人,于是x+x-4=48,解得x=26,故及格的人中,女生有26人,男生有22人.
    于是本次测试的及格情况与性别的2×2列联表如下:

    及格
    不及格
    总计

    22
    8
    30

    26
    4
    30
    总计
    48
    12
    60
    结合列联表计算可得K2==1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.

    1.(全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:

    (1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
    (2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:

    箱产量<50 kg
    箱产量≥50 kg
    旧养殖法


    新养殖法


    (3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
    附:
    P(K2≥k)
    0.050
    0.010
    0.001
    k
    3.841
    6.635
    10.828
    K2=.
    解:(1)旧养殖法的箱产量低于50 kg的频率为
    (0.012+0.014+0.024+0.034+0.040)×5=0.62.
    因此,事件A的概率估计值为0.62.
    (2)根据箱产量的频率分布直方图得列联表:

    箱产量<50 kg
    箱产量≥50 kg
    旧养殖法
    62
    38
    新养殖法
    34
    66
    根据表中数据及K2的计算公式得,
    K2=≈15.705.
    由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
    (3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
    2.(全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.

    (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
    (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
    参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
    参考公式:相关系数r=,
    回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
    解:(1)由折线图中的数据和附注中的参考数据得
    =4,(ti-)2=28, =0.55,
    (ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
    ∴r≈≈0.99.
    因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
    (2)由=≈1.331及(1)得
    ==≈0.103.
    =- ≈1.331-0.103×4≈0.92.
    所以y关于t的回归方程为=0.92+0.10t.
    将2016年对应的t=9代入回归方程得
    =0.92+0.10×9=1.82.
    所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
    3.(2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.




    (xi-)2
    (wi-)2
    (xi-)(yi-)
    (wi-)(yi-)
    46.6
    563
    6.8
    289.8
    1.6
    1 469
    108.8
    表中wi=,=i.
    (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
    (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
    (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
    ①年宣传费x=49时,年销售量及年利润的预报值是多少?
    ②年宣传费x为何值时,年利润的预报值最大?
    附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=- .
    解:(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
    (2)令w=,先建立y关于w的线性回归方程.
    由于===68,
    =-=563-68×6.8=100.6,
    所以y关于w的线性回归方程=100.6+68w,
    因此y关于x的回归方程为=100.6+68.
    (3)①由(2)知,当x=49时,
    年销售量y的预报值=100.6+68=576.6,
    年利润z的预报值=576.6×0.2-49=66.32.
    ②根据(2)的结果知,年利润z的预报值
    =0.2(100.6+68)-x=-x+13.6+20.12.
    所以当==6.8,即x=46.24时,取得最大值.
    故年宣传费为46.24千元时,年利润的预报值最大.

    一、选择题
    1.根据如下样本数据得到的回归方程为=x+,若=5.4,则x每增加1个单位,y就(  )
    x
    3
    4
    5
    6
    7
    y
    4
    2.5
    -0.5
    0.5
    -2
    A.增加0.9个单位     B.减少0.9个单位
    C.增加1个单位 D.减少1个单位
    解析:选B 由题意可得=(3+4+5+6+7)=5,
    =(4+2.5-0.5+0.5-2)=0.9,
    ∵回归方程为=x+,=5.4,且回归直线过点(5,0.9),
    ∴0.9=5+5.4,解得=-0.9,
    ∴x每增加1个单位,y就减少0.9个单位 .
    2.已知x与y之间的几组数据如下表:
    x
    1
    2
    3
    4
    5
    6
    y
    0
    2
    1
    3
    3
    4
    假设根据上表数据所得线性回归直线方程为=x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y′=b′x+a′,则以下结论正确的是(  )
    A.>b′,>a′ B.>b′, C.< b′,>a′ D. 解析:选C 过(1,0)和(2,2)的直线方程为y=2x-2,画出六点的散点图,回归直线的大概位置如图所示,显然a′.故选C.
    3.(山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+,已知i=225,i=1 600,=4.该班某学生的脚长为24,据此估计其身高为(  )
    A.160 B.163
    C.166 D.170
    解析:选C 由题意可知=4x+,
    又=22.5,=160,
    因此160=22.5×4+,解得=70,
    所以=4x+70.
    当x=24时,=4×24+70=166.
    4.为了解高中生对电视台某节目的态度,在某中学随机调查了110名学生,得到如下列联表:



    总计
    喜欢
    40
    20
    60
    不喜欢
    20
    30
    50
    总计
    60
    50
    110
    由K2=,
    得K2=≈7.822.
    附表:
    P(K2≥k0)
    0.05
    0.01
    0.001
    k0
    3.841
    6.635
    10.828
    参照附表,得到的正确结论是(  )
    A.在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”
    B.在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别无关”
    C.有99%以上的把握认为“喜欢该节目与性别有关”
    D.有99%以上的把握认为“喜欢该节目与性别无关”
    解析:选C 根据K2的值,对照附表可得P(K2≥k0)≈0.01,所以有99%以上的把握认为“喜欢该节目与性别有关”.
    5.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为(  )
    A.66% B.67%
    C.79% D.84%
    解析:选D ∵y与x具有线性相关关系,满足回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为=84%.
    6.某研究机构对儿童记忆能力x和识图能力y进行统计分析,得到如下数据:
    记忆能力x
    4
    6
    8
    10
    识图能力y
    3
    5
    6
    8
    由表中数据,求得线性回归方程为=x+,若某儿童的记忆能力为12,则他的识图能力为(  )
    A.7 B.9.5
    C.10 D.12
    解析:选B 由表中数据得==7,==,由(,)在直线=x+上,得=-,即线性回归方程为=x-.当x=12时,=×12-=9.5,即他的识图能力为9.5.
    二、填空题
    7.(阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:

    认为作业多
    认为作业不多
    总计
    喜欢玩电脑游戏
    12
    8
    20
    不喜欢玩电脑游戏
    2
    8
    10
    总计
    14
    16
    30
    该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________.
    解析:计算得K2的观测值k=≈4.286>3.841,则推断犯错误的概率不超过0.05.
    答案:0.05
    8.某品牌牛奶的广告费用x与销售额的统计数据如下表:
    广告费用x(万元)
    4
    2
    3
    5
    销售额y(万元)
    49
    26
    39
    54

    根据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为7万元时销售额为________万元.
    解析:因为==,
    ==42,
    由题意可得回归方程为=9.4x+,
    因为回归直线一定经过样本点中心(,)
    所以42=9.4×+,解得=9.1,
    所以回归方程为=9.4x+9.1,
    当x=7时,销售额为y=9.4×7+9.1=74.9(万元).
    答案:74.9
    9.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程和相关系数r,分别得到以下四个结论:
    ①y=2.347x-6.423,且r=-0.928 4;
    ②y=-3.476x+5.648,且r=-0.953 3;
    ③y=5.437x+8.493,且r=0.983 0;
    ④y=-4.326x-4.578,且r=0.899 7.
    其中不正确的结论的序号是________.
    解析:对于①,y=2.347x-6.423,且r=-0.928 4,
    线性回归方程符合正相关的特征,r>0,∴①错误;
    对于②,y=-3.476x+5.648,且r=-0.953 3,
    线性回归方程符合负相关的特征,r<0,∴②正确;
    对于③,y=5.437x+8.493,且r=0.983 0,
    线性回归方程符合正相关的特征,r>0,∴③正确;
    对于④,y=-4.326x-4.578,且r=0.899 7,
    线性回归方程符合负相关的特征,r<0,④错误.
    综上,①④错误.
    答案:①④
    三、解答题
    10.(惠州调研)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如图所示.

    (1)求a的值,并计算所抽取样本的平均值(同一组中的数据用该组区间的中点值作代表);
    (2)填写下面的2×2列联表,并判断在犯错误的概率不超过0.05的前提下能否认为“获奖与学生的文、理科有关”.

    文科生
    理科生
    总计
    获奖
    5


    不获奖



    总计


    200
    附表及公式:
    P(K2≥k0)
    0.10
    0.05
    0.025
    0.010
    0.005
    0.001
    k0
    2.706
    3.841
    5.024
    6.635
    7.879
    10.828
    K2=.
    解:(1)a=×[1-(0.01+0.015+0.03+0.015+0.005)×10]=0.025,
    =45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69.
    (2)由频率分布直方图知样本中获奖的人数为40,不获奖的人数为160,2×2列联表如下:

    文科生
    理科生
    总计
    获奖
    5
    35
    40
    不获奖
    45
    115
    160
    总计
    50
    150
    200
    因为K2=≈4.167>3.841,
    所以在犯错误的概率不超过0.05的前提下能认为“获奖与学生的文、理科有关”.
    11.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:
    日期
    12月1日
    12月2日
    12月3日
    12月4日
    12月5日
    温差x(℃)
    10
    11
    13
    12
    8
    发芽数y(颗)
    23
    25
    30
    26
    16

    该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求回归方程,再对被选取的2组数据进行检验.
    (1)求选取的2组数据恰好是不相邻的2天数据的概率;
    (2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求y关于x的线性回归方程=x+;
    (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?
    (附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为
    =,=- .)
    解:(1)设抽到不相邻两组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况是等可能出现的,其中抽到相邻两组数据的情况共有4种,所以P(A)=1-=,故选取的2组数据恰好是不相邻的2天数据的概率为.
    (2)由数据,求得=×(11+13+12)=12,
    =×(25+30+26)=27,
    iyi=11×25+13×30+12×26=977,
    =112+132+122=434,
    所以===,
    =27-×12=-3.
    所以回归直线方程为=x-3.
    (3)当x=10时,=22,|22-23|<2,同理当x=8时,=17,|17-16|<2.
    所以该研究得到的线性回归方程是可靠的.

     某公司为了准确把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销量y(单位:万件)之间的关系如表所示:
    x
    1
    2
    3
    4
    y
    12
    28
    42
    56

    (1)在图中画出表中数据的散点图;
    (2)根据(1)中的散点图拟合y与x的回归模型,并用相关系数加以说明;
    (3)建立y关于x的回归方程,预测第5年的销售量约为多少?
    参考数据: ≈32.66,≈2.24,
    iyi=418.
    参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘法估计公式分别为
    ==,=-.
    解:(1)作出散点图如图所示.

    (2)由(1)的散点图可知,各点大致分布在一条直线附近,由题中所给数据及参考数据得:
    =,=,=30, ≈32.66,
    (xi-)(yi-)=iyi-i=418-×138=73,
    = = =≈2.24,
    ∴r==≈0.997 8.
    ∵y与x的相关系数近似为0.997 8,说明y与x的线性相关程度相当大,
    ∴可以用线性回归模型拟合y与x的关系.
    (3)由(2)知,iyi-4 =73,-42=5,
    ∴=,=- =-×=-2,
    故y关于x的回归直线方程为=x-2.
    当x=5时,=×5-2=71,
    ∴第5年的销售量约为71万件.
    相关试卷

    通用版高考数学(文数)一轮复习第14单元《概率》学案(含详解): 这是一份通用版高考数学(文数)一轮复习第14单元《概率》学案(含详解),共35页。

    通用版高考数学(文数)一轮复习第12单元《直线与圆》学案(含详解): 这是一份通用版高考数学(文数)一轮复习第12单元《直线与圆》学案(含详解),共52页。

    通用版高考数学(文数)一轮复习第11单元《空间位置关系》学案(含详解): 这是一份通用版高考数学(文数)一轮复习第11单元《空间位置关系》学案(含详解),共59页。

    免费资料下载额度不足,请先充值

    每充值一元即可获得5份免费资料下载额度

    今日免费资料下载份数已用完,请明天再来。

    充值学贝或者加入云校通,全网资料任意下。

    提示

    您所在的“深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载 10 份资料 (今日还可下载 0 份),请取消部分资料后重试或选择从个人账户扣费下载。

    您所在的“深深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载10份资料,您的当日额度已用完,请明天再来,或选择从个人账户扣费下载。

    您所在的“深圳市第一中学”云校通余额已不足,请提醒校管理员续费或选择从个人账户扣费下载。

    重新选择
    明天再来
    个人账户下载
    下载确认
    您当前为教习网VIP用户,下载已享8.5折优惠
    您当前为云校通用户,下载免费
    下载需要:
    本次下载:免费
    账户余额:0 学贝
    首次下载后60天内可免费重复下载
    立即下载
    即将下载:0份资料
    • 充值学贝下载 90%的用户选择 本单免费
    • 扫码直接下载
    选择教习网的 4 个理由
    • 更专业

      地区版本全覆盖, 同步最新教材, 公开课⾸选;1200+名校合作, 5600+⼀线名师供稿

    • 更丰富

      涵盖课件/教案/试卷/素材等各种教学资源;500万+优选资源 ⽇更新5000+

    • 更便捷

      课件/教案/试卷配套, 打包下载;手机/电脑随时随地浏览;⽆⽔印, 下载即可⽤

    • 真低价

      超⾼性价⽐, 让优质资源普惠更多师⽣

    开票申请 联系客服
    本次下载需要:0学贝 0学贝 账户剩余:0学贝
    本次下载需要:0学贝 原价:0学贝 账户剩余:0学贝
    了解VIP特权
    您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送

        扫码支付后直接下载

        0元

        扫码支付后直接下载

        使用学贝下载资料比扫码直接下载优惠50%
        充值学贝下载,本次下载免费
        了解VIP特权
        • 微信
        • 支付宝

        微信扫码支付

        支付宝扫码支付(支持花呗)

        到账0学贝
        • 微信
        • 支付宝

        微信扫码支付

        支付宝扫码支付 (支持花呗)

          下载成功

          Ctrl + Shift + J 查看文件保存位置

          若下载不成功,可重新下载,或查看 资料下载帮助

          本资源来自成套资源

          更多精品资料

          正在打包资料,请稍候…

          预计需要约10秒钟,请勿关闭页面

          服务器繁忙,打包失败

          请联系右侧的在线客服解决

          单次下载文件已超2GB,请分批下载

          请单份下载或分批下载

          支付后60天内可免费重复下载

          我知道了
          正在提交订单

          欢迎来到教习网

          • 900万优选资源,让备课更轻松
          • 600万优选试题,支持自由组卷
          • 高质量可编辑,日均更新2000+
          • 百万教师选择,专业更值得信赖
          微信扫码注册
          qrcode
          二维码已过期
          刷新

          微信扫码,快速注册

          还可免费领教师专享福利「樊登读书VIP」

          手机号注册
          手机号码

          手机号格式错误

          手机验证码 获取验证码

          手机验证码已经成功发送,5分钟内有效

          设置密码

          6-20个字符,数字、字母或符号

          注册即视为同意教习网「注册协议」「隐私条款」
          QQ注册
          手机号注册
          微信注册

          注册成功

          下载确认

          下载需要:0 张下载券

          账户可用:0 张下载券

          立即下载

          如何免费获得下载券?

          加入教习网教师福利群,群内会不定期免费赠送下载券及各种教学资源, 立即入群

          即将下载

          通用版高考数学(文数)一轮复习第15单元《统计与统计案例》学案(含详解)

          该资料来自成套资源,打包下载更省心

          [共10份]
          浏览全套
            立即下载(共1份)
            返回
            顶部