【数学】2020届一轮复习人教B版(文)35统计案例作业
天天练35 统计案例
小题狂练
一、选择题
1.一个年级有12个班,每个班有50名同学,随机编号为1~50,为了了解他们的课外兴趣,要求每班编号为40的同学留下来进行问卷调查,这里运用的抽样方法是( )
A.抽签法 B.分层抽样
C.随机数法 D.系统抽样
答案:D
解析:根据系统抽样的定义知选D.
2.[2019·云南玉溪一中模拟]总体由编号为01,02,03,…,49,50的50个个体组成,利用随机数表(以下摘取了随机数表中第1行和第2行)选取5个个体,选取方法是从随机数表第1行的第9列和第10列数字开始由左向右读取,则选出来的第4个个体的编号为( )
66 67 40 67 14 64 05 71 95 86 11 05 64 09 68 76 83 20 37 90
57 16 00 11 66 14 90 84 45 11 75 73 88 05 90 52 27 41 14 86
A.05 B.09
C.11 D.20
答案:B
解析:从随机数表第1行的第9列和第10列数字开始,依次是14,05,11,09,则第四个数字是09,故选B.
3.[2019·贵州遵义联考]某校高三年级有1 000名学生,随机编号为0001,0002,…,1 000.现按系统抽样方法,从中抽出200人,若0122号被抽到了,则下列编号也被抽到的是( )
A.0927 B.0834
C.0726 D.0116
答案:A
解析:系统抽样就是等距抽样,被抽到的编号满足0122+5k,k∈Z.因为0927=0122+5×161,故选A.
4.[2019·江西九校联考(一)]一组数据共有7个数,其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数据的平均数、中位数、众数依次成等差数列,则这个数的所有可能值的和为( )
A.3 B.17
C.-11 D.9
答案:D
解析:设这个数是x,则平均数为,众数为2,若x≤2,则中位数为2,此时x=-11,若2
0,∴产品的生产能耗与产量成正相关,故B正确;∵=×(2.5+t+4+4.5)=3.5,∴t=3,故C错误;A产品每多生产1吨,相应的生产能耗约增加0.7吨,故D正确.故选C.
7.[2019·山西太原模拟]已知某产品的广告费用x(单位:万元)与销售额y(单位:万元)具有线性相关关系,其统计数据如下表:
x
3
4
5
6
y
25
30
40
45
由上表可得线性回归方程=x+,据此模型预测广告费用为8万元时的销售额是( )
参考公式:==,
=-.
A.59.5万元 B.52.5万元
C.56万元 D.63.5万元
答案:A
解析:由表可知=4.5,=35,所以计算得=7,=3.5,所以线性回归方程为=7x+3.5,所以广告费用为8万元时销售额的预测值为59.5万元,故选A.
8.[2019·武汉调研]某选手的7个得分去掉1个最高分,去掉1个最低分,剩余5个得分的平均数为91,如图,该选手的7个得分的茎叶图有一个数据模糊,无法辨认,在图中用x
表示,则剩余5个得分的方差为( )
A. B.
C.6 D.30
答案:C
解析:由茎叶图知,最低分为87分,最高分为99分.依题意得,×(87+93+90+9×10+x+91)=91,解得x=4.则剩余5个得分的方差s2=×[(87-91)2+(93-91)2+(90-91)2+(94-91)2+(91-91)2]=×(16+4+1+9)=6.故选C.
二、非选择题
9.[2018·全国卷Ⅲ]某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
答案:分层抽样
解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.
10.[2019·山西实验中学模拟]某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:
产品数x个
10
20
30
40
50
产品总成本(元)
62
a
75
81
89
由最小二乘法得到回归方程=0.67x+54.9,则a=________.
答案:68
解析:计算可得,=30,=,所以=0.67×30+54.9,解得a=68.
11.[2019·江苏南京调研]为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的200辆汽车的时速,所得数据均在区间[40,80]中,其频率分布直方图如图所示,则在抽测的200辆汽车中,时速在区间[40,60)内的汽车有________辆.
答案:80
解析:时速在区间[40,60)内的汽车有200×(0.01+0.03)×10=80辆.
12.[2019·广东东莞模拟]某班收集了50位同学的身高数据,每一个学生的性别与其身高是否高于或低于中位数的列联表如下:
高于中位数
低于中位数
总计
男
20
7
27
女
10
13
23
总计
30
20
50
为了检验性别是否与身高有关系,根据表中的数据,得到K2的观测值k=≈4.84,因为K2≥3.841,所以在犯错误的概率不超过________的前提下认为性别与身高有关系.
答案:0.05
解析:由于K2的观测值k=≈4.84,P(K2≥3.841)=0.05,在犯错误的概率不超过0.05的情况下认为性别与身高有关系.
课时测评
一、选择题
1.[2019·桂林月考]完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.宜采用的抽样方法依次是( )
A.①简单随机抽样,②系统抽样
B.①分层抽样,②简单随机抽样
C.①系统抽样,②分层抽样
D.①②都用分层抽样
答案:B
解析:因为社会购买能力的某项指标受到家庭收入的影响,而社区中各个家庭收入差别明显,所以①用分层抽样法;从某中学的15名艺术特长生中选出3名调查学习负担情况,个体之间差别不大,且总体和样本容量较小,所以②用简单随机抽样法,故选B.
2.[2019·山西长治四校联考]某班组织学生参加数学测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )
A.45 B.50
C.55 D.60
答案:B
解析:由题图可知,数据落在[20,40),[40,60)内的频率为(0.005+0.010)×20=0.3,∴该班的学生人数是=50.
3.[2019·吉林长春质检]
下面四个残差图中反映出回归模型的拟合精度较高的为( )
A.图① B.图②
C.图③ D.图④
答案:A
解析:根据残差图显示的分布情况即可看出,图①显示的残差点比较均匀地落在水平的带状区域中,且带状区域的宽度最窄,所以拟合精度较高,故选A.
4.[2019·长春质检]某学校为了制订治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:
同意限定区域停车
不同意限定区域停车
合计
男
20
5
25
女
10
15
25
合计
30
20
50
则认为“是否同意限定区域停车与家长的性别有关”的把握约为( )
A.0.1% B.0.5%
C.99.5% D.99.9%
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
答案:C
解析:因为K2=≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.
5.[2019·吉林长春质检]已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( )
A.95,94 B.92,86
C.99,86 D.95,91
答案:B
解析:由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B.
6.[2019·云南曲靖一中月考]下表是x,y的对应数据,由表中数据得线性回归方程为=0.8x-.那么,当x=60时,相应的为( )
x
15
20
25
30
35
y
6
12
14
20
23
A.38 B.43
C.48 D.52
答案:B
解析:由表中数据,得=25,=15.∵回归直线必过点(,),∴15=0.8×25-,解得=5,∴线性回归方程为=0.8x-5.
∴当x=60时,相应的=0.8×60-5=43.
7.
某赛季甲、乙两名篮球运动员各13场比赛得分情况用茎叶图表示如右图:
根据右图,对这两名运动员的成绩进行比较,下列四个结论中不正确的是( )
A.甲运动员得分的极差大于乙运动员得分的极差
B.甲运动员得分的中位数大于乙运动员得分的中位数
C.甲运动员得分的平均值大于乙运动员得分的平均值
D.甲运动员的成绩比乙运动员的成绩稳定
答案:D
解析:根据茎叶图可知,甲运动员的13场比赛得分分别为19,18,18,26,21,20,35,33,32,30,47,41,40;乙运动员的13场比赛得分分别为17,17,19,19,22,25,26,27,29,29,30,32,33.对于A,极差是数据中最大值与最小值的差,由茎叶图中的数据可得甲运动员得分的极差为47-18=29,乙运动员得分的极差为33-17=16,故甲运动员得分的极差大于乙运动员得分的极差,因此A正确;对于B,甲运动员的得分从低到高依次为18,18,19,20,21,26,30,32,33,35,40,41,47,处于中间的数是30,所以甲运动员得分的中位数是30,同理得乙运动员得分的中位数是26,因此甲运动员得分的中位数大于乙运动员得分的中位数,故B正确;对于C,不难得出甲运动员得分的平均值约为29.2,乙运动员得分的平均值为25,因此甲运动员得分的平均值大于乙运动员得分的平均值,故C正确;对于D,甲的方差s≈×[(19-29.2)2+(18-29.2)2+…+(40-29.2)2]≈88.18,同理,得乙的方差s≈29.54,因为乙的方差小于甲的方差,所以乙运动员的成绩比甲运动员的成绩稳定,故D不正确.故选D.
8.[2019·河北石家庄二中模拟]下列说法正确的个数为( )
①在回归分析中,可用指数系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好.
②在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好.
③在回归分析中,可用相关系数r的值判断模型的拟合效果,r越大,模型的拟合效果越好.
④在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
A.1 B.2
C.3 D.4
答案:B
解析:用指数系数R2的值判断模型的拟合效果,R2
越大,模型的拟合效果越好,故(1)正确;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故(2)不正确;可用相关系数r的值判断两个变量的相关性,|r|越大,说明相关性越强,故(3)不正确;残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高,故(4)正确.综上可知有2个命题正确,故选B.
二、非选择题
9.某班级有50名学生,现要采取系统抽样的方法在这50名学生中抽出10名学生,将这50名学生随机编号1~50,并分组,第一组1~5号,第二组6~10号,…,第十组46~50号,若在第三组中抽得号码为12的学生,则在第八组中抽得号码为________的学生.
答案:37
解析:组距为5,(8-3)×5+12=37.
10.[2019·济南模拟]2017年2月20日,摩拜单车在某市推出“做文明骑士,周一摩拜单车免费骑”活动,为了解单车使用情况,记者随机抽取了五个投放区域,统计了半小时内被骑走的单车数量,绘制了如图所示的茎叶图,则该组数据的方差为________.
答案:4
解析:由茎叶图得,该组数据分别是87,89,90,91,93,平均数是=90,故方差s2=×(9+1+0+1+9)=4.
11.[2018·全国卷Ⅱ]下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解析:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)