【数学】2018届一轮复习北师大版第九章算法初步统计统计案例第三节用样本估计总体教案
第三节 用样本估计总体
☆☆☆2017考纲考题考情☆☆☆
考纲要求
真题举例
命题角度
1.了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,理解它们各自的特点;
2.理解样本数据标准差的意义和作用,会计算数据标准差;
3.能从样本数据中提取基本的数字特征(如平均数、标准差),并给出合理的解释;
4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想。
2016,山东卷,3,5分(频率分布直方图)
2016,江苏卷,4,5分(样本方差)
2016,四川卷,16,12分(频率分布直方图的应用)
2015,全国卷Ⅱ,18,12分(样本数字特征、概率)
2015,安徽卷,6,5分(标准差)
1.本节是用样本估计总体,是统计学的基础,以考查频率分布直方图、茎叶图、平均数、方差、标准差为主,同时考查对样本估计总体的思想的理解;
2.本节在高考题中主要是以选择题和填空题为主,属于中低档题目。
微知识 小题练
自|主|排|查
1.用样本的频率分布估计总体分布
(1)作频率分布直方图的步骤。
①求极差(即一组数据中最大值与最小值的差)。
②决定组距与组数。
③将数据分组。
④列频率分布表。
⑤画频率分布直方图。
(2)频率分布折线图和总体密度曲线。
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点
,就得频率分布折线图。
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线。
(3)茎叶图。
茎是指中间的一列数,叶是从茎的旁边生长出来的数。
2.用样本的数字特征估计总体的数字特征
(1)众数:一组数据中出现次数最多的数。
(2)中位数:将数据按大小顺序排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数。
(3)平均数:=,反映了一组数据的平均水平。
(4)标准差:是样本数据到平均数的一种平均距离,s=。
(5)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2](xn是样本数据,n是样本容量,是样本平均数)。
微点提醒
1.平均数表示一组数据的平均水平,众数表示一组数据中出现次数最多的数,中位数表示一组数据按从小到大或从大到小的顺序排列后中间一项或中间两项的平均数,都可以从不同的角度描述数据的集中趋势。
2.频率分布直方图中的纵轴代表的是,而不是频率。
3.对于实际中的数据分析的时候,要注意贴合实际目的,并尽量分析全面,从而做出合理的决策。
小|题|快|练
一 、走进教材
1.(必修3P81A组T2改编)学校为了解学生在课外读物方面的支出情况,抽取了n位同学进行调查,结果显示这些同学的支出都在[10,50](单位:元)之间,其频率分布直方图如图所示,其中支出在[10,30)(单位:元)内的同学有33人,则支出在[40,50](单位:元)内的同学人数为( )
A.100 B.120
C.30 D.300
【解析】 支出在[10,30)内的同学所占的频率为(0.010+0.023)×10=0.33,所以n==100。又支出在[40,50]内的同学所占的频率为1-(0.010+0.023+0.037)×10=0.3,所以支出在[40,50]内的同学人数为100×0.3=30。故选C。
【答案】 C
2.(必修3P79练习T1)农场种植的甲、乙两种水稻,在面积相等的两块稻田中连续6年的平均产量如下(单位:500 g),产量比较稳定的是( )
品种
第1年
第2年
第3年
第4年
第5年
第6年
甲
900
920
900
850
910
920
乙
890
960
950
850
860
890
A.甲 B.乙
C.一样 D.无法确定
【解析】 甲=×(900+920+900+850+910+920)=900,乙=×(890+960+950+850+860+890)=900;s=×(202+502+102+202)≈567,s=(102+602+502+502+402+102)≈1 733,因为s
s,
∴乙的成绩较稳定。
【答案】 乙
5.某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示。
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________。
【解析】 (1)0.1×1.5+0.1×2.5+0.1×a+0.1×2+0.1×0.8+0.1×0.2=1,解得a=3;
(2)区间[0.5,0.9]内的频率为1-0.1×1.5-0.1×2.5=0.6,则该区间内购物者的人数为10 000×0.6=6 000。
【答案】 (1)3 (2)6 000
微考点 大课堂
考点一
频率分布直方图及应用
【典例1】 我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费。为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图。
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;
(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由。
【解析】 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,
同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02。
由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,
解得a=0.30。
(2)由(1)可知,100位居民每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12。
由以上样本的频率,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000。
(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,
而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,
所以2.5≤x<3。
由0.3×(x-2.5)=0.85-0.73,
解得x=2.9。
所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准。
【答案】 (1)0.30 (2)36 000人 (3)2.9,理由见解析
反思归纳 解决频率分布直方图的问题,关键在于找出图中数据之间的联系。这些数据中,直接的有组距、,间接的有频率、小长方形的面积,合理使用这些数据,再结合两个等量关系:小长方形面积=组距×=频率,小长方形面积之和等于1,即频率之和等于1,就可以解决直方图的有关问题。
【变式训练】 (2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30]。根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60
C.120 D.140
【解析】 由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140。故选D。
【答案】 D
考点二
茎叶图及其应用
【典例2】 某市为了考核甲、乙两部门的工作情况,随机访问了50位市民。根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价。
【解析】 (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75。
50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为=67,所以该市的市民对乙部门评分的中位数的估计值是67。
(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为=0.1,=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16。
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高,评价较为一致,对乙部门的评价较低、评价差异较大。
【答案】 (1)对甲、乙两部门评分的中位数的估计值分别是75,67
(2)对甲、乙两部门的评分高于90的概率的估计值分别为0.1,0.16
(3)评价见解析
反思归纳 在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义。
【变式训练】 甲、乙两个小组各10名学生的英语口语测试成绩如下(单位:分):
甲组:76 90 84 86 81 87 86 82 85 83
乙组:82 84 85 89 79 80 91 89 79 74
用茎叶图表示这两个小组的成绩,并判断哪个小组的成绩更整齐一些。
【解析】 茎叶图如图所示(中间的茎为十位数字):
由茎叶图容易看出甲组的成绩是对称的,有的叶集中分布在茎8上,乙组的成绩也大致对称,有的叶集中分布在茎8上,从叶在茎上的分布情况看,甲组的成绩更整齐一些。
【答案】 见解析
考点三
样本的数字特征……多维探究
角度一:样本的数字特征的计算
【典例3】 (1)下面是一容量为100的样本的重量的频率分布直方图,则由图可估计样本重量的中位数为( )
A.11 B.11.5
C.12 D.12.5
(2)(2016·江苏高考)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________。
(3)(2016·宜宾模拟)若数据x1,x2,x3,…,xn的平均数为=5,方差s2=2,则数据3x1+1,3x2+1,3x3+1,…,3xn+1的平均数和方差分别为( )
A.5,2 B.16,2
C.16,18 D.16,9
【解析】 (1)中位数是把频率分布直方图分成面积相等的两部分的平行于纵轴的直线的横坐标。设中位数为a,则x=a将频率分布直方图分成面积相等的两部分,则有0.30+(a-10)×0.1=0.5,所以a=12。故选C。
(2)这组数据的平均数==5.1,则方差
s2==
=0.1。
(3)∵x1,x2,x3,…,xn的平均数为5,
∴=5,
∴+1=3×5+1=16,
∵x1,x2,x3,…,xn的方差为2,
∴3x1+1,3x2+1,3x3+1,…,3xn+1的方差是32×2=18。
故选C。
【答案】 (1)C (2)0.1 (3)C
【母题变式】 本典例(1)中的众数和平均数是多少?
【解析】 众数是=12.5
样本在[5,10)的频率是5×0.06=0.3,
在[10,15)的频率是0.1×5=0.5,
在[15,20]的频率是1-0.3-0.5=0.2。
所以样本的平均数是:7.5×0.3+12.5×0.5+17.5×0.2=12。
【答案】 众数是12.5,平均数是12
角度二:样本数字特征的应用
【典例4】 某汽车制造厂分别从A,B两种轮胎中各随机抽取了8个进行测试,列出了每一个轮胎行驶的最远里程数(单位:1 000 km):
轮胎A 96 112 97 108 100 103 86 98
轮胎B 108 101 94 105 96 93 97 106
(1)分别计算A,B两种轮胎行驶的最远里程的平均数、中位数;
(2)分别计算A,B两种轮胎行驶的最远里程的极差、标准差;
(3)根据以上数据,你认为哪种型号轮胎的性能更加稳定?
【解析】 (1)A轮胎行驶的最远里程的平均数为:
=100,
中位数为:=99;
B轮胎行驶的最远里程的平均数为:
=100,
中位数为:=99。
(2)A轮胎行驶的最远里程的极差为:
112-86=26,
标准差为:
s=
=≈7.43;
B轮胎行驶的最远里程的极差为:108-93=15,
标准差为:
s=
=≈5.43。
(3)虽然A轮胎和B轮胎的最远行驶里程的平均数相同,但B轮胎行驶的最远里程的极差和标准差相对于A轮胎较小,所以B轮胎性能更加稳定。
【答案】 (1)A、B两种轮胎行驶的最远里程的平均数都为100,中位数都为99
(2)A、B两种轮胎行驶的最远里程的极差分别为26,15,标准差分别为7.43,5.43
(3)B轮胎性能更加稳定
反思归纳 众数、中位数、平均数、方差的意义及常用结论
1.平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小。
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a。
(2)数据x1,x2,…,xn的方差为s2。
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2。
【变式训练】 甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):
甲
10
8
9
9
9
乙
10
10
7
9
9
如果甲、乙两人中只有1人入选,则入选的最佳人选应是__________。
【解析】 甲=乙=9环,s=[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=,
s=[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=>s,故甲更稳定。故选甲。
【答案】 甲
微考场 新提升
1.商场在2016年国庆黄金周的促销活动中,对10月2日
9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为( )
A.6万元 B.8万元
C.10万元 D.12万元
解析 设11时至12时的销售额为x万元,由=,得x=10。故选C。
答案 C
2.如图是2016年某大学自主招生面试环节中,七位评委为某考生打出的分数的茎叶图,去掉一个最高分和一个最低分后,所剩数据的平均数和众数依次为( )
A.85,84 B.84,85
C.86,84 D.84,86
解析 由图可知去掉一个最高分和一个最低分后,所剩数据为84,84,86,84,87,则平均数为85,众数为84。故选A。
答案 A
3.(2016·荆州市质检)已知一组数据按从小到大的顺序排列,得到-1,0,4,x,7,14,中位数为5,则这组数据的平均数和方差分别为( )
A.5,24 B.5,24
C.4,25 D.4,25
答案 A
4.已知一组数据4,6,5,8,7,6那么这组数据的平均数为________。
解析 由平均数公式可得这组数据的平均数为=6。
答案 6
5.下面茎叶图是甲、乙两人在5次综合测评中成绩的茎叶图,其中一个数字被污损,则甲的平均成绩超过乙的平均成绩的概率为________。
解析 设被污损的数字为a(0≤a≤9且a∈N),则由甲的平均成绩超过乙的平均成绩得88+89+90+91+92>83+83+87+99+90+a,解得8>a,即得0≤a≤7且a∈N,∴甲的平均成绩超过乙的平均成绩的概率为P==。
答案
微专题 巧突破
有关频率分布直方图易错点梳理
利用频率分布直方图估计总体的基本数字特征,简单地说,就是能“制图”,会“用图”,而我们在应用中产生的错误也主要发生在这两个过程中。
错误一、制图——分组不对,频数统计错误
【典例1】 某校在开学之初,以班级为单位,对学生自行购买保险的情况进行了抽样统计,得到了如下20个班级购买保险人数情况:
12,9,5,11,10,22,28,6,30,14,15,12,16,26,18,27,22,14,12,5
试作出该样本的一个频率分布直方图。
【错解】 这组数据的极差为30-5=25,将组距定为5,组数定为5,则可将20个数据分为[5,10],[10,15],[15,20],[20,25],[25,30]这5组,得到每组的频数分别为5,8,3,2,4。
(剩余解答略)
【正解】 在上述解答中,各小组频数之和为22,大于样本容量,显然是错误的。原因是分组区间全是双闭区间,则数据“10”在第一组和第二组均被计入频数,数据“15”也是如此。
在分组时,应将20个数据分为[5,10),[10,15),[15,20),[20,25),[25,30]这5组,得到每组的频数分别为4,7,3,2,4。(剩余解答略)。
【易错总结】 分组时,每组所在区间一般是选择“左闭右开”,而不是“双闭”或“双开”,防止某些数据漏选或被多次计入不同小组,从而导致频数统计失误。规避这种失误,可以检查各组频数之和是否等于样本容量。
错误二、用图——将频率分布直方图的纵坐标“”误认为是“频率”
【典例2】 对某校七年级100名学生每周的零用钱(单位:元)进行统计,得到频率分布直方图如图所示,其中第3小组的频率为0.34,第1,2,4,5小组的频率形成了公差为0.03的等差数列,求图中a的值。
【错解】 由于各小组的频率之和为1,且第3小组频率为0.34,则第1,2,4,5小组频率之和为0.66。这4个小组的频率形成了公差为0.03的等差数列,设首项为a1,则由等差数列前4项之和为0.66,可得a1=0.12,则第2小组的频率为0.15,故a=0.15。
【正解】 第2小组频率的计算过程完全正确,第2小组的频率等于0.15,但并不意味着a=0.15。因为第2小组的矩形的面积才是第2小组的频率,故矩形的高为=0.03,即a=0.03。
【易错总结】 频率分布直方图中,关键要理解图中数据的意义,特别是图中每个小矩形的面积才是这一组距内个体的频率。最高矩形的中点是众数,将直方图的面积一分为二的垂直横轴的直线所对应的数值是中位数。
总之,我们要明确对频率分布直方图的绘制及结构认识。事实上频率分布直方图中的每个小矩形的面积表示该组的频率,纵轴表示“”。