2017届高考文科数学(全国通用)二轮文档讲义:第2编专题2-7-2统计与统计案例
第二讲 统计与统计案例
[必记公式]
数据x1,x2,x3,…,xn的数字特征
(1)众数:在样本数据中,出现次数最多的那个数据.
中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数;
(2)样本平均数=(x1+x2+…+xn)=xi;
(3)样本方差s2=[(x1-)2+(x2-)2+…+(xn-)2]= (xi-)2;
(4)样本标准差
s=
=.
[重要结论]
1.直方图的三个有用结论
(1)小长方形的面积=组距×=频率;
(2)各小长方形的面积之和等于1;
(3)小长方形的高=,所有小长方形高的和为.
2.回归直线方程
一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn).其回归方程=x+,其过样本点中心(,).
3.独立性检验
K2=(其中n=a+b+c+d为样本容量).
[失分警示]
1.混淆简单随机抽样、系统抽样、分层抽样,不能正确地选择抽样方法.
2.不能正确地从频率分布直方图中提取相关的信息,忽略了频数与频率的差异.
3.混淆条形图与直方图,条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续随机变量在某一点上是没有频率的.
4.回归分析是对具有相关关系的两个变量进行统计分析的方法.只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.
考点 抽样方法
典例示法
典例1 (1)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( )
A.简单随机抽样 B.按性别分层抽样
C.按学段分层抽样 D.系统抽样
[解析] 因为男女生视力情况差异不大,而学段的视力情况有较大差异,所以应按学段分层抽样.
[答案] C
(2)[2014·广东高考]已知某地区中小学生人数和近视情况分别如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.200,20 B.100,20
C.200,10 D.100,10
[解析] 由题图可知,样本容量等于(3500+4500+2000)×2%=200;抽取的高中生近视人数为2000×2%×50%=20,故选A.
[答案] A
系统抽样与分层抽样的求解方法
(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m为首项,组距d为公差的等差数列{an},第k组抽取样本的号码ak=m+(k-1)d.
(2)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比——样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积.在每层抽样时,应采用简单随机抽样或系统抽样进行.
针对训练
1.[2016·浙江杭州模拟]某校150名教职工中,有老年人20名,中年人50名,青年人80名,从中抽取30名作为样本.
①采用随机抽样法:抽签取出30个样本;
②采用系统抽样法:将教职工编号为00,01,…,149,然后平均分组抽取30个样本;
③采用分层抽样法:从老年人、中年人、青年人中抽取30个样本.
下列说法中正确的是 ( )
A.无论采用哪种方法,这150名教职工中每个人被抽到的概率都相等
B.①②两种抽样方法,这150名教职工中每个人被抽到的概率都相等;③并非如此
C.①③两种抽样方法,这150名教职工中每个人被抽到的概率都相等;②并非如此
D.采用不同的抽样方法,这150名教职工中每个人被抽到的概率是各不相同的
答案 A
解析 三种抽样方法中,每个人被抽到的概率都等于=,故选A.
2.[2016·江西南昌一模]一所中学共有4000名学生,为了引导学生树立正确的消费观,需抽样调查学生每天使用零花钱的数量(取整数元)情况,分层抽取容量为300的样本,作出频率分布直方图如图所示,请估计在全校所有学生中,一天使用零花钱在6元~14元的学生大约有________人.
答案 2720
解析 根据频率分布直方图得:
一天使用零花钱在6元~14元的学生频率是
1-(0.02+0.03+0.03)×4=1-0.32=0.68,
∴对应的频数是4000×0.68=2720,
∴估计全校学生中,一天使用零花钱在6元~14元的大约有2720人.
考点 用样本估计总体
典例示法
题型1 用样本数字特征估计总体
典例2 [2014·湖南高考]某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:
(a,b),(a,),(a,b),(,b),(,),(a,b),(a,b),(a,),(,b),(a,),(,),(a,b),(a,),(,b),(a,b),
其中a,分别表示甲组研发成功和失败;b,分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.
[解] (1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,
其平均数为甲==;
方差为s==.
乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为乙==;
方差为s==.
因为甲>乙,s
0.5,所以中位数在区间[220,240)内,设中位数为m,则20×(0.002+0.0095+0.011)+0.0125×(m-220)=0.5,解得m=224.
所以月平均用电量的中位数为224.
(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.0125×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.
故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×=5(户).
1.用样本估计总体的两种方法
(1)用样本的频率分布(频率分布表、频率分布直方图、茎叶图等)估计总体的频率分布.
(2)用样本的数字特征(众数、中位数、平均数、方差、标准差)估计总体的数字特征.
2.方差的计算与含义
计算方差首先要计算平均数,然后再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差大说明波动大.
3.众数、中位数、平均数与频率分布直方图的关系
(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.
(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
考点 线性回归分析与独立性检验
典例示法
题型1 线性回归分析
典例4 [2016·全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
=,=- .
[解] (1)由折线图中数据和附注中参考数据得
=4, (ti-)2=28, =0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
题型2 独立性检验
典例5 [2016·长春质检]近年来我国电子商务行业迎来蓬勃发展的新机遇,2015年双11期间,某平台的销售业绩高达918亿人民币.与此同时,相关管理部门也推出了针对电商的商品和服务评价体系.现从评价系统中随机选出200次成功的交易,并对其评价结果进行统计,对商品的好评率为,对服务的好评率为,其中对商品和服务都做出好评的交易为80次.
(1)是否可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关?
(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,并从中选择2次交易进行客户回访,求只有一次好评的概率.
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
[解] (1)由题意可得关于商品和服务评价的2×2列联表:
对服务好评
对服务不满意
合计
对商品好评
80
40
120
对商品不满意
70
10
80
合计
150
50
200
K2=≈11.111>10.828,
可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关.
(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,则好评的交易次数为3,不满意的次数为2,令好评的交易为A,B,C,不满意的交易为a,b,从5次交易中,取出2次的所有取法为(A,B)、(A,C)、(A,a)、(A、b)、(B,C)、(B,a)、(B,b)、(C,a)、(C,b)、(a,b),共计10种情况,其中只有一次好评的情况是(A,a)、(A,b)、(B,a)、(B,b)、(C,a)、(C,b),共计6种,因此,只有一次好评的概率为=.
1.进行线性回归分析时应注意的问题
(1)正确理解计算、的公式和准确的计算,是求线性回归方程的关键.
(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.进行独立性检验的步骤
(1)假设两个分类变量X与Y无关;
(2)找相关数据,列出2×2列联表;
(3)由公式K2=(其中n=a+b+c+d)计算出K2的值;
(4)将K2的值与临界值进行对比,进而做出统计推断.
提醒:K2的观测值越大,对应假设事件成立的概率越小,假设事件不成立的概率越大.
[全国卷高考真题调研]
1.[2015·全国卷Ⅱ]根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D
解析 根据柱形图可观察两个变量的相关性,易知A、B、C正确,2006年以来我国二氧化硫年排放量与年份负相关,选项D错误.故选D.
2.[2015·全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu
的斜率和截距的最小二乘估计分别为
=,=-
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
[其它省市高考题借鉴]
3.[2016·山东高考]某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )
A.56 B.60
C.120 D.140
答案 D
解析 由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,故这200名学生中每周的自习时间不少于22.5小时的人数为200×0.7=140.故选D.
4.[2015·湖南高考]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.
答案 4
解析 35人抽取7人,则n==5,而在[139,151]上共有20人,应抽取4人.
5.[2014·安徽高考]某高校共有学生15000人,其中男生10500人,女生4500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:K2=
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
解 (1)300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
每周平均体育运动时间与性别列联表
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
结合列联表可算得K2==≈4.762>3.841.
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
一、选择题
1.[2016·兰州双基测试]某乡政府调查A、B、C、D四个村的村民外出打工的情况,拟采用分层抽样的方法从四个村中抽取一个容量为500的样本进行调查.已知A、B、C、D四个村的人数之比为4∶5∶5∶6,则应从C村中抽取的村民人数为( )
A.100 B.125
C.150 D.175
答案 B
解析 由题意可知,应从C村中抽取500×=125名村民.
2.[2016·湖北武汉第二次调研]如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为( )
A.0.04 B.0.06
C.0.2 D.0.3
答案 C
解析 由频率分布直方图的知识得,年龄在[20,25)的频率为0.01×5=0.05,[25,30)的频率为0.07×5=0.35,设年龄在[30,35),[35,40),[40,45]的频率为x,y,z,又x,y,z成等差数列,所以可得
解得y=0.2,
所以年龄在[35,40)的网民出现的频率为0.2.故选C.
3.[2016·开封一模]下列说法错误的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
答案 B
解析 根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相关性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C,D正确,故选B.
4.[2016·河南郑州二模]某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价(元)
4
5
6
7
8
9
销量(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程=-4x+a,若在这些样本点中任取一点,则它在回归直线左下方的概率为( )
A. B.
C. D.
答案 B
解析 由表中数据得=6.5,=80.
由(,)在直线=-4x+a上,得a=106.
即线性回归方程为=-4x+106.经过计算只有(5,84)和(9,68)在直线的下方,故所求概率为=,选B.
5.[2016·湖南永州一模]为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
附:
P(K2≥k)
0.10
0.05
0.025
k
2.706
3.841
5.024
K2=.
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
答案 C
解析 由题设知,a=45,b=10,c=30,d=15,
所以K2=≈3.0303.
2.706<3.0303<3.841.
由附表可知,有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选C.
二、填空题
6.[2016·石家庄质检二]将高三(1)班参加体检的36名学生,编号为:1,2,3,…,36,若采用系统抽样的方法抽取一个容量为4的样本,已知样本中含有编号为6、24、33的学生,则样本中剩余一名学生的编号是________.
答案 15
解析 根据系统抽样的特点可知抽取的4名学生的编号依次成等差数列,故剩余一名学生的编号是15.
7.[2015·豫北十校联考]2015年的NBA全明星赛于北京时间2015年2月14日举行.如图是参加此次比赛的甲、乙两名篮球运动员以往几场比赛得分的茎叶图,则甲、乙两人这几场比赛得分的中位数之和是________.
答案 64
解析 应用茎叶图的知识得,甲、乙两人这几场比赛得分的中位数分别为28,36,因此甲、乙两人这几场比赛得分的中位数之和是64.
8.[2016·吉林通化月考]某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:
广告费用x(万元)
3
4
5
6
销售额y(万元)
25
30
40
45
根据上表可得回归方程=x+中的为7.据此模型预测广告费用为10万元时销售额为________万元.
答案 73.5
解析 由题表可知,=4.5,=35,代入回归方程=7x+,得=3.5,所以回归方程为=7x+3.5.所以当x=10时,=7×10+3.5=73.5.
三、解答题
9.[2016·河北三市二联]下表是高三某位文科生连续5次月考的历史、政治的成绩,结果统计如下:
月份
9
10
11
12
1
历史(x分)
79
81
83
85
87
政治(y分)
77
79
79
82
83
(1)求该生5次月考历史成绩的平均分和政治成绩的方差;
(2)一般来说,学生的历史成绩与政治成绩有较强的线性相关关系,根据上表提供的数据,求两个变量x、y的线性回归方程=x+.
附:==,=-
解 (1)=×(79+81+83+85+87)=83,
∵=×(77+79+79+82+83)=80,
∴s=×[(77-80)2+(79-80)2+(79-80)2+(82-80)2+(83-80)2]=4.8.
(2)∵(xi-)(yi-)=30,(xi-)2=40,
∴=0.75,=- =17.75.
则所求的线性回归方程为=0.75x+17.75.
10.[2016·江淮十校一联]某学校在高一、高二两个年级学生中各抽取100人的样本,进行普法知识调查,其结果如下表:
高一
高二
总数
合格人数
70
x
150
不合格人数
y
20
50
总数
100
100
200
(1)求x,y的值;
(2)有没有99%的把握认为“高一、高二两个年级这次普法知识调查结果有差异”;
(3)用分层抽样的方法从样本的不合格同学中抽取5人的辅导小组,在5人中随机选2人,这2人中,正好高一、高二各1人的概率为多少?
参考公式:χ2=
χ2≥
5.024
6.635
7.879
10.828
97.5%
99%
99.5%
99.9%
解 (1)x=80,y=30.
(2)由(1)得χ2=≈2.67<6.635,
所以没有99%的把握认为“高一、高二两个年级这次普法知识调查结果有差异”.
(3)由分层抽样得从高一抽取3人,设为A,B,C,从高二抽取2人,设为1,2.
从5人中选2人,有(AB),(AC),(A1),(A2),(BC),(B1),(B2),(C1),(C2),(12),共10种选法.
其中正好高一、高二各1人,有(A1),(A2),(B1),(B2),(C1),(C2),共6种选法.
所以所求概率为P=.
11.[2016·重庆测试]
从甲、乙两部门中各任选10名员工进行职业技能测试,测试成绩(单位:分)数据的茎叶图如图1所示:
(1)分别求出甲、乙两组数据的中位数,并比较两组数据的分散程度(只需给出结论);
(2)甲组数据频率分布直方图如图2所示,求a、b、c的值;
(3)从甲、乙两组数据中各任取一个,求所取两数之差的绝对值大于20的概率.
解 (1)甲组数据的中位数为=78.5,乙组数据的中位数为=78.5.
从茎叶图可以看出,甲组数据比较集中,乙组数据比较分散.
(2)由图易知a=0.05,b=0.02,c=0.01.
(3)从甲、乙两组数据中各任取一个,得到的所有基本事件共有100个,其中满足“两数之差的绝对值大于20”的基本事件有16个,故所求概率P==.
12.为了调查学生星期天晚上学习时间的利用问题,某校从高二年级1000名学生(其中走读生450名,住宿生550名)中,采用分层抽样的方法抽取n名学生进行问卷调查.根据问卷取得了这n名同学星期天晚上学习时间(单位:分钟)的数据,按照以下区间分为八组:①[0,30),②[30,60),③[60,90),④[90,120),⑤[120,150),⑥[150, 180),⑦[180,210),⑧[210, 240),得到频率分布直方图如图,已知抽取的学生中星期天晚上学习时间少于60分钟的人数为5人.
(1)求n的值并补全频率分布直方图;
(2)如果把“学生晚上学习时间达到两小时”作为是否充分利用时间的标准,对抽取的n名学生,完成下列2×2列联表:
利用时间充分
利用时间不充分
总计
走读生
住宿生
10
总计
据此资料,是否有95%的把握认为学生“利用时间是否充分”与走读、住宿有关?
(3)若在第①组、第②组共抽出2人调查影响有效利用时间的原因,求抽出的2人中第①组、第②组各有1人的概率.
参考数据:
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解 (1)设第i组的频率为Pi(i=1,2,…,8),
由图可知P1=×30=,P2=×30=,
∴学习时间少于60分钟的频率为P1+P2=,
由题意得n×=5,∴n=100.
又P3=×30=,P5=×30=,
P6=×30=,P7=×30=,
P8=×30=,
∴P4=1-(P1+P2+P3+P5+P6+P7+P8)=,
∴第④组的高度为h=×==,
频率分布直方图如图.
(2)由频率分布直方图可知,在抽取的100人中,“住宿生”有55人,“走读生”有45人,利用时间不充分的有100×(P1+P2+P3+P4)=25人,从而2×2列联表如下:
利用时间充分
利用时间不充分
总计
走读生
30
15
45
住宿生
45
10
55
总计
75
25
100
将2×2列联表中的数据代入公式计算,
得K2===
≈3.030.∵3.030<3.841,
∴没有理由认为学生“利用时间是否充分”与走读、住宿有关.
(3)由题可知第①组人数为100×P1=2(人),第②组人数为100×P2=3(人),
记第①组的2人为A1,A2,第②组的3人为B1,B2,B3,
则“从5人中抽取2人”所构成的基本事件有A1A2,A1B1,A1B2,A1B3,A2B1,A2B2,A2B3,B1B2,B1B3,B2B3”,共10个基本事件;
记“抽取2人中第①组、第②组各有1人”记作事件A,则事件A所包含的基本事件有A1B1,A1B2,A1B3,A2B1,A2B2,A2B3,共6个基本事件,
∴P(A)==,
即抽出的2人中第①组、第②组各有1人的概率为.
典题例证
[2016·全国卷Ⅰ]某公司计划购买1台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
记x表示1台机器在三年使用期内需更换的易损零件数,y表示1台机器在购买易损零件上所需的费用(单位:元),n表示购机的同时购买的易损零件数.
(1)若n=19,求y与x的函数解析式;
(2)若要求“需更换的易损零件数不大于n”的频率不小于0.5,求n的最小值;
(3)假设这100台机器在购机的同时每台都购买19个易损零件,或每台都购买20个易损零件,分别计算这100台机器在购买易损零件上所需费用的平均数,以此作为决策依据,购买1台机器的同时应购买19个还是20个易损零件?
审题过程
读懂题意与柱状图,用分段函数表示y与x的函数关系.
把频率问题转化为频数问题,即可求出n的最小值,分别求出n=19,n=20时的平均数,比较大小即可得出结论.
(1)当x≤19时,y=3800;
当x>19时,y=3800+500(x-19)=500x-5700.
所以y与x的函数解析式为y=(x∈N).
(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.
(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3800,20台的费用为4300,10台的费用为4800,因此这100台机器在购买易损零件上所需费用的平均数为(3800×70+4300×20+4800×10)=4000.
若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4000,10台的费用为4500,因此这100台机器在购买易损零件上所需费用的平均数为(4000×90+4500×10)=4050.
比较两个平均数可知,购买1台机器的同时应购买19个易损零件.
模型归纳
求解统计与概率综合问题的模型示意图如下: