- 2021-04-27 发布 |
- 37.5 KB |
- 13页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2014高考金钥匙数学解题技巧大揭秘专题二十 统计及其与概率的交汇问题
专题二十 统计及其与概率的交汇问题 1.某班 50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是: [40,50),[50,60),[60,70),[70,80),[80,90),[90,100]. (1)求图中x的值; (2)从成绩不低于80分的学生中随机选取2人,该2人中成绩在90分以上(含90分)的人数记为ξ,求ξ的数学期望. 解 (1)由题意得:10x=1-(0.006×3+0.01+0.054)×10=0.18, ∴x=0.018. (2)成绩不低于80分的学生共有(0.018+0.006)×10×50=12人,其中90分以上(含90分)的共有0.006×10×50=3人,ξ的可能值为0,1,2, P(ξ=0)==,P(ξ=1)==,P(ξ=2)==, ∴ξ的分布列为 ξ 0 1 2 P ∴E(ξ)=0×+1×+2×=. 本部分主要考查随机抽样、样本估计总体、线性回归分析,独立性检验的简单应用,一般是选择题、填空题,试题难度中等或稍易.若以解答题出现,往往与概率、离散型随机变量的分布列交汇考查. 在复习统计问题时,要紧紧抓住这些图表和方法,把图表的含义弄清楚,这样剩下的问题就是有关的计算和对统计思想的理解,在弄清楚统计问题的基础上,要与概率、离散型随机变量的分布列、期望、方差密切结合掌握. 必备知识 抽样方法 抽样方法包含简单随机抽样、系统抽样、分层抽样三种方法,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.[来源:学科网ZXXK] 用样本估计总体 (1)利用样本频率分布估计总体分布: ①频率分布表和频率分布直方图; ②总体密度曲线; ③茎叶图. (2)用样本的数字特征估计总体的数字特征: ①众数、中位数; ②样本平均数=(x1+x2+…+xn)=i; ③样本方差s2=[(x1-)2+(x2-)2+…+(xn-)2]=(xi-)2; ④样本标准差 s= = . 线性回归方程 方程=bx+a称为线性回归方程,其中b= a=-b;(,)称为样本中心点. 独立性检验 假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为: 2×2列联表 y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量K2=, P(K2≥k) 0.100 0.050 0.025 0.010 0.001 k 2.706 3.841 5.024 6.635 10.828 必备方法 用样本估计总体 (1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1.解决与频率分布直方图有关的问题时,应正确理解已知数据的含义,掌握图表中各个量的意义. (2)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布. ①总体期望的估计,计算样本平均值=i; ②总体方差(标准差)的估计:方差=(xi-)2,标准差=,方差(标准差)较小者较稳定. 此类试题主要考查分层抽样、频率分布直方图、茎叶图、线性回归方程、平均数和方差的计算、以及识图能力、借助概率统计知识分析、解决问题的能力,均可单独命制一道小题. 【例1】► 某校举行了由全部学生参加的校园安全知识考试,从中抽出60名学生,将其成绩分成六段[40,50),[50,60),…,[90,100)后,画出如图所示的频率分布直方图.观察图形的信息,回答下列问题:估计这次考试的及格率(60分及以上为及格)为__________;平均分为__________. [审题视点] [听课记录] [审题视点] (1)由图可知甲、乙的成绩,再利用公式计算. 用样本中及格的频率估计总体的及格率,以样本的平均数估计总体的平均数,即以各组的中点值乘以各组的频率之和估计总体的平均数. (1)C [由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A错;甲、乙的成绩的中位数分别为6,5,B错;甲、乙的成绩的方差分别为×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=,C对;甲、乙的成绩的极差均为4,D错.] (2)解析 及格的各组的频率是(0.015+0.03+0.025+0.005)×10=0.75,即及格率约为75%;样本的均值为45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71,以这个分数估计总体的分数即得总体的平均分数约为71. 答案 75% 71 (1)如果已知频率分布直方图,那么就用样本在各个小组的频率估计总体在相应区间内的频率,用样本的均值估计总体的均值,根据频率分布图估计样本均值的方法是取各个小组的中点值乘以各个小组的频率之和进行的. (2)根据茎叶图,我们可方便地求出数据的众数与中位数,大体上估计出两组数据的平均数大小与稳定性. 【突破训练1】从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲乙两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则( ). A.甲<乙,m甲>m乙 B.甲<乙,m甲<m乙 C.甲>乙,m甲>m乙 D.甲>乙,m甲<m乙 答案: (1)C [从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n组抽到的号码为an=9+30(n-1)=30n-21,由451≤30n-21≤750,得≤n≤,所以n=16,17,…,25,共有25-16+1=10人,选C.] (2)B [由茎叶图可知甲数据集中在10至20之间,乙数据集中在20至40之间,明显甲<乙,甲的中位数为20,乙的中位数为29,即m甲<m乙,所以选B.] 的交汇问题 准确提取直方图、茎叶图中的信息是解此类题的关键,借助这些数据结合独立事件、互斥事件可设计概率、分布列问题,高考在此结合点处命题有加强的趋势. 【例2】某班同学进行社会实践,对[25,55]岁的人群随机抽取n人进行了一次生活习惯是否符合低碳观念的调查,若生活习惯符合低碳观念的称为“低碳族”,否则称为“非低碳族”,得到如下统计表和各年龄段人数频率分布直方图: 组数 分组 低碳族 的人数 占本组 的频率 第一组 [25,30) 120 0.6 第二组 [30,35) 195 p 第三组 [35,40) 100 0.5 第四组 [40,45) a 0.4 第五组 [45,50) 30 0.3 第六组 [50,55) 15 0.3 (1)补全频率分布直方图,并求n、a、p的值; (2)从[40,50)岁年龄段的“低碳族”中采用分层抽样法抽取18人参加户外低碳体验活动,其中选取3人作为领队,记选取的3名领队中年龄在[40,45)岁的人数为X,求X的分布列和期望E(X). [审题视点] [听课记录] [审题视点] (1)频率=小长方形的面积; (2)用超几何分布解决. 解 (1)第二组的频率为1-(0.04+0.04+0.03+0.02+0.01)×5=0.3,所以高为=0.06.频率直方图如下: 第一组的人数为=200,频率为0.04×5=0.2, 所以n==1 000. 由题可知,第二组的频率为0.3,所以第二组的人数为1 000×0.3=300,所以p==0.65. 第四组的频率为0.03×5=0.15,所以第四组的人数为1 000×0.15=150,所以a=150×0.4=60. (2)因为[40,45)岁年龄段的“低碳族”与[45,50)岁年龄段的“低碳族”的比值为60∶30=2∶1,所以采用分层抽样法抽取18人,[40,45)岁中有12人,[45,50)岁中有6人.随机变量X服从超几何分布. P(X=0)==, P(X=1)==, P(X=2)==,P(X=3)==. X 0 1 2 3 P 所以随机变量X的分布列为 所以数学期望E(X)=0×+1×+2×+3×=2. 解决该类问题的基础是频数分布表、茎叶图等知识,在解题时,一定要仔细认真,防止在这个数据表中出现错误,导致后续各问解答也随之出现错误. 【突破训练2】以下茎叶图记录了甲、乙两组各四名同学的植树棵数.乙组记录中有一个数据模糊,无法确认,在图中以X表示. 甲组 乙组 9 9 0 X 8 9 1 1 1 0 (1)如果X=8,求乙组同学植树棵数的平均数和方差; (2)如果X=9,分别从甲、乙两组中随机选取一名同学,求这两名同学的植树总棵数Y 的分布列和数学期望. (注:方差s2=[(x1-)2+(x2-)2+…+(xn-)2],其中为x1,x2,…,xn的平均数) 解 (1)当X=8时,由茎叶图可知,乙组同学的植树棵数是:8,8,9,10, 所以平均数为:==; 方差为: s2=× =. (2)当X=9时,由茎叶图可知,甲组同学的植树棵数是:9,9,11,11;乙组同学的植树棵数是:9,8,9,10.分别从甲、乙两组中随机选取一名同学,共有4×4=16种可能的结果,这两名同学植树总棵数Y的可能取值为17,18,19,20,21.事件“Y=17”等价于“甲组选出的同学植树9棵,乙组选出的同学植树8棵”,所以该事件有2种可能的结果,因此P(Y=17)==.同理可得P(Y=18)=;P(Y=19)=;P(Y=20)=;P(Y=21)=.所以随机变量Y的分布列为: Y 17 18 19 20 21 P E(Y)=17×P(Y=17)+18×P(Y=18)+19×P(Y=19)+20×P(Y=20)+21×P(Y=21)=17×+18×+19×+20×+21×=19. 以实际问题为背景,给定数据表,借助这些数据结合独立事件或对立事件设计概率及分布列问题. 【例3】电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图: 将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关? 非体育迷 体育迷 合计 男 女 10 55 合计[来源:学科网ZXXK] (2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X). 附:K2=, P(K2≥k) 0.05 0.01 k 3.841 6.635 [审题视点] [听课记录] [审题视点] (1)按照独立性检验的步骤进行;(2)建立概率分布表,利用期望的定义式求解数学期望. 解 (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下: 非体育迷 体育迷 合计 男 30 15 45 女 45 10 55 合计 75 25 100 将2×2列联表中的数据代入公式计算,得 K2===≈3.030. 因为3.030<3.841,所以没有理由认为“体育迷”与性别有关. (2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为. 由题意X~B,从而X的分布列为 X 0 1 2[来源:Z.xx.k.Com][来源:学_科_网] 3 P E(X)=np=3×=, D(X)=np(1-p)=3××=. 根据图表给出的信息解决相关问题时,一定要仔细阅读表中信息,千万别“看花了眼”,同时,要正确理解相关概念和计算准确. 【突破训练3】甲乙两个学校高三年级分别有1 100人和1 000人,为了了解这两个学校全体高三年级学生在该地区二模考试中的数学成绩情况,采用分层抽样方法从两个学校一共抽取了105名学生的数学成绩,并作出了如下的频数分布统计表,规定考试成绩在[120,150]内为优秀. 甲校: 分组 [70,80) [80,90) [90,100) [100,110) 频数 2 3 10 15 分组 [110,120) [120,130) [130,140) [140,150) 频数 15 x 3 1 乙校: 分组 [70,80) [80,90) [90,100) [100,110) 频数 1 2 9 8 分组 [110,120) [120,130) [130,140) [140,150) 频数 10 10 y 3 (1)试求x,y的值; (2)由以上统计数据填写下面2×2列联表,若按是否优秀来判断,是否有97.5%的把握认为两个学校的数学成绩有差异. 甲校 乙校 总计 优秀 非优秀 总计 (3)根据抽样结果分别估计甲校和乙校的优秀率,若把频率视为概率,现从乙校学生中任取3人,求优秀学生人数ξ的分布列和数学期望. 附:K2=; P(K2≥k) 0.100 0.050 0.025 0.010 0.001 k 2.706 3.841 5.024 6.635 10.828 解 (1)由分层抽样知,甲校抽取了55人成绩,乙校抽取了50人的成绩.所以,x=6,y=7. (2)由以上统计数据填写右面2×2列联表如下: 甲校 乙校 总计 优秀 10 20 30 非优秀 45 30 75 总计 55 50 105 因为K2=≈6.109>5.024. 故有97.5%的把握认为这两个学校的数学成绩有差异. (3)由题意,可知:甲校的优秀率为,乙校的优秀率为,由题意可知, 随机变量ξ=0,1,2,3,且 P(ξ=0)=C03=, P(ξ=1)=C12=, P(ξ=2)=C21=, P(ξ=3)=C30=, 从而求得ξ的分布列为: ξ 0 1 2 3 P 故ξ的数学期望E(ξ)=3×=. 关注高考概率与统计新视角 视角一 关注“实质性”知识 【示例1】某产品按行业生产标准分成8个等级,等级系数X依次为1,2,…,8,其中X≥5为标准A,X≥3为标准B.已知甲厂执行标准A生产该产品,产品的零售价为6元/件;乙厂执行标准B生产该产品,产品的零售价为4元/件,假定甲、乙两厂的产品都符合相应的执行标准. (1)已知甲厂产品的等级系数X1的概率分布列如表所示: X1 5 6 7 8 P 0.4 a b 0.1 且X1的数学期望E(X1)=6,求a,b的值; (2)为分析乙厂产品的等级系数X2,从该厂生产的产品中随机抽取30件,相应的等级系数组成一个样本,数据如下: 3 5 3 3 8 5 5 6 3 4 6 3 4 7 5 3 4 8 5 3 8 3 4 3 4 4 7 5 6 7 用这个样本的频率分布估计总体分布,将频率视为概率,求等级系数X2的数学期望; (3)在(1)、(2)的条件下,若以“性价比”为判断标准,则哪个工厂的产品更具可购买性?说明理由. 注:①产品的“性价比”=; ②“性价比”大的产品更具可购买性. [满分解答] (1)因为E(X1)=6, 所以5×0.4+6a+7b+8×0.1=6, 即6a+7b=3.2. 又由X1的概率分布列,得0.4+a+b+0.1=1, 即a+b=0.5. 由解得(4分) (2)由已知得样本的频率分布表如表: X2 3 4 5 6 7 8 f 0.3 0.2 0.2 0.1 0.1 0.1 用这个样本的频率分布估计总体分布,将频率视为概率,可得等级系数X2的概率分布列如表: X2 3 4 5 6 7 8 f 0.3 0.2 0.2 0.1 0.1 0.1 所以E(X2)=3·P(X2=3)+4·P(X2=4)+5·P(X2=5)+6·P(X2=6)+7·P(X2=7)+8·P(X2=8)=3×0.3+4×0.2+5×0.2+6×0.1+7×0.1+8×0.1=4.8. 即乙厂产品的等级系数的数学期望等于4.8.(8分) (3)乙厂的产品更具可购买性.理由如下: 因为甲厂产品的等级系数的数学期望等于6,价格为6元/件,所以其性价比为=1. 因为乙厂产品的等级系数的数学期望等于4.8,价格为4元/件,所以其性价比为=1.2. 据此,可知乙厂的产品更具可购买性.(12分) 老师叮咛:本题是一道概率与统计的综合性问题,考查数据的处理能力、函数与方程思想、必然与或然思想等.本题对高考数学的复习有很好的导向作用,命题设计的特色是注重考查考生对概率与统计知识的形成过程的理解和应用.其中,在求每一个随机变量的概率时,要确切地解释每一个随机变量的含义,也就是要弄清楚每一个随机变量指的是什么.对于判断“哪个工厂的产品更具可购买性”,不仅需要考生理解产品“性价比”的数学意义,还要理解“性价比”的大小决定产品的购买价值.这样的考题,更能体现数学的现实性和应用性. 视角二 关注“开放性”知识 【示例2】如图所示,A地到火车站共有两条路径L1和L2,据统计,通过两条路径所用的时间互不影响,所用时间落在各时间段内的频率如下表: 时间(分钟) 10~20 20~30 30~40 40~50 50~60 L1的频率 0.1 0.2 0.3 0.2 0.2 L2的频率 0 0.1 0.4 0.4 0.1 现甲、乙两人分别有40分钟和50分钟时间用于赶往火车站. (1)为了尽最大可能在各自允许的时间内赶到火车站,甲和乙应如何选择各自的路径? (2)用X表示甲、乙两人中在允许的时间内能赶到火车站的人数,针对(1)的选择方案,求X的分布列和数学期望. [满分解答] (1)Ai表示事件“甲选择路径Li时,40分钟内赶到火车站”,Bi表示事件“乙选择路径Li时,50分钟内赶到火车站”,i=1,2. 用频率估计相应的概率可得 P(A1)=0.1+0.2+0.3=0.6,P(A2)=0.1+0.4=0.5, 因为P(A1)>P(A2),所以甲应选择L1. P(B1)=0.1+0.2+0.3+0.2=0.8, P(B2)=0.1+0.4+0.4=0.9, 因为P(B2)>P(B1),所以乙应选择L2.(6分) (2)A,B分别表示针对(1)的选择方案,甲、乙在各自允许的时间内赶到火车站,由(1),知P(A)=0.6,P(B)=0.9,又由题意知,A,B独立, 所以P(X=0)=P( )=P()P()=0.4×0.1=0.04, P(X=1)=P(B+A)=P()P(B)+P(A)P()=0.4×0.9+0.6×0.1=0.42, P(X=2)=P(AB)=P(A)P(B)=0.6×0.9=0.54. 所以X的分布列如下表: X 0 1 2 P 0.04 0.42 0.54 所以E(X)=0×0.04+1×0.42+2×0.54=1.5.(12分) 老师叮咛:本题考查概率与统计知识的综合应用,在求解离散型随机变量分布列和计算离散型随机变量的期望值的问题中,考查考生分析问题、处理数据、解答问题的数学应用能力.设问的开放性、答题的多样性以及根据统计数据提供的频率估计相应的概率,作出科学决策等是本题的亮点,较好地体现了新课标理念.查看更多