- 2021-04-14 发布 |
- 37.5 KB |
- 24页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2017年高考数学(理,山东)二轮专题复习(教师用书):第1部分 专题3 突破点8 回归分析、独立性检验
突破点8 回归分析、独立性检验 (对应学生用书第167页) 提炼1 变量的相关性 (1)正相关:在散点图中,点散布在从左下角到右上角的区域. (2)负相关:在散点图中,点散布在从左上角到右下角的区域. (3)相关系数r:当r>0时,两变量正相关;当r<0时,两变量负相关;当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低. 提炼2 线性回归方程 方程=x+称为线性回归方程,其中=,=-.(,)称为样本中心点. 提炼3 独立性检验 (1)确定分类变量,获取样本频数,得到列联表. (2)求观测值:k=. (3)根据临界值表,作出正确判断.如果k≥kα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”. 回访1 变量的相关性 1.(2015·全国卷Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( ) 图81 A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 D [对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,故选D.] 2.(2016·全国丙卷)如图82是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. 注:年份代码1~7分别对应年份2008~2014. 图82 (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注: 参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646. 参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-. [解] (1)由折线图中的数据和附注中的参考数据得 =4, (ti-)2=28,=0.55, (ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,2分 ∴r≈≈0.99. 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.5分 (2)由=≈1.331及(1)得 ==≈0.103. =-≈1.331-0.103×4≈0.92. 所以,y关于t的回归方程为=0.92+0.10t.10分 将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.12分 回访2 独立性检验 3.(2014·江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ) 表1 成绩 性别 不及格 及格 总计 男 6 14 20 女 10 22 32 总计 16 36 52 表2 视力 性别 好 差 总计 男 4 16 20 女 12 20 32 总计 16 36 52 表3 智商 性别 偏高 正常 总计 男 8 12 20 女 8 24 32 总计 16 36 52 表4 阅读量 性别 丰富 不丰富 总计 男 14 6 20 女 2 30 32 总计 16 36 52 A.成绩 B.视力 C.智商 D.阅读量 D [A中,a=6,b=14,c=10,d=22,a+b=20,c+d=32,a+c=16,b+d=36,n=52, K2==. B中,a=4,b=16,c=12,d=20,a+b=20,c+d=32,a+c=16,b+ d=36,n=52, K2==. C中,a=8,b=12,c=8,d=24,a+b=20,c+d=32,a+c=16,b+d=36,n=52, K2==. D中,a=14,b=6,c=2,d=30,a+b=20,c+d=32,a+c=16,b+d=36,n=52, K2==. ∵<<<, ∴与性别有关联的可能性最大的变量是阅读量.] 4.(2014·安徽高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时). 图83 (1)应收集多少位女生的样本数据? (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图83所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],估计该校学生每周平均体育运动时间超过4小时的概率. (3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”. P(K2≥k0) 0.10 0.05 0.010 0.005 k0 2.706 3.841 6.635 7.879 附:K2=. [解] (1)300×=90,所以应收集90位女生的样本数据.3分 (2)由频率分布直方图得1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.5分 (3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.8分 又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表 男生 女生 总计 每周平均体育运动时间不超过4小时 45 30 75 每周平均体育运动时间超过4小时 165 60 225 总计 210 90 300 结合列联表可算得K2==≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.10分 5.(2012·辽宁高考)电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图: 图84 将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”. (1)根据已知条件完成下面的2×2列联表,并据此资料你是否认为“体育迷”与性别有关? 非体育迷 体育迷 合计 男 女 10 55 合计 (2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,期望E(X)和方差D(X). 附:K2=, P(K2≥k) 0.05 0.01 k 3.841 6.635 [解] (1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而2×2列联表如下: 非体育迷 体育迷 合计 男 30 15 45 女 45 10 55 合计 75 25 100 2分 将2×2列联表中的数据代入公式计算,得 k===≈3.030.因为3.030<3.841,所以没有理由认为“体育迷”与性别有关.6分 (2)由频率分布直方图知抽到“体育迷”的频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”的概率为.8分 由题意知X~B,从而X的分布列为 X 0 1 2 3 P 10分 E(X)=np=3×=, D(X)=np(1-p)=3××=.12分 (对应学生用书第167页) 热点题型1 回归分析 题型分析:高考命题常以实际生活为背景,重在考查回归分析中散点图的作用、回归方程的求法和应用,难度中等. 在一次抽样调查中测得样本的5组数据,得到一个变量y关于x的回归方程模型,其对应的数值如下表: x 0.25 0.5 1 2 4 y 16 12 5 2 1 (1)试作出散点图,根据散点图判断,y=a+bx与y=+m哪一个适宜作为变量y关于x的回归方程模型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立变量y关于x的回归方程; (3)根据(2)中所求的变量y关于x的回归方程预测:当x=3时,对应的y值为多少?(保留四位有效数字) [解] (1)作出变量y与x之间的散点图,如图所示, 2分 由图可知变量y与x近似地呈反比例函数关系, 那么y=+m适宜作为变量y关于x的回归方程模型.4分 (2)由(1)知y=+m适宜作为变量y关于x的回归方程模型,令t=,则y=kt+m,由y与x的数据表可得y与t的数据表如下: t 4 2 1 0.5 0.25 y 16 12 5 2 1 ……………6分 作出y与t的散点图,如图所示. 8分 由图可知y与t近似地呈线性相关关系. 又=1.55,=7.2,iyi=94.25,=21.312 5, 所以k==≈4.134 4,m=-k=7.2-4.134 4×1.55≈0.8, 所以y=4.134 4t+0.8, 所以y关于x的回归方程为y=+0.8.10分 (3)由(2)得y关于x的回归方程是y=+0.8, 当x=3时,可得y=+0.8≈2.178.12分 1.正确理解计算,的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(,). 2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. [变式训练1] (2016·石家庄二模)为了解某地区某种农产品的年产量x (单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表: x 1 2 3 4 5 y 7.0 6.5 5.5 3.8 2.2 (1)求y关于x的线性回归方程=x+; (2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数) 参考公式:==, =-. [解] (1)=3,=5,2分 i=15,i=25,iyi=62.7,=55, 解得=-1.23,=8.69,4分 所以=8.69-1.23x.6分 (2)年利润z=x(8.69-1.23x)-2x=-1.23x2+6.69x,10分 所以当x=2.72,即年产量为2.72吨时,年利润z取得最大值.12分 热点题型2 独立性检验 题型分析:尽管全国卷Ⅰ近几年未在该点命题,但其极易与分层抽样、概率统计等知识交汇,是潜在的命题点之一,须引起足够的重视. (2016·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人) 几何题 代数题 总计 男同学 22 8 30 女同学 8 12 20 总计 30 20 50 (1)能否据此判断有97.5%的把握认为视觉和空间能力与性别有关? (2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率; (3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X,求X的分布列及数学期望E(X). 附表及公式: P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 K2=,n=a+b+c+d. [解题指导] 计算k下结论求概率求X的分布列及E(X). [解] (1)由表中数据得k==≈5.556>5.024,2分 所以有97.5%的把握认为视觉和空间能力与性别有关.3分 (2)设甲、乙解答一道几何题的时间分别为x,y分钟,则表示的平面区域如图所示. 设事件A为“乙比甲先做完此道题”,则x>y满足的区域如图中阴影部分所示.5分 由几何概型可得P(A)==, 即乙比甲先解答完的概率为.7分 (3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C=28种,其中丙、丁2人没有一个人被抽到的有C=15种;恰有一人被抽到的有C·C=12种;2人都被抽到的有C=1种. 所以X的可能取值为0,1,2,P(X=0)=,8分 P(X=1)==,9分 P(X=2)=.10分 X的分布列为: X 0 1 2 P 11分 E(X)=0×+1×+2×=.12分 求解独立性检验问题时要注意:一是2×2列联表中的数据与公式中各个字母的对应,不能混淆;二是注意计算得到k之后的结论. [变式训练2] (名师押题)2016年1月1日起全国统一实施全面二孩政策.为了解适龄民众对放开生育二孩政策的态度,某市选取70后和80后作为调查对象,随机调查了100人,得到数据如下表: 生二孩 不生二孩 总计 70后 30 15 45 80后 45 10 55 总计 75 25 100 (1)以这100人的样本数据估计该市的总体数据,且以频率估计概率,若从该市70后公民中随机抽取3人,记其中生二孩的人数为X,求随机变量X 的分布列和数学期望; (2)根据调查数据,是否有90%以上的把握认为“生二孩与年龄有关”,并说明理由. 参考数据: P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 k0 2.072 2.706 3.841 5.024 6.635 7.879 参考公式:K2=,其中 n=a+b+c+d [解] (1)由已知得70后“生二孩”的概率为,并且X~B,所以P(X=k)=Ck3-k(k=0,1,2,3),4分 X的分布列为 X 0 1 2 3 P 6分 所以E(X)=3×=2.8分 (2)由表中数据知k==≈3.030>2.706,10分 所以有90%以上的把握认为“生二孩与年龄有关”.12分 专题限时集训(八) 回归分析、独立性检验 [建议A、B组各用时:45分钟] [A组 高考达标] 一、选择题 1.(2016·威海二模)已知变量x,y满足关系y=0.2x-1,变量y与z负相关,则下列结论正确的是( ) A.x与y正相关,x与z负相关 B.x与y负相关,x与z正相关 C.x与y正相关,x与z正相关 D.x与y负相关,x与z负相关 A [由y=0.2x-1知,x与y正相关,由y与z负相关知,x与z负相关.故选A.] 2.(2016·长沙模拟)某研究型学习小组调查研究学生使用智能手机对学习的影响.部分统计数据如下表: 使用智能手机 不使用智能手机 总计 学习成绩优秀 4 8 12 学习成绩不优秀 16 2 18 总计 20 10 30 附表: P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 2.072 2.706 3.841 5.024 6.635 7.879 10.828 经计算k=10,则下列选项正确的是( ) A.有99.5%的把握认为使用智能手机对学习有影响 B.有99.5%的把握认为使用智能手机对学习无影响 C.有99.9%的把握认为使用智能手机对学习有影响 D.有99.9%的把握认为使用智能手机对学习无影响 A [因为7.879查看更多