- 2021-05-10 发布 |
- 37.5 KB |
- 16页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
高考数学考点归纳之 变量间的相关关系与统计案例
高考数学考点归纳之 变量间的相关关系与统计案例 一、基础知识 1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关 系不同,相关关系是一种非确定性关系. 体现的不一定是因果关系. (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称 为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关. 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近, 称两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归方程为y^=b^x+a^,其中 (3)通过求错误!的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距 离的平方和最小,这一方法叫做最小二乘法. (4)相关系数: 当 r>0 时,表明两个变量正相关; 当 r<0 时,表明两个变量负相关. r 的绝对值越接近于 1,表明两个变量的线性相关性越强.r 的绝对值越接近于 0,表明 两个变量之间几乎不存在线性相关关系.通常|r|大于 0.75 时,认为两个变量有很强的线性相 关性. 3.独立性检验 (1)2×2 列联表 设 X,Y 为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2 列联表)如下: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d (2)独立性检验 利用随机变量 K2(也可表示为χ2)的观测值 k= nad-bc2 a+bc+da+cb+d(其中 n=a+b+c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 二、常用结论 (1)求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点 ( x , y ). (2)根据 K2 的值可以判断两个分类变量有关的可信程度,若 K2 越大,则两分类变量有关 的把握越大. (3)根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值. 考点一 回归分析 考法(一) 求线性回归方程 [典例] (2019·湘东五校联考)已知具有相关关系的两个变量 x,y 的几组数据如下表所示: x 2 4 6 8 10 y 3 6 7 10 12 (1)请根据上表数据在网格纸中绘制散点图; (2)请根据上表数据,用最小二乘法求出 y 关于 x 的线性回归方程y^=b^x+a^,并估计当 x =20 时 y 的值. 参考公式:b^=错误!,a^= y -b^ x . [解] (1)散点图如图所示: (2)依题意, x =1 5 ×(2+4+6+8+10)=6, y =1 5 ×(3+6+7+10+12)=7.6, 错误!2i =4+16+36+64+100=220,错误!iyi=6+24+42+80+120=272, ∴b^=错误!=272-5×6×7.6 220-5×62 =44 40 =1.1, ∴a^=7.6-1.1×6=1, ∴线性回归方程为y^=1.1x+1,故当 x=20 时,y=23. 考法(二) 相关系数及应用 [典例] 如图是我国 2012 年至 2018 年生活垃圾无害化处理量(单位:亿吨)的折线图. 由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明. 参考数据:错误!i=9.32,错误!iyi=40.17, 错误!=0.55, 7≈2.646. 参考公式:相关系数 r=错误!. [解] 由折线图中数据和参考数据及公式得 t =4, 错误!(ti- t )2=28, 错误!=0.55, 错误! (ti - t )(yi - y ) = 错误! iyi - t 错误! i = 40.17 - 4×9.32 = 2.89 , r≈ 2.89 0.55×2×2.646 ≈0.99. 因为 y 与 t 的相关系数近似为 0.99,说明 y 与 t 的线性相关程度相当高,从而可以用线 性回归模型拟合 y 与 t 的关系. [解题技法] 1.线性回归分析问题的类型及解题方法 (1)求线性回归方程: ①利用公式,求出回归系数b^,a^. ②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测: 把回归直线方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b^. 2.模型拟合效果的判断 (1)残差平方和越小,模型的拟合效果越好. (2)相关指数 R2 越大,模型的拟合效果越好. (3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于 1 时,两变量的线性相 关性越强. [题组训练] 1.(2019·惠州调研)某商场为了了解毛衣的月销售量 y(件)与月平均气温 x(℃)之间的关 系,随机统计了某 4 个月的月销售量与当月平均气温,其数据如下表: 月平均气温 x/℃ 17 13 8 2 月销售量 y/件 24 33 40 55 由表中数据算出线性回归方程y^=b^x+a^中的b^=-2,气象部门预测下个月的平均气温约 为 6 ℃,据此估计该商场下个月毛衣销售量约为( ) A.46 件 B.40 件 C.38 件 D.58 件 解析:选 A 由题中数据,得 x =10, y =38,回归直线y^=b^x+a^过点( x , y ),且 b^=-2,代入得a^=58,则回归方程y^=-2x+58,所以当 x=6 时,y=46,故选 A. 2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间 的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交 车队统计了活动刚推出一周内每天使用扫码支付的人次,用 x 表示活动推出的天数,y 表示 每天使用扫码支付的人次,统计数据如下表: x 1 2 3 4 5 6 7 y 60 110 210 340 660 1 010 1 960 根据以上数据,绘制了散点图. 参考数据: y v 错误!iyi 错误!ivi 100.54 621 2.54 25 350 78.12 3.47 其中 vi=lg yi, v =1 7 错误!i. (1)根据散点图判断,在推广期内,y=a+bx 与 y=c·dx(c,d 均为大于零的常数)哪一个 适宜作为扫码支付的人次 y 关于活动推出天数 x 的回归方程类型(给出判断即可,不必说明 理由)? (2)根据(1)的判断结果及上表中数据,建立 y 关于 x 的回归方程,并预测活动推出第 8 天使用扫码支付的人次. 参考公式: 对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^μ的斜率和截距的最 小二乘估计公式分别为β=错误!,α^= v -β^ U . 解:(1)根据散点图可以判断,y=c·dx 适宜作为扫码支付的人次 y 关于活动推出天数 x 的回归方程类型. (2)y=c·dx 两边同时取常用对数,得 lg y=lg(c·dx)=lg c+xlg d, 设 lg y=v,则 v=lg c+xlg d. ∵ x =4, v =2.54,错误!2i =140, ∴lg d=错误!≈78.12-7×4×2.54 140-7×42 =0.25, 把(4,2.54)代入 v=lg c+xlg d,得 lg c=1.54, ∴v^=1.54+0.25x,∴y^=101.54+0.25x=101.54·(100.25)x. 把 x=8 代入上式,得y^=101.54+0.25×8=103.54=103×100.54=3 470, ∴y 关于 x 的回归方程为y^=101.54·(100.25)x,活动推出第 8 天使用扫码支付的人次为 3 470. 考点二 独立性检验 [典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完 成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他 们随机分成两组,每组 20 人.第一组工人用第一种生产方式,第二组工人用第二种生产方 式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)求 40 名工人完成生产任务所需时间的中位数 m,并将完成生产任务所需时间超过 m 和不超过 m 的工人数填入下面的列联表: 超过 m 不超过 m 第一种生产方式 第二种生产方式 (2)根据(1)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异? 附:K2= nad-bc2 a+bc+da+cb+d , [解] (1)由茎叶图知 m=79+81 2 =80. 列联表如下: 超过 m 不超过 m 第一种生产方式 15 5 第二种生产方式 5 15 (2)因为 K2=4015×15-5×52 20×20×20×20 =10>6.635,所以有 99%的把握认为两种生产方式的效 率有差异. [解题技法] 2 个明确 (1)明确两类主体; (2)明确研究的两个问题 2 个关键 (1)准确画出 2×2 列联表; (2)准确求解 K2 3 个步骤 (1)根据样本数据制成 2×2 列联表; (2)根据公式 K2= nad-bc2 a+bc+da+cb+d ,计算 K2 的值; (3)查表比较 K2 与临界值的大小关系,作统计判断 [题组训练] 1.(2019·沧州模拟)某班主任对全班 50 名学生进行了作业量的调查,数据如表: 认为作业量大 认为作业量不大 总计 男生 18 9 27 女生 8 15 23 总计 26 24 50 已知 P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025,P(K2≥6.635)≈0.010. 则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”. 解析:因为 K2=50×18×15-8×92 26×24×27×23 ≈5.059>5.024, 所以有 97.5%的把握认为“学生的性别与认为作业量大有关”. 答案:有 2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下: 未发病 发病 总计 未注射疫苗 20 x A 注射疫苗 30 y B 总计 50 50 100 现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为2 5. (1)求 2×2 列联表中的数据 x,y,A,B 的值. (2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率? (3)能否在犯错误的概率不超过 0.001 的前提下认为疫苗有效? 附:K2= nad-bc2 a+bc+da+cb+d ,n=a+b+c+d. 临界值表: P(K2≥k0) 0.05 0.01 0.005 0.001 k0 3.841 6.635 7.879 10.828 解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件 M, 由已知得 P(M)=y+30 100 =2 5 , 所以 y=10,则 B=40,x=40,A=60. (2)未注射疫苗发病率为40 60 =2 3 ≈0.67, 注射疫苗发病率为10 40 =1 4 =0.25. 发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率. (3)因为 K2=100×20×10-40×302 60×40×50×50 ≈16.67>10.828. 所以能在犯错误的概率不超过 0.001 的前提下认为疫苗有效. [课时跟踪检测] A 级 1.对变量 x,y 有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量 u,v 有 观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( ) A.变量 x 与 y 正相关,u 与 v 正相关 B.变量 x 与 y 正相关,u 与 v 负相关 C.变量 x 与 y 负相关,u 与 v 正相关 D.变量 x 与 y 负相关,u 与 v 负相关 解析:选 C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图 ②的线性回归方程斜率为正,则由散点图可判断变量 x 与 y 负相关,u 与 v 正相关. 2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支 出费用的关系,随机调查了该社区 5 户家庭,得到如下统计表: 购买食品的年支出 费用 x/万元 2.09 2.15 2.50 2.84 2.92 购买水果和牛奶的 年支出费用 y/万元 1.25 1.30 1.50 1.70 1.75 根据上表可得回归方程y^=b^x+a^,其中b^=0.59,a^= y -b^ x ,据此估计,该社区一 户购买食品的年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为( ) A.1.795 万元 B.2.555 万元 C.1.915 万元 D.1.945 万元 解析:选 A x =1 5 ×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y =1 5 ×(1.25+1.30 +1.50+1.70+1.75)=1.50(万元),其中b^=0.59,则a^= y -b^ x =0.025,y^=0.59x+0.025, 故年支出费用为 3.00 万元的家庭购买水果和牛奶的年支出费用约为y^=0.59×3.00+0.025= 1.795(万元). 3.下面四个命题中,错误的是( ) A.从匀速传递的产品生产流水线上,质检员每 15 分钟从中抽取一件产品进行某项指 标检测,这样的抽样是系统抽样 B.对分类变量 X 与 Y 的随机变量 K2 的观测值 k 来说,k 越大,“X 与 Y 有关系”的把 握程度越大 C.两个随机变量相关性越强,则相关系数的绝对值越接近于 0 D.在回归直线方程y^=0.4x+12 中,当解释变量 x 每增加一个单位时,预报变量平均 增加 0.4 个单位 解析:选 C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于 1,故 C 错误. 4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问 100 名性别 不同的居民是否能做到“光盘”行动,得到如下的列联表: 做不到“光盘” 能做到“光盘” 男 45 10 女 30 15 则下面的正确结论是( ) 附表及公式: P(K2≥k0) 0.100 0.050 0.010 0.001 k0 2.706 3.841 6.635 10.828 K2= nad-bc2 a+bc+da+cb+d ,n=a+b+c+d. A.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关” B.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别无 关” C.在犯错误的概率不超过 1%的前提下,认为“该市居民能否做到‘光盘’与性别有 关” D.有 90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 解析:选 A 由列联表得到 a=45,b=10,c=30,d=15,则 a+b=55,c+d=45,a +c=75,b+d=25,ad=675,bc=300,n=100,计算得 K2 的观测值 k= nad-bc2 a+bc+da+cb+d =100×675-3002 55×45×75×25 ≈3.030.因为 2.706<3.030<3.841, 所以有 90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”. 5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了 100 名工人,且规 定日平均生产件数不少于 80 件者为“生产能手”,列出的 2×2 列联表如下: 生产能手 非生产能手 总计 25 周岁以上 25 35 60 25 周岁以下 10 30 40 总计 35 65 100 有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 解析:由 2×2 列联表可知,K2=100×25×30-10×352 40×60×35×65 ≈2.93,因为 2.93>2.706,所 以有 90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 答案:90% 6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存 款(年底余额)如下表: 年份 2014 2015 2016 2017 2018 时间代号 t 1 2 3 4 5 储蓄存款 y (千亿元) 5 6 7 8 10 则 y 关于 t 的回归方程是________________. 解析:由表中数据得 n=5, t =1 n 错误!i=15 5 =3, y =1 n 错误!i=36 5 =7.2. 又错误!2i -n t 2=55-5×32=10, 错误!iyi-n t y =120-5×3×7.2=12. 从而b^=错误!=12 10 =1.2, a^= y -b^ t =7.2-1.2×3=3.6, 故所求回归方程为y^=1.2t+3.6. 答案:y^=1.2t+3.6 7.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定 此次广告费支出.广告费支出 x(万元)和销售量 y(万台)的数据如下: 年份 2012 2013 2014 2015 2016 2017 2018 广告费支 出 x 1 2 4 6 11 13 19 销售量 y 1.9 3.2 4.0 4.4 5.2 5.3 5.4 (1)若用线性回归模型拟合 y 与 x 的关系,求出 y 关于 x 的线性回归方程; (2)若用 y=c+d x模型拟合 y 与 x 的关系,可得回归方程y^=1.63+0.99 x,经计算线 性回归模型和该模型的 R2 分别约为 0.75 和 0.88,请用 R2 说明选择哪个回归模型更好; (3)已知利润 z 与 x,y 的关系为 z=200y-x.根据(2)的结果,求当广告费 x=20 时,销售 量及利润的预报值. 参考公式:回归直线y^=a^+b^x 的斜率和截距的最小二乘估计分别为 b^=错误!=错误!,a^= y -b^ x . 参考数据: 5≈2.24. 解:(1)∵ x =8, y =4.2,错误!iyi=279.4,错误!2i =708, ∴b^=错误!=279.4-7×8×4.2 708-7×82 =0.17,a^= y -b^ x =4.2-0.17×8=2.84, ∴y 关于 x 的线性回归方程为y^=0.17x+2.84. (2)∵0.75<0.88 且 R2 越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y^=1.63+0.99 x更好. (3)由(2)知,当 x=20 时,销售量的预报值y^=1.63+0.99 20≈6.07(万台),利润的预报 值 z=200×(1.63+0.99 20)-20≈1 193.04(万元). B 级 1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导 学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后, 分别从两个班级各随机抽取 20 名学生的成绩进行统计,得到如下茎叶图.记成绩不低于 70 分者为“成绩优良”. (1)请大致判断哪种教学方式的教学效果更佳,并说明理由; (2)构造一个教学方式与成绩优良的 2×2 列联表,并判断能否在犯错误的概率不超过 0.05 的前提下认为“成绩优良与教学方式有关”. 附:K2= nad-bc2 a+bc+da+cb+d ,其中 n=a+b+c+d. 临界值表: P(K2≥k0) 0.10 0.05 0.025 0.010 k0 2.706 3.841 5.024 6.635 解:(1)“导学案”教学方式教学效果更佳. 理由 1:乙班样本数学成绩大多在 70 分以上,甲班样本数学成绩 70 分以下的明显更多. 理由 2:甲班样本数学成绩的平均分为 70.2;乙班样本数学成绩的平均分为 79.05. 理由 3:甲班样本数学成绩的中位数为68+72 2 =70,乙班样本数学成绩的中位数为 77+78 2 =77.5. (2)2×2 列联表如下: 甲班 乙班 总计 成绩优良 10 16 26 成绩不优良 10 4 14 总计 20 20 40 由上表数据可得 K2=40×10×4-10×162 20×20×26×14 ≈3.956>3.841, 所以能在犯错误的概率不超过 0.05 的前提下认为“成绩优良与教学方式有关”. 2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各 类蔬菜.过去 50 周的资料显示,该地周光照量 X(单位:小时)都 在 30 小时以上,其中不足 50 小时的有 5 周,不低于 50 小时且不超过 70 小时的有 35 周, 超过 70 小时的有 10 周.根据统计,该基地的西红柿增加量 y(千克)与使用某种液体肥料的 质量 x(千克)之间的对应数据为如图所示的折线图. (1)依据折线图计算相关系数 r(精确到 0.01),并据此判断是否可用线性回归模型拟合 y 与 x 的关系;(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合) (2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但 每周光照控制仪运行台数受周光照量 X 限制,并有如下关系: 周光照量 X/小时 30<X<50 50≤X≤70 X>70 光照控制仪运行台数 3 2 1 对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为 3 000 元;若 某台光照控制仪未运行,则该台光照控制仪周亏损 1 000 元.若商家安装了 3 台光照控制仪, 求商家在过去 50 周的周总利润的平均值. 相关系数公式:r=错误!, 参考数据: 0.3≈0.55, 0.9≈0.95. 解:(1)由已知数据可得 x =2+4+5+6+8 5 =5, y =3+4+4+4+5 5 =4. 因为错误!(xi- x )(yi- y )=(-3)×(-1)+0+0+0+3×1=6, 错误!= -32+-12+02+12+32=2 5, 错误!= -12+02+02+02+12= 2, 所以相关系数 r=错误!= 6 2 5× 2 = 0.9≈0.95. 因为|r|>0.75,所以可用线性回归模型拟合 y 与 x 的关系. (2)由条件可得在过去 50 周里, 当 X>70 时,共有 10 周,此时只有 1 台光照控制仪运行, 每周的周总利润为 1×3 000-2×1 000=1 000(元). 当 50≤X≤70 时,共有 35 周,此时有 2 台光照控制仪运行, 每周的周总利润为 2×3 000-1×1 000=5 000(元). 当 30<X<50 时,共有 5 周,此时 3 台光照控制仪都运行, 每周的周总利润为 3×3 000=9 000(元). 所以过去 50 周的周总利润的平均值为 1 000×10+5 000×35+9 000×5 50 =4 600(元), 所以商家在过去 50 周的周总利润的平均值为 4 600 元.查看更多