- 2021-06-02 发布 |
- 37.5 KB |
- 22页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
浙江专用2021届高考数学一轮复习第十一章概率与统计11-5变量间的相关关系统计案例课件
§11.5 变量间的相关关系、 统计案例 高考数学 考点一 变量间的相关关系 1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系. 与函数关系不同,相关关系是一种非确定性关系. (2)在散点图中,点散布在从左下角到右上角的区域内,两个变量的这种相 关关系称为① 正相关 ,点散布在左上角到右下角的区域内,两个变量的 相关关系称为② 负相关 . 考点 清单 2.两个变量的线性相关 (1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一 条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归直线方程 (i)最小二乘法:通过求 Q = ( y i - bx i - a ) 2 的最小值而得到回归直线的方法,即使 得样本数据的点到回归直线的距离的平方和最小的方法叫做③ 最小二乘法 . (ii)回归方程:方程 = x + 是两个具有线性相关关系的变量的一组数据( x 1 , y 1 ),( x 2 , y 2 ), … ,( x n , y n )的回归方程,其中 , 是待定参数. (3)相关系数 r (ii)当 r >0时,表明两个变量④ 正相关 ; 当 r <0时,表明两个变量⑤ 负相关 . r 的绝对值越接近于1,表明两个变量的线性相关性越强; r 的绝对值越接近 于0,表明两个变量之间几乎不存在线性相关关系.当 r 的绝对值大于或等于 0.75时,认为两个变量有很强的线性相关关系. (3)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. 在线性回归模型 y = bx + a + e 中,因变量 y 的值由自变量 x 和随机误差 e 共同确 定,即自变量 x 只能解释部分 y 的变化,在统计中,我们把自变量 x 称为解释变 量,因变量 y 称为预报变量. 考点二 独立性检验 1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变 量称为分类变量. 2.列联表:列出两个分类变量的⑥ 频数表 ,称为列联表.假设有两个分类 变量 X 和 Y ,它们的可能取值分别为{ x 1 , x 2 }和{ y 1 , y 2 },其样本频数列联表(称为 2 × 2列联表)为: 可构造一个随机变量 K 2 = ,其中 n = a + b + c + d 为样 本容量. y 1 y 2 总计 x 1 a b a + b x 2 c d c + d 总计 a + c b + d a + b + c + d 3.独立性检验 利用独立性假设、随机变量⑦ K 2 来确定是否有一定把握认为“两个 分类变量有关系”的方法称为两个分类变量的独立性检验. 两个分类变量 X 和 Y 是否有关系的判断标准: 统计学研究表明:当 K 2 ≤ 3.841时,认为 X 与 Y 无关; 当 K 2 >3.841时,有95%的把握说 X 与 Y 有关; 当 K 2 >6.635时,有99%的把握说 X 与 Y 有关; 当 K 2 >10.828时,有99.9%的把握说 X 与 Y 有关. 考法一 线性回归分析的应用 知能拓展 例1 (2016课标Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化 处理量(单位:亿吨)的折线图. (1)由折线图看出,可用线性回归模型拟合 y 与 t 的关系,请用相关系数加以说明; (2)建立 y 关于 t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无 害化处理量. 附: 参考数据: y i =9.32, t i y i =40.17, =0.55, ≈ 2.646. 参考公式:相关系数 r = , 回归方程 = + t 中斜率和截距的最小二乘估计公式分别为 = , = - . 附: 参考数据: y i =9.32, t i y i =40.17, =0.55, ≈ 2.646. 参考公式:相关系数 r = , 回归方程 = + t 中斜率和截距的最小二乘估计公式分别为 = , = - . 解题导引 解析 (1)由折线图中数据和附注中参考数据得 =4, ( t i - ) 2 =28, =0.55, ( t i - )( y i - )= t i y i - y i =40.17-4 × 9.32=2.89, r ≈ ≈ 0.99. (4分) 因为 y 与 t 的相关系数近似为0.99,说明 y 与 t 的线性相关程度相当高,从而可 以用线性回归模型拟合 y 与 t 的关系. (6分) (2)由 = ≈ 1.331及(1)得 = = ≈ 0.10, = - =1.331-0.10 × 4 ≈ 0.93. 所以, y 关于 t 的回归方程为 =0.93+0.10 t . (10分) 将2016年对应的 t =9代入回归方程得 =0.93+0.10 × 9=1.83. 所以预测2016年我国生活垃圾无害化处理量约为1.83亿吨.(12分) 方法总结 求线性回归直线方程的步骤 (1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系; (2)利用公式 = , = - 求得回归系数; (3)写出回归直线方程. 考法二 独立性检验的应用 例2 (2019湘东六校联考,19)市教育部门为研究高中学生的身体素质与课 外体育锻炼时间的关系,对该市某校200名高中学生平均每天的课外体育 锻炼时间进行了调查,数据如下表: 将学生日均课外体育锻炼时间在[40,60]内的学生评价为“课外体育 达标”. (1)请根据上述表格中的统计数据填写下面2 × 2列联表,并通过计算判断是 否能在犯错误的概率不超过0.01的前提下认为“课外体育达标”与性别 有关; 平均每天锻炼 的时间(分钟) [0,10) [10,20) [20,30) [30,40) [40,50) [50,60] 总人数 20 36 44 50 40 10 课外体育不达标 课外体育达标 合计 男 女 20 110 合计 (2)从上述课外体育不达标的学生中,按性别用分层抽样的方法抽取10 名学生,再从这10名学生中随机抽取3人了解他们锻炼时间偏少的原因,记 所抽取的3人中男生的人数为随机变量 X ,求 X 的分布列和数学期望; (3)将上述调查所得到的频率视为概率来估计全市的情况,现在从该市所有 高中学生中抽取4名学生,求其中恰好有2名学生课外体育达标的概率. 参考公式: K 2 = ,其中 n = a + b + c + d . 参考数据: P ( K 2 ≥ k 0 ) 0.10 0.05 0.025 0.010 0.005 0.001 k 0 2.706 3.841 5.024 6.635 7.879 10.828 解题导引 (1)把数据代入公式计算 K 2 ; (2)求出 X =0,1,2,3时的概率,列分布列并求数学期望; (3)设4名学生中课外体育达标的人数为 ξ ,由 ξ ~ B 求 P ( ξ =2). 解析 (1) K 2 = = ≈ 6.061<6.635, 所以在犯错误的概率不超过0.01的前提下不能判断“课外体育达标”与 性别有关. (4分) (2)易知,所抽取的10名学生中,男生有10 × =4名,女生有10 × =6名. X 可 取0,1,2,3. P ( X =0)= = , 课外体育不达标 课外体育达标 合计 男 60 30 90 女 90 20 110 合计 150 50 200 P ( X =1)= = , P ( X =2)= = , P ( X =3)= = . ∴ X 的分布列为 E ( X )=0 × +1 × +2 × +3 × = . (9分) (3)设所抽取的4名学生中,课外体育达标的人数为 ξ ,由(1)中表格可知学生 课外体育达标的频率为 = ,将频率视为概率, X 0 1 2 3 P ∴ ξ ~ B ,∴ P ( ξ =2)= × × = . ∴恰好有2名学生课外体育达标的概率为 . (12分) 方法总结 1.独立性检验的思想来自统计上的假设检验思想,它与反证法 类似,它们都是先假设结论不成立,然后根据是否能推出“矛盾”来判定结 论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指不符合 逻辑的事件发生;而假设检验中的“矛盾”是指不符合逻辑的小概率事件 发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生. 2.独立性检验的一般步骤: (1)独立性检验原理只能解决两个对象,每个对象有两类属性的问题,所以 对于一个实际问题,我们要首先确定能否用独立性检验的思想加以解决; (2)如果确实属于这类问题,要科学地抽取样本,样本容量要适当,不可太小; (3)根据数据列出2 × 2列联表; (4)提出假设 H 0 :所研究的两类对象( X , Y )无关; (5)根据公式计算 K 2 = ,其中 n = a + b + c + d 的值; (6)比较观测值 k 与临界值表中相应的检验水平,根据小概率原理肯定或者 否定假设,即判断 X 、 Y 是否相关. 例 (2019福建泉州一模,19)法国数学家亨利·庞加莱(Jules Henri Poincare) 是个每天都会吃面包的人,他经常光顾同一家面包店,面包师声称卖给庞加 莱的面包平均质量是1 000 g,上下浮动50 g.在庞加莱眼中,这用数学语言来 表达就是:面包的质量服从期望为1 000 g,标准差为50 g的正态分布. (1)假如面包师没有撒谎,现庞加莱从该面包店任意买2个面包,求每个面包 的质量均不少于1 000 g的概率; (2)出于兴趣或一个偶然的念头,庞加莱每天将买来的面包称重并记录得到 25个面包质量( X )的数据(单位:g)如下表: 实践探究 983 972 966 992 1 010 1 008 954 952 969 968 998 1 001 1 006 957 950 969 971 975 952 959 987 1 011 1 000 997 961 设从这25个面包中任取2个,其质量不少于1 000 g的面包个数记为 η ,求 η 的分布列及 E ( η ); (3)庞加莱计算出这25个面包质量( X )的平均值 =978.72 g,标准差是20.16 g,他认定面包师在制作过程中偷工减料,并果断举报给质检部门,质检员对 面包师做了处罚,面包师也承认自己的错误,并同意做出改正.庞加莱在接 下来的一段时间里每天都去这家面包店买面包,他又认真记录了25个面包 的质量,并算得它们的平均值为1 002.6 g,标准差是5.08 g,于是庞加莱又一 次将面包师举报了.请你根据两次平均值和标准差的计算结果及其统计学 意义,说说庞加莱又一次举报的理由. 解析 (1)假如面包师没有撒谎,则任意购买一个面包,其质量不少于1 000 g的概率为 ,所以庞加莱购买两个面包,每个面包的质量都不少于1 000 g 的概率为 × = . (2)根据题意, η 的取值可以是0,1,2. P ( η =0)= × = =0.57, P ( η =1)= × + × = =0.38, P ( η =2)= × = =0.05, ∴ η 的分布列为 η 0 1 2 P 0.57 0.38 0.05 ∴ E ( η )=0 × 0.57+1 × 0.38+2 × 0.05=0.48. (3)第二次举报时的均值超过1 000 g,标准差很小,令人怀疑.标准差代表了 面包质量的误差,可以理解成面包师手艺的精度,这个数字在短时间内很难 改变,假设题表中的数据没有问题,那说明面包师做面包的误差由50 g降低 到了5.08 g,这对面包师的手艺是个巨大的飞越,显然并不合理,所以只能是 随机性出现了问题.也就是面包的来源不是随机的,而是人为设定的,最大 的可能就是每当庞加莱到来时,面包师从现有面包中挑选一个较大的给了 庞加莱,而面包师的制作方式根本没有改变. 题目价值 本题以现实生活的活动为背景创设情境,考查了数据分析、数 学运算、数学建模,逻辑推理的核心素养. 方法总结 认真阅读题意,把问题还原为相应的数学模型是解决问题的关 键.通过解决数学模型得出相应数据,从而得出问题所求的答案.查看更多