- 2021-04-15 发布 |
- 37.5 KB |
- 15页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
【数学】2020届一轮复习人教B版统计案例学案
《统计案例》单元复习巩固 【学习目标】 1. 了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用. 2. 通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用. 3. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤. 4. 能作出散点图,能求其回归直线方程。 5. 会用所学的知识对简单的实际问题进行回归分析。 【知识网络】 【要点梳理】 要点一、分类变量 有一种变量,这种变量所取不同的“值”表示的是个体所属不同类别,称这种变量为分类变量。 要点诠释: (1)对分类变量的理解。 这里的“变量”和“值”都应作为广义的“变量”和“值”进行理解。例如:“性别变量”有“男”和“女”两种类别,这里的变量指的是性别,同样这里的“值”指的是“男”和“女”。因此,这里所说的“变量”和“值”取的不一定是具体的数值。 (2)分类变量可以有多种类别。例如:吸烟变量有“吸烟”与“不吸烟”两种类别,而国籍变量则有多种类别。 要点二、2×2列联表 1. 列联表 用表格列出的分类变量的频数表,叫做列联表。 2. 2×2列联表 对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示: 事件B 事件 合计 事件A a b a+b 事件 c d c+d 合计 a+c b +d a+b+c+d 这样的表格称为2×2列联表。 要点三:卡方统计量公式 为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示 Y1 Y2 合计 X1 a b a+b X2 c d c+d 合计 a+c b+d n=a+b+c+d 统计中有一个有用的(读做“卡方”)统计量,它的表达式是: (为样本容量)。 要点四、独立性检验 1. 独立性检验 通过2×2列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 2. 变量独立性的判断 通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断: ①如果≤3.841时,认为事件A与B是无关的。 ②如果>3.841时,有95%的把握说事件A与事件B有关; ③如果>6.635时,有99%的把握说事件A与事件B有关; 要点诠释: (1)独立性检验一般是指通过计算统计量的大小对两个事件是否有关进行判断; (2)独立性检验的基本思想类似于反证法。即在H0:事件A与B无关的统计假设下,利用统计量的大小来决定在多大程度上拒绝原来的统计假设H0,即拒绝“事件A与B无关”,从而认为事件A与B有关。独立性检验为假设检验的特例。 (3)利用独立性检验可以考察两个分类变量是否有关,并且能较精确地给出这种判断的把握程度。 3.独立性检验的基本步骤及简单应用 独立性检验的步骤: 要推断“A与B是否有关”,可按下面步骤进行: (1)提出统计假设H0:事件A与B无关(相互独立); (2)抽取样本(样本容量不要太小,每个数据都要大于5); (3)列出2×2列联表; (4)根据2×2列联表,利用公式:,计算出的值; (5)统计推断:当>3.841时,有95%的把握说事件A与B有关; 当>6.635时,有99%的把握说事件A与B有关; 当>10.828时,有99.9%的把握说事件A与B有关; 当≤3.841时,认为事件A与B是无关的. 要点诠释: ① 使用统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5. ② 一定要弄清的表达式中各个量的含义. ③ 独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量应该很小,如果由观测数据计算得到的的观测值很大,则在一定程度上说明假设不合理.根据随机变量的含义,由实际计算的>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当≤3.841时,认为两个分类变量是无关的. 要点五、变量间的相关关系 1. 变量与变量间的两种关系: (1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S与半径r之间的关系S=πr2为函数关系. (2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类: (1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图: 将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据. 4. 回归分析: 与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。 要点六、线性回归方程: 1.回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。 2.回归直线方程 对于一组具有线性相关关系的数据,,……,,其回归直线的截距和斜率的最小二乘法估计公式分别为: , 其中表示数据xi(i=1,2,…,n)的均值,表示数据yi(i=1,2,…,n)的均值,表示数据xiyi(i=1,2,…,n)的均值. 、的意义是:以为基数,x每增加一个单位,y相应地平均变化个单位. 要点诠释: ①回归系数,也可以表示为,这样更便于实际计算。 ②;。 ③称为样本中心点,回归直线必经过样本中心点。 ④回归直线方程中的表示x增加1个单位时的变化量,而表示不随x的变化而变化的量。 3.求回归直线方程的一般步骤: ①作出散点图 由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步。 ②求回归系数、 计算,, ,, 利用公式求出, 再由求出的值; ③写出回归直线方程; ④利用回归直线方程预报在x取某一个值时y的估计值。 要点诠释: 一般地,我们可以利用回归直线方程进行预测,但这里所得到的值是预报值,而不是精确值,它带有很大的随机性,可能对于某一次的实际值而言会有很大的出入,这是因为: (1)回归直线的截距和斜率都是通过样本估计出来的,存在随机误差,这种误差可以导致预测结果的偏差。 (2)即使截距和斜率的估计没有误差,也不可能保证对应于x的预报值能够与实际值y很接近。我们不能保证点(x,y)落在回归直线上,甚至不能保证它落在回归直线的附近,事实上,,这里是随机变量,预报值与实际值y的接近程度由随机变量决定。 尽管我们利用回归直线方程所得到的值仅是一个预报值,它具有随机性,但它是我们根据统计规律所得到的结论,因而结论正确的概率很大。故我们可以放心地利用回归直线方程进行预测。 要点七、相关性检验 (1)相关系数r的定义 对于变量x与y随机抽取到的n对数据,,……,,称为x与y的样本相关系数。 (2)相关系数r的作用 样本相关系数r用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱: ① 越接近1,表明两个变量之间的线性相关程度越强;越接近0,表明两个变量之间的线性相关程度越弱。 ②当r>0时,表明两个变量正相关, 即x增加,y随之相应地增加,若x减少,y随之相应地减少. 当r<0时,表明两个变量负相关, 即x增加,y随之相应地减少;若x减少,y随之相应地增加. 若r=0,则称x与y不相关。 ③当,认为x与y之间具有很强的线性相关关系。 ④当大于时,表明有95%的把握认为x与y之间具有线性相关关系,这时求回归直线方程有必要也有意义,当时,寻找回归直线方程就没有意义。 (3)利用相关系数r检验的一般步骤: 法一: ①作统计假设:x与y不具有线性相关关系。 ②根据样本相关系数计算公式算出r的值。 ③比较与0.75的大小关系,得出统计结论。如果,认为x与y之间具有很强的线性相关关系。 法二: ①作统计假设:x与y不具有线性相关关系。 ②根据样本相关系数计算公式算出r的值。 ③根据小概率0.05与n-2在相关性检验的临界值表中查出r的一个临界值(n未数据的对数)。 ④比较与,作统计推断,如果,表明有95%的把握认为x与y之间具有线性相关关系。如果,我们没有理由拒绝原来的假设,即不认为x与y之间具有线性相关关系。这时寻找回归直线方程是毫无意义的。 要点八、线性回归分析与非线性回归分析 1.线性回归分析 对于回归分析问题,在解题时应首先利用散点图或相关性检验判断x与y是否具有线性相关关系,如果线性相关,才能求解后面的问题.否则求线性回归方程没有实际意义,它不能反映变量x与y,之间的变化规律.只有在x与y之间具有相关关系时,求线性回归方程才有实际意义. 相关性检验的依据:主要利用检验统计量 (其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用r的性质确定x和y是否具有线性相关关系,r具有的性质为:|r|≤1且|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱. 2. 线性回归分析的一般步骤 (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; (2)判断两变量是否具有线性相关关系 ①作散点图 由样本点是否呈条状分布来判断两个量是否具有线性相关关系。 ②求相关系数r 当,认为x与y之间具有很强的线性相关关系。 (3)若两变量存在线性相关关系,设所求的线性回归方程为,求回归系数、。 (4)写出回归直线方程; (5)利用回归直线方程预报在x取某一个值时y的估计值。 3.非线性回归分析 (1)对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y具有线性相关关系,进一步求出,,对新元的线性回归方程,换回x即可得y对x的回归曲线方程. (2)非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程: ①画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把非线性回归分析问题化为线性回归分析问题. ②作相关性检验,即判断寻找线性回归方程是否有意义. ③当寻找线性回归方程有意义时,计算系数,,得到线性回归方程. ④代回x得y对x的回归曲线方程. 【典型例题】 类型一、独立性检验及应用 例1.(2019 张掖校级模拟)某校通过随机询问100名性别不同的学生是否能做到“光盘”行动,得到所示联表: 附: A.在犯错误的概率不超过1%的前提下,认为“该校学生能否做到‘光盘’与性别无关” B.有99%以上的把握认为“该校学生能否做到‘光盘’与性别无关” C.在犯错误的概率不超过10%的前提下,认为“该校学生能否做到‘光盘’与性别有关” D.有90%以上的把握认为“该校学生能否做到‘光盘’与性别无关” 【答案】C 【思路点拨】通过图表读取数据,代入观测值公式计算,然后参照临界值表即可得到正确结论。 【解析】由2×2列联表得到a=45,b=10,c=30,d=15。 则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100。 代入, 得k2的观测值。 因为2.706<3.030<3.841。 所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”。 即在犯错误的概率不超过10%的前提下,认为“该校学生能否做到‘光盘’与性别有关” 故选C。 【总结升华】本题是一个独立性检验,我们可以利用临界值的大小来决定是否拒绝原来的统计假设,若值较大就拒绝假设,即拒绝两个事件无关。 举一反三: 【变式】(2018春 香坊区校级期中)在一次独立性检验中,有300人按性别和是否色弱分类如下表: 由此表计算得统计量K2=( )(参考公式:) A.2 B.3 C.2.4 D.3.6 【答案】C 。 故选C。 例2.(2015春 遵义校级期末)在对人们的休闲方式的一次调查中,共调查了120人,其中女性65人,男性55人。女性中有40人主要的休闲方式是看电视,另外25人主要的休闲方式是运动;男性中有20人主要的休闲方式是看电视,另外35人主要的休闲方式是运动。 其中n=a+b+c+d (1)根据以上数据建立一个2×2的列联表; (2)能够以多大的把握认为性别与休闲方式有关系,为什么? 【答案】(1)略(2)99% 【思路点拨】(1)根据题目所给的数据填写2×2列联表即可; (2)计算K的观测值K2,对照题目中的表格,得出统计结论。 【解析】(1)根据题目所给数据得到如下2×2的列联表: (2)假设H:“性别与休闲方式没有关系”, 则K的观测值:; 由于7.552>6.635, ∴有99%的把握认为休闲方式与性别是有关的。 举一反三: 【变式】(2015春 福建期末)随着移动互联网的深入普及,用手机上的网的人数日益增多,某教育部门成立了调查小组,调查“常上网与高度近视的关系”,对某校高中二年级800名学生进行检验,得到如下2×2列联表: 根据列联表的数据,计算得到K2≈7.524,则( ) A.有99.5%的把握认为常上网与高度近视有关 B.有99.5%的把握认为常上网与高度近视无关 C.有99%的把握认为常上网与高度近视有关 D.有99%的把握认为常上网与高度近视无关 【答案】∵根据表中数据,得到X2的观测值K2≈7.524>6.635, 由于P(K2≥36.636)≈0.01, ∴有99%的把握认为常上网与高度近视有关。 故选:C。 类型二、线性回归方程 例3.(2019 石嘴山校级二模)已知x、y取值如表: 画散点图分析可知:y与x线性相关,且求得回归方程为,则m的值(精确到0.1)为( ) A.1.5 B.1.6 C.1.7 D.1.8 【答案】C 【思路点拨】将代入回归方程为可得,则4m=6.7,即可得出结论。 【解析】将代入回归方程为可得,则4m=6.7,解得m=1.675, 即精确到0.1后m的值为1.7。 故选C。 【总结升华】线性回归直线一定过样本中心点,即 。 举一反三: 【变式】(2019·福建模拟)已知x与y之间的一组数据,则y与x的线性回归方程必过点( ) A.(2,2) B.(1,2) C.(1.5,4) D.(1.5,0) 【答案】C 【解析】回归方程必过点, ∵,, ∴回归方程过点(1.5,4)。 故选:C 类型三、线性相关及回归方程的应用 例4.(2019 河南二模 )下列说法错误的是( ) A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系; B.在线性回归分析中,相关系数的值越大,变量间的相关性越强; C.在残差图中,残差点分布的带状区域的宽度约狭窄,其模型拟合的精度越高; D.在回归分析中,为0.98的模型比为为0.80的模型拟合的效果好。 【答案】B 【思路点拨】A根据相关关系的定义,判断命题A正确; B线性回归分析的相关关系的绝对值越接近1,线性相关性越强,判断命题B错误; C一组数据拟合程度的好坏,是残差点分布的带状区域宽度越狭窄,其模型拟合的精度越高,判断命题C正确; D用相关指数刻画回归效果时,的值越大说明模型拟合效果越好,由此判断命题D正确。 【解析】对于A,根据相关关系的定义,即可判断自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系是相关关系,所以命题A正确; 对于B,线性回归分析中,相关系数的绝对值接近1,两个变量的线性相关性越强,反之,线性相关性越弱,所以命题B错误; 对于C,残差图中,对于一组数据拟合程度的好坏评价,是残差点分布的带状区域宽度越狭窄,其模型拟合的精度越高,所以命题C正确; 对于D,回归分析中,用相关指数刻画回归效果时,的值越大说明模型拟合效果越好,所以为0.98的模型比为0.80的模型拟合效果好,命题D正确。 故选:B 【总结升华】本题考查了“残差”的意义、相关指数的意义,也考查了理解能力和推理能力的应用问题。 举一反三: 【变式1】(2018秋 金台区校级期末)对于线性相关系数r,下列说法正确的是( ) A.|r|∈(-∞,+∞),|r|越大,相关程度越大;反之,相关程度越小 B.|r|≤1,r越大,相关程度越大;反之,相关程度越小 C.|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小 D.以上说法都不正确 【答案】选项A:线性相关系数r在[-1,1]之间,故不正确; 选项B:|r|越大,相关程度越大;反之,相关程度越小;故不正确; 故选C正确; 故选C。 【总结升华】本题考查了线性相关系数,-1≤r≤1,趋近1时线性相关越强,且是正相关,趋近-1时线性相关越强,且是负相关,趋近0时相关程度越小。 【变式2】(2015春 重庆期末)在两个变量y与x的回归模型中,分别选择了四个不同的模型,且它们的R2的值的大小关系为:R2模型3<R2模型4<R2模型1<R2模型2,则拟合效果最好的是( ) A.模型1 B.模型2 C.模型3 D.模型4 【思路点拨】两个变量y与x的回归模型中,它们的相关指数R2,越接近于1,这个模型的似合效果越好,即R2越大,这个模型的拟合效果越好,进而得到答案。 【解析】两个变量y与x的回归模型中, 它们的相关指数R2,越接近于1,这个模型的拟合效果越好, 即R2越大,这个模型的拟合效果越好, ∵R2模型3<R2模型4<R2模型1<R2模型2 故拟合效果最好的是模型2, 故选B 例5.(2015 新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响。对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值。 表中 (Ⅰ)根据散点图判断,y=ax+bx与哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程: (Ⅲ)已知这种产品的年利润z与x,y的关系为z=0.2y-x,根据(Ⅱ)的结果回答下列问题: (ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二估计分别为 【答案】(Ⅰ) (Ⅱ)68 (Ⅲ)(i)576.6千元和66.32千元 (ii)当即x=46.24时,年利润的预报值最大. 【思路点拨】(1)根据散点图得到变量之间的相关关系。 (2)根据公式得到线性回归方程的系数,再转化得到y与x之间的回归方程. (3)代入回归方程运算即可 【解析】(Ⅰ)适宜作为y关于x的回归方程类型. (Ⅱ) 回归方程为 (Ⅲ)(i)x=49时, 当宣传费为49千元时,年销售量及年利润预报值分别为576.6千元和66.32千元. (ii) 当即x=46.24时,年利润的预报值最大. 【总结升华】求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算. 举一反三: 【变式1】(2018 新课标Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 (Ⅰ)求y关于t的线性回归方程; (Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:, =-. 【答案】(Ⅰ)由题意,=(1+2+3+4+5+6+7)=4,(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3, ∴==0.5, =4.3-0.5×4=2.3. ∴y关于t的线性回归方程为=0.5t+2.3; (Ⅱ)由(Ⅰ)知,b=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元. 将2015年的年份代号t=9代入=0.5t+2.3,得:=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元. 【变式2】已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜年平均产量yt之间的关系有如下数据: 年份 1985 1986 1987 1988 1989 1990 1991 1992 x(kg) 70 74 80 78 85 92 90 95 y(t) 5.1 6.0 6.8 7.8 9.0 10.2 10.0 12.0 年份 1993 1994 1995 1996 1997 1998 1999 x(kg) 92 108 115 123 130 138 145 y(t) 11.5 11.0 11.8 12.2 12.5 12.8 13.0 (1)求x与y之间的相关系数,并检验是否线性相关; (2)若线性相关,求蔬菜产量y与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg时,每单位面积蔬菜的年平均产量. 【思路点拨】 (1)使用样本相关系数计算公式来完成; (2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界比较,若则线性相关,否则不线性相关. 【答案】 (1)列出下表,并用科学计算器进行有关计算: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 70 74 80 78 85 92 90 95 92 108 115 123 130 138 145 5.1 6.0 6.8 7.8 9.0 10.2 10.0 12.0 11.5 11.0 11.8 12.2 12.5 12.8 13.0 357 444 544 608.4 765 938.4 900 1140 1058 1188 1357 1500.6 1625 1766.4 1885 ,, ,,. 故蔬菜产量与放用氮肥量的相关系数 . 由于n=15,故自由度15-2=13. 由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值, 则, 从而说明蔬菜产量与氮肥量之间存在着线性相关关系. (2)设所求的回归直线方程为 则, , ∴回归直线方程为.查看更多