- 2021-04-17 发布 |
- 37.5 KB |
- 19页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2020版高中数学 第三章 统计案例
§3.1 回归分析的基本思想及其初步应用 学习目标 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤. 知识点一 线性回归模型 思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表: 推销员编号 1 2 3 4 5 工作年限x/年 3 5 6 7 9 推销金额y/万元 2 3 3 4 5 请问如何表示推销金额y与工作年限x之间的相关关系?y关于x的线性回归方程是什么? 答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系. 设所求的线性回归方程为=x+, 则===0.5, =-=0.4. 所以年推销金额y关于工作年限x的线性回归方程为=0.5x+0.4. 梳理 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. (3)对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),回归直线y=bx+a的斜率和截距的最小二乘估计公式分别为==, 19 =- ,其中(,)称为样本点的中心. (4)线性回归模型y=bx+a+e,其中a和b是模型的未知参数,e称为随机误差,自变量x称为解释变量,因变量y称为预报变量. 知识点二 线性回归分析 具有相关关系的两个变量的线性回归方程为=x+. 思考1 预报变量与真实值y一样吗? 答案 不一定. 思考2 预报值与真实值y之间误差大了好还是小了好? 答案 越小越好. 梳理 (1)残差平方和法 ①i=yi-i=yi-xi- (i=1,2,…,n)称为相应于点(xi,yi)的残差. ②残差平方和(yi-i)2越小,模型的拟合效果越好. (2)残差图法 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高. (3)利用相关指数R2刻画回归效果 其计算公式为:R2=1-,其几何意义:R2越接近于1,表示回归的效果越好. 知识点三 建立回归模型的基本步骤 1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量. 2.画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等). 3.由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程). 4.按一定规则(如最小二乘法)估计回归方程中的参数. 5.得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等. 1.求线性回归方程前可以不进行相关性检验.( × ) 2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ ) 3.利用线性回归方程求出的值是准确值.( × ) 19 类型一 求线性回归方程 例1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据: x 6 8 10 12 y 2 3 5 6 (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力. 考点 线性回归方程 题点 求线性回归方程 解 (1)如图: (2)iyi=6×2+8×3+10×5+12×6=158, ==9, ==4, =62+82+102+122=344, ===0.7, =-=4-0.7×9=-2.3, 故线性回归方程为=0.7x-2.3. 19 (3)由(2)中线性回归方程可知,当x=9时,=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4. 反思与感悟 (1)求线性回归方程的基本步骤 ①列出散点图,从直观上分析数据间是否存在线性相关关系. ②计算:,,,,iyi. ③代入公式求出=x+中参数,的值. ④写出线性回归方程并对实际问题作出估计. (2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义. 跟踪训练1 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计数据: x 2 3 4 5 6 y 2.2 3.8 5.5 6.5 7.0 由此资料可知y对x呈线性相关关系. (1)求线性回归方程; (2)求使用年限为10年时,该设备的维修费用为多少? 考点 线性回归方程 题点 求线性回归方程 解 (1)由上表中的数据可得 =4,=5,=90,iyi=112.3, ∴= ==1.23, ∴=-=5-1.23×4=0.08. ∴线性回归方程为=1.23x+0.08. (2)当x=10时,=1.23×10+0.08=12.38. 即使用年限为10年时,该设备的维修费用约为12.38万元. 19 类型二 回归分析 例2 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为: x 14 16 18 20 22 y 12 10 7 5 3 求出y对x的线性回归方程,并说明拟合效果的程度. 考点 残差分析与相关指数 题点 残差及相关指数的应用 解 =(14+16+18+20+22)=18, =(12+10+7+5+3)=7.4. =142+162+182+202+222=1 660, iyi=14×12+16×10+18×7+20×5+22×3=620, 可得回归系数= ==-1.15, 所以=7.4+1.15×18=28.1, 所以线性回归方程为=-1.15x+28.1. 列出残差表: yi-i 0 0.3 -0.4 -0.1 0.2 yi- 4.6 2.6 -0.4 -2.4 -4.4 则(yi-i)2=0.3,(yi-)2=53.2. R2=1-≈0.994. 所以回归模型的拟合效果很好. 19 反思与感悟 (1)该类题属于线性回归问题,解答此类题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R2来分析函数模型的拟合效果,在此基础上,借助线性回归方程对实际问题进行分析. (2)刻画回归效果的三种方法 ①残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适. ②残差平方和法:残差平方和(yi-i)2越小,模型的拟合效果越好. ③相关指数法:R2=1-越接近1,表明回归的效果越好. 跟踪训练2 关于x与y有如下数据: x 2 4 5 6 8 y 30 40 60 50 70 有如下的两个线性模型:(1)=6.5x+17.5;(2)=7x+17.试比较哪一个拟合效果更好. 考点 残差分析与相关指数 题点 残差及相关指数的应用 解 由(1)可得yi-i与yi-的关系如下表: yi-i -0.5 -3.5 10 -6.5 0.5 yi- -20 -10 10 0 20 ∴(yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155, (yi-)2=(-20)2+(-10)2+102+02+202=1 000. ∴R=1-=1-=0.845. 由(2)可得yi-i与yi-的关系如下表: yi-i -1 -5 8 -9 -3 yi- -20 -10 10 0 20 19 ∴(yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180, (yi-)2=(-20)2+(-10)2+102+02+202=1 000. ∴R=1-=1-=0.82. 由于R=0.845,R=0.82,0.845>0.82, ∴R>R. ∴(1)的拟合效果好于(2)的拟合效果. 例3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值. (xi-)2 (wi-)2 (xi-) ·(yi-) (wi-) ·(yi-) 46.6 563 6.8 289.8 1.6 1 469 108.8 表中wi=,=i. (1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立y关于x的回归方程; (3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题: ①年宣传费x=49时,年销售量及年利润的预报值是多少? ②年宣传费x为何值时,年利润的预报值最大? 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为 19 =,=- . 考点 非线性回归分析 题点 非线性回归分析 解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型. (2)令w=,先建立y关于w的线性回归方程. 由于===68, =-=563-68×6.8=100.6, 所以y关于w的线性回归方程为=100.6+68w, 因此y关于x的回归方程为=100.6+68. (3)①由(2)知,当x=49时, 年销售量y的预报值=100.6+68=576.6, 年利润z的预报值=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z的预报值 =0.2(100.6+68)-x=-x+13.6+20.12. 所以当==6.8, 即x=46.24时,取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大. 反思与感悟 求非线性回归方程的步骤 (1)确定变量,作出散点图. (2)根据散点图,选择恰当的拟合函数. (3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程. 跟踪训练3 在一次抽样调查中测得样本的5个样本点,数值如下表: 19 x 0.25 0.5 1 2 4 y 16 12 5 2 1 试建立y与x之间的回归方程. 考点 非线性回归分析 题点 非线性回归分析 解 由数值表可作散点图如图, 根据散点图可知y与x近似地呈反比例函数关系, 设=,令t=,则=kt,原数据变为: t 4 2 1 0.5 0.25 y 16 12 5 2 1 由置换后的数值表作散点图如下: 由散点图可以看出y与t呈近似的线性相关关系,列表如下: i ti yi tiyi t 1 4 16 64 16 2 2 12 24 4 3 1 5 5 1 4 0.5 2 1 0.25 5 0.25 1 0.25 0.062 5 ∑ 7.75 36 94.25 21.312 5 所以=1.55,=7.2. 19 所以=≈4.134 4, =-≈0.8. 所以=4.134 4t+0.8. 所以y与x之间的回归方程是=+0.8. 1.下列两个变量之间的关系不是函数关系的是( ) A.角度和它的余弦值 B.正方形的边长和面积 C.正n边形的边数和内角度数和 D.人的年龄和身高 考点 回归分析 题点 回归分析的概念和意义 答案 D 解析 函数关系就是变量之间的一种确定性关系.A,B,C三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f(θ)=cos θ,g(a)=a2,h(n)=(n-2)π.D选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D. 2.设有一个线性回归方程=2-1.5x,当变量x增加1个单位时( ) A.y平均增加1.5个单位 B.y平均增加2个单位 C.y平均减少1.5个单位 D.y平均减少2个单位 考点 线性回归分析 题点 线性回归方程的应用 答案 C 解析 由回归方程中两个变量之间的关系可以得到. 3.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( ) 19 A.①② B.①③ C.②③ D.③④ 考点 回归分析 题点 回归分析的概念和意义 答案 B 解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型. 4.某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示: x 16 17 18 19 y 50 34 41 31 由上表可得回归直线方程=x+中的=-5,据此模型预测当零售价为14.5元时,每天的销售量为( ) A.51个 B.50个 C.54个 D.48个 考点 线性回归分析 题点 线性回归方程的应用 答案 C 解析 由题意知=17.5,=39,代入回归直线方程得=126.5,126.5-14.5×5=54,故选C. 5.已知x,y之间的一组数据如下表: x 0 1 2 3 y 1 3 5 7 19 (1)分别计算:,,x1y1+x2y2+x3y3+x4y4,x+x+x+x; (2)已知变量x与y线性相关,求出线性回归方程. 考点 线性回归方程 题点 求线性回归方程 解 (1)==1.5,==4, x1y1+x2y2+x3y3+x4y4=0×1+1×3+2×5+3×7=34, x+x+x+x=02+12+22+32=14. (2)==2, =- =4-2×1.5=1, 故线性回归方程为=2x+1. 回归分析的步骤: (1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; (2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等); (3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程=x+); (4)按一定规则估算回归方程中的参数; (5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等. 一、选择题 1.对于线性回归方程=x+ (>0),下列说法错误的是( ) A.当x增加一个单位时,的值平均增加个单位 B.点(,)一定在=x+所表示的直线上 C.当x=t时,一定有y=t+ D.当x=t时,y的值近似为t+ 19 考点 线性回归分析 题点 线性回归方程的应用 答案 C 解析 线性回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上. 2.给定x与y的一组样本数据,求得相关系数r=-0.690,则( ) A.y与x的线性相关性很强 B.y与x的相关性很强 C.y与x正相关 D.y与x负相关 考点 线性相关系数 题点 线性相关系数的应用 答案 D 解析 因为r<0,所以y与x负相关,又|r|∈[0.75,1]才表示y与x具有很强的线性相关性,所以选D. 3.某校小卖部为了了解奶茶销售量y(杯)与气温x(℃)之间的关系,随机统计了某4天卖出的奶茶杯数与当天的气温,得到下表中的数据,并根据该样本数据用最小二乘法建立了线性回归方程=-2x+60,则样本数据中污损的数据y0应为( ) 气温x(℃) -1 13 10 18 杯数y y0 34 38 24 A.58 B.64 C.62 D.60 考点 线性回归分析 题点 线性回归方程的应用 答案 B 解析 由表中数据易知=10,代入=-2x+60中,得=40.由=40,得y0=64. 4.已知变量x与y负相关,且由观测数据求得样本平均数=3,=3.5,则由该观测数据求得的线性回归方程可能是( ) A.=-2x+9.5 B.=2x-2.4 C.=-0.3x-4.4 D.=0.4x+2.3 考点 线性回归方程 19 题点 求线性回归方程 答案 A 解析 因为变量x与y负相关,所以排除B,D,将样本平均数=3,=3.5代入选项验证可知,选项A符合题意. 5.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( ) 考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 A 解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 6.根据如下样本数据 x 3 4 5 6 7 8 y 4.0 2.5 -0.5 0.5 -2.0 -3.0 得到的回归方程为=x+,则( ) A.>0,>0 B.>0,<0 C.<0,>0 D.<0,<0 考点 线性回归分析 题点 线性回归方程的应用 答案 B 解析 作出散点图如下: 19 观察图象可知,回归直线=x+的斜率<0, 当x=0时,=>0.故>0,<0. 7.已知某地的财政收入x与支出y满足线性回归方程y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|≤0.5,如果今年该地区的财政收入为10亿元,那么年支出预计不会超过( ) A.9亿元 B.10亿元 C.9.5亿元 D.10.5亿元 考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 D 解析 y=0.8×10+2+e=10+e≤10.5. 8.下列数据符合的函数模型为( ) x 1 2 3 4 5 6 7 8 9 10 y 2 2.69 3 3.38 3.6 3.8 4 4.08 4.2 4.3 A.y=2+x B.y=2ex C.y=2 D.y=2+ln x 考点 非线性回归分析 题点 非线性回归分析 答案 D 解析 分别将x值代入解析式判断知满足y=2+ln x. 9.为了考查两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用最小二乘法求得的回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法中正确的是( ) A.l1与l2有交点(s,t) B.l1与l2相交,但交点不一定是(s,t) 19 C.l1与l2必定平行 D.l1与l2必定重合 考点 线性回归方程 题点 样本点中心的应用 答案 A 解析 回归直线l1,l2都过样本点的中心(s,t),但它们的斜率不确定,故选项A正确. 二、填空题 10.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为________. 考点 线性相关系数 题点 线性相关系数的应用 答案 1 解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1. 11.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R2为________. 考点 线性相关系数 题点 线性相关系数的应用 答案 0.25 解析 R2=1-=0.25. 12.已知一个线性回归方程为=1.5x+45,x∈{1,5,7,13,19},则=________. 考点 线性回归方程 题点 样本点中心的应用 答案 58.5 解析 ∵==9,且=1.5x+45, ∴=1.5×9+45=58.5. 13.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y=ebx+a的周围.令=ln y,求得线性回归方程为=0.25x-2.58,则该模型的回归方程为________. 考点 非线性回归分析 题点 非线性回归分析 答案 y=e0.25x-2.58 19 解析 因为=0.25x-2.58,=ln y, 所以y=e0.25x-2.58. 三、解答题 14.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下: 零件的个数x(个) 2 3 4 5 加工的时间y(小时) 2.5 3 4 4.5 (1)在给定的坐标系中画出表中数据的散点图; (2)求出y关于x的线性回归方程=x+,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间? (注:=,=-) 考点 线性回归方程 题点 求线性回归方程 解 (1)散点图如图. (2)由表中数据得iyi=52.5, =3.5,=3.5,=54, 19 所以===0.7, 所以=- =3.5-0.7×3.5=1.05. 所以=0.7x+1.05. 回归直线如图中所示. (3)将x=10代入回归直线方程,得=0.7×10+1.05=8.05, 所以预测加工10个零件需要8.05小时. 四、探究与拓展 15.甲、乙、丙、丁4位同学各自对A,B两变量进行回归分析,分别得到散点图与残差平方和(yi-i)2如下表: 甲 乙 丙 丁 散点图 残差平方和 115 106 124 103 以上的试验结果体现拟合A,B两变量关系的模型拟合精度高的是( ) A.甲 B.乙 C.丙 D.丁 考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 D 解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R2的表达式中(yi-)2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些. 16.为了研究某种细菌随时间x变化繁殖个数y的变化情况,收集数据如下: 时间x(天) 1 2 3 4 5 6 繁殖个数y 6 12 25 49 95 190 (1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图; (2)求y与x之间的回归方程; (3)计算相关指数R2,并描述解释变量与预报变量之间的关系. 19 考点 非线性回归分析 题点 非线性回归分析 解 (1)散点图如图所示: (2)由散点图看出样本点分布在一条指数曲线y=c1ec2x的周围,于是令z=ln y,则 x 1 2 3 4 5 6 z 1.79 2.48 3.22 3.89 4.55 5.25 所以=0.69x+1.115,则有=e0.69x+1.115. (3) 6.08 12.12 24.17 48.18 96.06 191.52 y 6 12 25 49 95 190 =(yi-)2=4.816 1, (yi-)2≈-62≈24 642.83, R2=1-≈1-≈0.999 8, 即时间解释了99.98%的细菌繁殖个数的变化. 19查看更多