- 2021-04-20 发布 |
- 37.5 KB |
- 14页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
高考复习正态分布与线性回归
正态分布专题训练 ㈠ 知识点回顾: (1)正态分布概念:若连续型随机变量的概率密度函数为,其中为常数,且,则称服从正态分布,简记为~。的图象称为正态曲线。 (2)、正态分布的期望与方差:若~,则 标准正态分布曲线 (3)、正态曲线的性质: ①曲线在x轴的上方,与x轴不相交. ②曲线关于直线x=μ对称. ③曲线在x=μ时位于最高点. ④当x<μ时,曲线上升;当x>μ时,曲线下降.并且当曲线向左、右两边无限延伸时,以x轴为渐进线,向它无限靠近. ⑤当μ一定时,曲线的形状由σ确定.σ越大,曲线越“矮胖”,表示总体的分布越分散;σ越小,曲线越“瘦高”,表示总体的分布越集中. (4)、在标准正态分布表中相应于的值是指总体取值小于的概率即 时,则的值可在标准正态分布表中查到 时,可利用其图象的对称性获得来求出, (5)两个重要公式:① ② x y O (6)、与的关系: ①若~,则~,有 ②若~,则 小概率事件的含义:发生概率一般不超过5%的事件,即事件在一次试验中几乎不可能发生 假设检验方法的基本思想:首先,假设总体应是或近似为正态总体,然后,依照小概率事件几乎不可能在一次试验中发生的原理对试验结果进行分析 假设检验方法的操作程序,即“三步曲” 一是提出统计假设,教科书中的统计假设总体是正态总体; 二是确定一次试验中的a值是否落入(μ-3σ,μ+3σ); 三是作出判断 相关关系:当自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系 相关关系与函数关系的异同点如下: 相同点:均是指两个变量的关系 不同点:函数关系是一种确定的关系;而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系;而相关关系是非随机变量与随机变量的关系. 回归分析一元线性回归分析: 对具有相关关系的两个变量进行统计分析的方法叫做回归分析 通俗地讲,回归分析是寻找相关关系中非确定性关系的某种确定性 对于线性回归分析,我们要注意以下几个方面: (1)回归分析是对具有相关关系的两个变量进行统计分析的方法。两个变量具有相关关系是回归分析的前提。 (2)散点图是定义在具有相关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析。 (3)求回归直线方程,首先应注意到,只有在散点图大至呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。 散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图.散点图形象地反映了各对数据的密切程度 粗略地看,散点分布具有一定的规律 回归直线 设所求的直线方程为,其中a、b是待定系数. , , 相应的直线叫做回归直线,对两个变量所进行的上述统计分析叫做回归分析 相关系数:相关系数是因果统计学家皮尔逊提出的,对于变量y与x的一组观测值,把 = 叫做变量y与x之间的样本相关系数,简称相关系数,用它来衡量两个变量之间的线性相关程度. 相关系数的性质: ≤1,且越接近1,相关程度越大;且越接近0,相关程度越小. 显著性水平:显著性水平是统计假设检验中的一个概念,它是公认的小概率事件的概率值 它必须在每一次统计检验之前确定 显著性检验:(相关系数检验的步骤)由显著性水平和自由度查表得出临界值,显著性水平一般取0.01和0.05,自由度为n-2,其中n是数据的个数 在“相关系数检验的临界值表”查出与显著性水平0.05或0.01及自由度n-2(n为观测值组数)相应的相关数临界值r0 05或r0 01;例如n=7时,r0.05=0.754,r0.01=0.874 求得的相关系数r和临界值r0.05比较,若r>r0.05,上面y与x是线性相关的,当≤r0 05或r0 01,认为线性关系不显著 讨论若干变量是否线性相关,必须先进行相关性检验,在确认线性相关后,再求回归直线;通过两个变量是否线性相关的估计,实际上就是把非确定性问题转化成确定性问题来研究;我们研究的对象是两个变量的线性相关关系,还可以研究多个变量的相关问题,这在今后的学习中会进一步学到 题型讲解 例1 已知连续型随机变量ζ的概率密度函数 ,且f(x) ≥0,求常数k的值,并计算概率P(1.5≤<2.5)。 分析:凡是计算连续型随机变量的密度函数f(x)中的参数、概率P(a≤≤b)都需要通过求面积来转化而求得。若f(x) ≥0且在[a,b]上为线性,那么P(a≤≤b)的值等于以b-a为高,f(a)与f(b)为上、下底的直角梯形的面积,即。 解: ∵ ∴; ∴。 例2 设,且总体密度曲线的函数表达式为: ,x∈R。 (1)求μ,σ; (2)求及的值。 分析:根据表示正态曲线函数的结构特征,对照已知函数求出μ和σ。利用一般正态总体与标准正态总体N(0,1)概率间的关系,将一般正态总体划归为标准正态总体来解决。 解:(1)由于, 根据一般正态分布的函数表达形式,可知μ=1,,故X~N(1,2)。 (2) 。 又 。 点评:在解决数学问题的过程中,将未知的,不熟悉的问题转化为已知的、熟悉的、已解决了的问题,是我们常用的手段与思考问题的出发点。通过本例我们还可以看出一般正态分布与标准正态分布间的内在关联。 例3 某中学有1000人参加并且高考数学成绩近似地服从正态分布,求此校数学成绩在120分以上的考生人数。(ф(2)≈0.977) 解:用表示此中学数学高考成绩,则 120分以上的考生人数为1000×0.023=23 点评:通过公式转化成标准正态总体,然后查标准正态分布表即可 例4 将温度调节器放置在贮存着某种液体的容器内,调节器设定在d ℃,液体的温度ξ(单位:℃)是一个随机变量,且ξ~N(d,0.52). (1)若d=90°,求ξ<89的概率; (2)若要保持液体的温度至少为80 ℃的概率不低于0.99,问d至少是多少? (其中若η~N(0,1),则Φ(2)=P(η<2)=0.9772,Φ(-2.327)=P(η<-2.327)=0.01). 分析:(1)要求P(ξ<89)=F(89), ∵ξ~N(d,0.5)不是标准正态分布,而给出的是Φ(2),Φ(-2.327),故需转化为标准正态分布的数值. (2)转化为标准正态分布下的数值求概率p,再利用p≥0.99,解d. 解:(1)P(ξ<89)=F(89)=Φ() =Φ(-2)=1-Φ(2)=1-0.9772=0.0228. (2)由已知d满足0.99≤P(ξ≥80), 即1-P(ξ<80)≥1-0.01,∴P(ξ<80)≤0.01. ∴Φ()≤0.01=Φ(-2.327). ∴≤-2.327. ∴d≤81.1635. 故d至少为81.1635. 点评:(1)若ξ~N(0,1),则η=~N(0,1).(2)标准正态分布的密度函数f(x)是偶函数,x<0时,f(x)为增函数,x>0时,f(x)为减函数. 例5 在实际生活中,常用统计中假设检验的思想检验产品是否合格,方法是: (1)提出统计假设:某种指标服从正态分布N(μ,σ2); (2)确定一次试验中的取值a; (3)作出统计推断:若a∈(μ-3σ,μ+3σ),则接受假设,若a(μ-3σ,μ+3σ),则拒绝假设. 某砖瓦厂生产的砖的“抗断强度”ξ服从正态分布N(30,0.8),质检人员从该厂某一天生产的1000块砖中随机抽查一块,测得它的抗断强度为27.5 kg/cm2,你认为该厂这天生产的这批砖是否合格?为什么? 解:由于在一次试验中ξ落在区间(μ-3σ,μ+3σ)内的概率为0.997,故ξ几乎必然落在上述区间内. 于是把μ=30,σ=0.8代入, 算出区间(μ-3σ,μ+3σ)=(27.6,32.4), 而27.5(27.6,32.4) .∴据此认为这批砖不合格. 例6 已知测量误差ξ~N(2,100)(cm),必须进行多少次测量,才能使至少有一次测量误差的绝对值不超过8 cm的频率大于0.9? 解:设η表示n次测量中绝对误差不超过8 cm的次数,则η~B(n,p). 其中P=P(|ξ|<8)=Φ()-Φ()=Φ(0.6)-1+Φ(1)=0.7258-1+0.8413=0.5671. 由题意,∵P(η≥1)>0.9,n应满足P(η≥1)=1-P(η=0)=1-(1-p)n>0.9, ∴n>==2.75. 因此,至少要进行3次测量,才能使至少有一次误差的绝对值不超过8 cm的概率大于0.9. 例7 已知某地每单位面积菜地年平均使用氮肥量xkg与每单位面积蔬菜年平均产量yt之间的关系有如下数据: 年份 1985 1986 1987 1988 1989 1990 1991 1992 x(kg) 70 74 80 78 85 92 90 95 y(t) 5.1 6.0 6.8 7.8 9.0 10.2 10.0 12.0 年份 1993 1994 1995 1996 1997 1998 1999 x(kg) 92 108 115 123 130 138 145 y(t) 11.5 11.0 11.8 12.2 12.5 12.8 13.0 (1)求x与y之间的相关系数,并检验是否线性相关; (2)若线性相关,求蔬菜产量y与使用氮肥量之间的回归直线方程,并估计每单位面积施肥150kg时,每单位面积蔬菜的年平均产量。 分析:(1)使用样本相关系数计算公式来完成;(2)查表得出显著性水平0.05与自由度15-2相应的相关系数临界比较,若则线性相关,否则不线性相关。 解:(1)列出下表,并用科学计算器进行有关计算: i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 70 74 80 78 85 92 90 95 92 108 115 123 130 138 145 5.1 6.0 6.8 7.8 9.0 10.2 10.0 12.0 11.5 11.0 11.8 12.2 12.5 12.8 13.0 357 444 544 608.4 765 938.4 900 1140 1058 1188 1357 1500.6 1625 1766.4 1885 ,, ,,。 故蔬菜产量与放用氮肥量的相关系数 。 由于n=15,故自由度15-2=13。 由相关系数检验的临界值表查出与显著水平0.05及自由度13相关系数临界值,则, 从而说明蔬菜产量与氮肥量之间存在着线性相关关系。 (2)设所求的回归直线方程为,则, , ∴回归直线方程为。 点评:求解两个变量的相关系数及它们的回归直线方程的计算量较大,需要细心、谨慎地计算。如果会使用含统计的科学计算器,能简单得到,,,,这些量,也就无需有制表这一步,直接算出结果就行了。另外,利用计算机中有关应用程序也可以对这些数据进行处理。 例8 假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料: x 2 3 4 5 6 y 2.2 3.8 5.5 6.5 7.0 若由资料可知y对x呈线性相关关系。试求: (1)线性回归方程; (2)估计使用年限为10年时,维修费用是多少? 分析:本题为了降低难度,告诉了y与x间呈线性相关关系,目的是训练公式的使用。 解:(1)列表如下: i 1 2 3 4 5 2 3 4 5 6 2.2 3.8 5.5 6.5 7.0 4.4 11.4 22.0 32.5 42.0 4 9 16 25 36 , , , 于是, 。 ∴线性回归方程为:。 (2)当x=10时,(万元) 即估计使用10年时维修费用是12.38万元。 点评:本题若没有告诉我们y与x间是呈线性相关的,应首先进行相关性检验。如果本身两个变量不具备线性相关关系,或者说它们之间相关关系不显著时,即使求出回归方程也是没有意义的,而且其估计与预测也是不可信的。 小结: 1.频率分布随着样本容量的增大更加接近总体分布,当样本容量无限增大且分组的组距无限缩小时,频率分布直方图就会演变成一条光滑曲线——反映总体分布的频率密度曲线,基于频率分布与相应的总体分布的关系,且通常我们并不知道一个总体的分布,因此,我们往往是从总体中抽取一个样本,用样本的频率分布去估计相应的总体分布. 2.统计中假设检验的基本思想是:根据小概率事件在一次试验中几乎不可能发生的原理和从总体中抽测的个体的数值,对事先所作的统计假设作出判断:是拒绝假设,还是接受假设. 学生练习 1.下面哪有个数不为总体特征数的是(D) A.总体平均数B.总体方差C.总体标准差D.总体样本 答案:D 2.设随机变量服从二项分布B(6,),则P(=3)=(A) A. B. C. D. 答案:A 3.设随机变量ξ~N(μ,σ),且P(ξ≤C)=P(ξ>C),则C等于 A.0 B.σ C.-μ D.μ 解析:由正态曲线的图象关于直线x=μ对称可得答案为D. 答案:D 4.如果随机变量ξ~N(μ,σ2),且Eξ=3,Dξ=1,则P(-1<ξ≤1)等于 A.2Φ(1)-1 B.Φ(4)-Φ(2) C.Φ(2)-Φ(4) D.Φ(-4)-Φ(-2) 解析:对正态分布,μ=Eξ=3,σ2=Dξ=1,故P(-1<ξ≤1)=Φ(1-3)-Φ(-1-3)=Φ(-2)-Φ(-4)=Φ(4)-Φ(2). 答案:B 5.某厂生产的零件外直径ξ~N(8.0,1.52)(mm),今从该厂上、下午生产的零件中各随机取出一个,测得其外直径分别为7.9 mm和7.5 mm,则可认为 A.上、下午生产情况均为正常 B.上、下午生产情况均为异常 C.上午生产情况正常,下午生产情况异常 D.上午生产情况异常,下午生产情况正常 解析:根据3σ原则,在8+3×1.5=8.45(mm)与8-3×1.5=7.55(mm)之外时为异常. 答案:C 6.随机变量ξ服从正态分布N(0,1),如果P(ξ<1)=0.8413,求P(-1<ξ<0). 解:∵ξ~N(0,1),∴P(-1<ξ<0)=P(0<ξ<1)=Φ(1)-Φ(0)=0.8413-0.5=0.3413. 7.公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的,如果某地成年男子的身高ξ~N(173,72)(cm),问车门应设计多高? 解:设公共汽车门的设计高度为x cm,由题意,需使P(ξ≥x)<1%. ∵ξ~N(173,72),∴P(ξ≤x)=Φ()>0.99. 查表得>2.33,∴x>189.31,即公共汽车门的高度应设计为190 cm,可确保99%以上的成年男子头部不跟车门顶部碰撞. 8.一投资者在两个投资方案中选择一个,这两个投资方案的利润x(万元)分别服从正态分布N(8,32)和N(6,22),投资者要求利润超过5万元的概率尽量地大,那么他应选择哪一个方案? 解:对第一个方案,有x~N(8,32), 于是P(x>5)=1-P(x≤5)=1-F(5)=1-Φ() =1-Φ(-1)=1-[1-Φ(1)]=Φ(1)=0.8413. 对第二个方案,有x~N(6,22), 于是P(x>5)=1-P(x≤5)=1-F(5)=1-Φ() =1-Φ(-0.5)=Φ(0.5)=0.6915. 相比之下,“利润超过5万元”的概率以第一个方案为好,可选第一个方案. 9.为考虑广告费用x与销售额y之间的关系,抽取了5家餐厅,得到如下数据: 广告费用(千元) 1.0 4.0 6.0 10.0 14.0 销售额(千元) 19.0 44.0 40.0 52.0 53.0 现要使销售额达到6万元,则需广告费用为_____(保留两位有效数字) 解析:先求出回归方程=bx+a,令=6,得x=1.5万元. 答案:1.5万元 10.设随机变量ε服从N(0,1),求下列各式的值: (1)P(ε≥2.55); (2)P(ε<-1.44); (3)P(|ε|<1.52)。 分析:一个随机变量若服从标准正态分布,可以借助于标准正态分布表,查出其值。但在标准正态分布表中只给出了,即的情形,对于其它情形一般用公式:φ(-x)=1-φ(x);p(a查看更多
相关文章
- 当前文档收益归属上传用户
- 下载本文档