- 2023-06-28 发布 |
- 37.5 KB |
- 38页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
第10章 相关与回归分析
第十章 相关与回归分析 10.1 概述 一、回归预测的含义 回归 (Regression) 一词是由生物学相关概念引申而来 , 它是英国生物学家高尔顿 ( F.Galton 〉 用来描述遗传变异现象的术语。 1889 年他在 《 普用回归定律 》 一文中指出:每个人的特点和他的亲属有相似之处,但平均地说在程度上有一定的差异。他的朋友皮尔逊后来对 1078 个家庭进行了调查,发现个子高的父母比矮的父母趋向于生育个子高的子女,但是从平均数看,父母高 , 他们的子女不一定像父母那样高 , 反之也不像 其父母那样矮。这种现象便称之为回归。后来这个名词被广泛用来表示变量间的数量 关系。 回归分析 : 就是研究某一个随机变量 ( 因变量 ) 与其他一或几个变量 ( 自变量 ) 之间的数量变动关系 , 由回归分析求出的关系式通常称为回归模型。 回归分析预测法 : 就是从各种经济现象之间的相互关系出发 , 通过对与预测对象有联系的现象变动趋势的分析 , 推算预测对象未来状态数量表现的一种预测法。 二、回归预测的分类 两个变量之间就其关系变化来说 , 可以表现为两种数学模型形式 , 即函数型关系和统计型关系 . 如果用 x 表示自变量 ,y 表示因变量,同时 x 和 y 的关系在一定条件下是完全确定的,那就是函数关系。反之,则是统计型关系。 在社会经济现象中,一个变量 和另一变量尽管有密切的关系,但是由于受到众多的难以控制的因素的影响,实际观察得到的数据并不能构成函数关系。例如,企业的年销售额 y 与变量 x( 人均收入、利率 的变化、产品的市场竞争状况、季节的变化及原材料的供应等 ) 对应的关系会形成一个统计分布。随自变量 x 的变化,因变量也随之有一个随机变化结果。其变化的结果所对应的曲线模型有正线性关系、负线性关系、元数量关系、向下抛物线关系、上升指数曲 线关系及下降指数曲线关系等。 在回归分析中,如果研究的因果关系涉及两个变量就叫做一元回归分析或单回归分析;如果涉及两个以上的变量,则叫做多元回归分析或复回归分析。如果变量之间的相关关系呈线性变化,则叫线性回归;如果变量之间的相关关系呈非线性变化,则叫非线性回归。 三、回归预测的一般程序 确立相关因素:相关因素又称相关变量,它是回归分析的基础。相关变量选择得准确与否会直接影响回归预测结果的准确性。 建立数学模型:根据已知的数据资料,找出变量之间相关关系的类型,选择与其最为吻合的数学模型,代入已知数据并经过数学运算,求得有关系数或参数,从而建立预测的数学模型。 检验和评价数学模型:建立的数学模型是否正确,必须用一套数理统计方法来加以检验,并测量其误差大小和精确 ( 或近似 ) 程度。 运用模型进行预测:数学模型经检验后如果正确,即用所建的数学模型进行预测和控制。 10.2 一元线性回归方程 一、一元线性回归预测方程 如果影响预测对象的主要因素只有一个,并且它们之间呈线性关系,那么可采用简单回归分析法预测。由于这种方法只涉及一个自变量,故其又称为一元线性回归分析法。 设一元线性回归方程为 : y i = a+b x i +e i (i=1,2, … , n) 式中 ,n 为样本容量; α 为回归常数; b 为回归系数 , 即回归直线的斜率; e i 为残差值 , 又称回归余项 , e i 的平均值为零 , 其中每个 e i 的分布方差相同,它是用 a+b x i 估计因变量 y i 的数值所造成的,它是估计值与实际数值之间的离差 , 即 ei = y i - ý i 。 实际预测时,残差项的是无法预测的 , 其目的只是借助 a+b x i 得到预测对象 yi 的估计值 , 所以预测模型为 : ý i = a+b x i 式中, ý i 为预测值 ( 又称为估计值 ) a 为回归常数 ; b 为回归系数。 二、最小二乘法 (式10-1) (式10-1) 用上述方程在预测前 , 还得先知道自变量的取值。 如 该地 2004 年人均收入的预测值为 560 元 , 则该地区 2002年耐用消费品销售额的预测值为 : ý i 2004 = 0.2568+2.9303 × 5.6 = 166.7( 万元 ) 这里得到的 166.7 万元是一个点预测值 , 实际上的数值也许高于它 , 也许比它低 。 因此在进行回归预测时 , 总是在点预测为中心的基础上 , 在一定的可能性( 即概率 )下 , 给一个预测区间 ( 又称为置信区间 ) 。 若要计算点预测的置信区间 , 就要计算点预测值误差的标准差。 三、一元线性回归预测的置信区间 在 回归分析中 由于总体关系有一定程度的变异 , 从实际观察值所求得的回归线只是样本回归线。 a 和 b 就只能看做是总体回归系数 A 和 B 的估计值 , 不同的抽样就会有不同的 α 和 b , 也就是说有不同的样本回归线随机因素的存在表明 , 给定任何一个 x 值就可能有许多 y 的观察值。 进行回归分析时对于 y 的变异性是有前提假定的,这些假定是 : y 是一个随机变量 , 亦即 e 是随机变量 ; 给定一个 x 值时 , y 分布是正态的 ,影响 y 的其他因素的作用一般趋于互相抵消 , 因此 , E(e )=O ,y 的平均值就在给定 x 值的回归线上 ; 在任何 x 值上 , y 分布的方差 ( 及标准差 ) 相等。 一元线性回归标准差计算公式如下 : (式10-2) 置信区间 一元线性回归 的 置信 概率可查 t 分布的双侧检验表,取置信概率为1- α = 95% 时, t 0.05 =2.365 则预测区间为 : ý 土 t 0.05 ×S = 16.67 土2.365×0.659 = 151.11--182.28 即预测2004年耐用商品销售额在 151.11 万元至 182.28 万元的概率为 95% 。 预测 区间的大小与置信概率的大小为同向关系 , 概率取得越高 , 预测区间就越大。但是如果预测区间过宽 , 就会使预测结果失去意义。 一、二元线性回归 设某国每年小麦出口量的增长率和该年小麦产量的增长率及 出口税率有线性关系 , 其 1994-2003 年的样本数据如图表所示。 利用图表 144 的数据 , 求样 本 回归方程 : 解 : 为了确定回归系数要求先求回归方程 , 为此 , 需要用 1994-2003 年小麦出口量年增长率与产量年增长率及出口税率回归分析计算表 : 10.4 回归模型的统计检验 一 . 简单相关检验 变量与之间是否存在线性相关的问题 , 可以通过散点图用目测的方法解决 , 但既不精确也不方便。现在用一种量化指标,来较精确地描述两变量间的线性相关的密切程度,这个指标称为简单相关系数- r ,其计算公式是: 二 、 F 检验 要判定回归方程在整体上是否显著成立 , 即用所配合的回归方程来解释因变量的变化是否有效 , 此时可用 F 检验法 。 F 检验法的步骤如下 : 计算剩余平方和 S 余 : S 余 = Σ( y i - ý i ) 2 式中 , y i 为观察值 , ý i 为拟合值 2 . 计算回归平方和 S 回 : S 回 = Σ( y i - y i ) 2 3. 计算统计量 F 的值 : F= S 回 / m/ S 余 / ( n-m-1) 式中 m 为回归方程中自变量个数。 4. 查表检验显著性 : 按显著性水平 α 查 F 分布表 , 得到临界值 F α , 如果 F> F α , 则认为回归效果显著 , 否则即认为回归效果不显著。 对 上 例的回归方程做 F 检验 1. 计算剩余平方和 : S 余 = Σ( y i - ý i ) 2 =2.0415 2. 计算回归平方和: S 回 = Σ( y i - y i ) 2 =112.49355 3. 计算 F 值(因为是一元线性回归 , 只有一个自变量 , 所以 m = 1) F= S 回 / m/ S 余 / ( n-m-1) = 112.4935/ 2.0415/7=385.72 4.查表检验显著性 : 取显著性水平 α =0.05 ; m=1, 第二自由度 n-m-1=7 。 查 F 分布表得 临界值 F 0 . 05 =5.59 因为 F=385.72>5.59, 所以回归效果显著。 四、 t 检验 判定回归方程中系数 ( 参数 ) 的作用是否显著 , 可用 t 检验法。在多元回归中,如果某个自变量 X 对因变量 y 的作用不显著 , 则该 X 前的系数就可视为 0 。但需要注意 , 回归系数同 0 的差异是否显著 , 不能根据系数绝对值的大小来判断 , 而要根据统计假设检验的理论进行检验 , 因为系数值的大小要受变量计量单位的影响。如 上 例中得到的回归方程 , 自变量 x 前的系数是 2.9303, 倘若把 x 的单位由百元改为千元,则 x 前的系数就要缩小 10 倍 , 成为 0.29303, 但实际上它们的作用完全是等价的。 对于一元回归问题 , 回归系数的 t 检验和前述相关系数检验及回归方程检验的作用是一致的 , 只要检验其中之一就可以了。但在多元回归中就不同 , 要对各个 x 前的回归系数逐一进行统计检验,这时回归系数的检验就显得很重要,不能用前 述的F 检验和相关检验,只能用 t 检验, t 检验的步骤如下:查看更多