高中数学选修2-3教学课件:8_4独立性检验的思想及应用(一)

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

高中数学选修2-3教学课件:8_4独立性检验的思想及应用(一)

2021/1/13 8.4 独立性检验的基本思想及其初步应用(一) 高二数学 选修 2-3 2021/1/13 问题 : 数学家庞加莱每天都从一家面包店买一块 1000g 的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为 950g 。于是庞加莱推断这家面包店的面包分量不足。 假设“面包份量足”,则一年购买面包的质量数据的平均值应该不少于 1000g ; “ 这个平均值不大于 950g ” 是一个与假设“面包份量足”矛盾的 小概率事件 ; 这个小概率事件的发生使庞加莱得出推断结果 。 2021/1/13 一 : 假设检验问题的原理 假设检验问题由两个 互斥 的假设构成,其中一个叫做 原假设 ,用 H 0 表示;另一个叫做 备择假设 ,用 H 1 表示。 例如,在前面的例子中, 原假设 为: H 0 :面包份量足, 备择假设 为: H 1 :面包份量不足。 这个假设检验问题可以表达为: H 0 :面包 份 量足 ←→ H 1 :面包 份 量不足 2021/1/13 二 : 求解假设检验问题 考虑假设检验问题: H 0 :面包分量足 ←→ H 1 :面包分量不足 在 H 0 成立的条件下,构造与 H 0 矛盾的小概率事件; 如果样本使得这个小概率事件发生, 就能以一定把握断言 H 1 成立 ;否则,断言没有发现样本数据与 H 0 相矛盾的证据。 求解思路: 2021/1/13 独立性检验 本节研究的是 两个分类变量的独立性检验问题 。 在日常生活中,我们常常关心 分类变量之间是否有关系 : 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。 2021/1/13 吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了 9965 人,得到如下结果(单位:人) 列联表 在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。 0.54% 2.28% 探究 2021/1/13 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817 吸烟 2099 49 2148 总计 9874 91 9965 1 、列联表 2 、三维柱形图 3 、二维条形图 3-2-2 不患肺癌 患肺癌 吸烟 不吸烟 不患肺癌 患肺癌 吸烟 不吸烟 0 8000 7000 6000 5000 4000 3000 2000 1000 从三维柱形图能清晰看出 各个频数的相对大小。 从二维条形图能看出,吸烟者中 患肺癌的比例高于不患肺癌的比例。 通过图形直观判断两个分类变量是否相关: 2021/1/13 不吸烟 吸烟 患肺癌 比例 不患肺癌 比例 4 、等高条形图 等高条形图更清晰地表达了两种情况下患肺癌的比例。 2021/1/13 上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢? 这需要用 统计观点 来考察这个问题。 现在想要知道 能够以多大的把握 认为“吸烟与患肺癌有关”, 为此先假设 H 0 :吸烟与患肺癌没有关系 . 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d 把表中的数字用字母代替,得到如下用字母表示的列联表 用 A 表示不吸烟, B 表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设 H 0 等价于 P(AB)=P(A)P(B). 2021/1/13 因此 |ad-bc| 越 小 ,说明吸烟与患肺癌之间关系越 弱 ; |ad-bc| 越 大 ,说明吸烟与患肺癌之间关系越 强 。 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d 在表中, a 恰好为事件 AB 发生的频数; a+b 和 a+c 恰好分别为事件 A 和 B 发生的频数。由于频率接近于概率,所以 在 H 0 成立的条件下 应该有 2021/1/13 为了 使不同样本容量的数据有统一的评判标准 ,基于上述分析,我们构造一个随机变量 ----- 卡方统计量 ( 1 ) 若 H 0 成立,即“吸烟与患肺癌 没有关系 ”,则 K 2 应很小 。 根据表 3-7 中的数据,利用公式( 1 )计算得到 K 2 的观测值为: 那么这个值到底能告诉我们什么呢? ( 2 ) 独立性检验 2021/1/13 在 H 0 成立的情况下 , 统计学家 估算出如下的概率 即在 H 0 成立的情况下, K 2 的值大于 6.635 的概率非常小 ,近似于 0.01 。 也就是说,在 H 0 成立的情况下,对随机变量 K 2 进行多次观测,观测值超过 6.635 的频率约为 0.01 。 思考 答:判断出错的概率为 0.01 。 2021/1/13 判断 是否成立的规则 如果 ,就判断 不成立 ,即认为吸烟与患肺癌 有关系 ;否则,就判断 成立 ,即认为吸烟与患肺癌 没有关系 。 独立性检验的定义 上面这种利用 随机变量 K 2 来 确定 在 多大程度 上可以 认为 “两个分类变量 有关系 ”的方法,称为 两个分类变量 的 独立性检验 。 在该规则下,把结论“ 不成立”错判成“ 成立”的概率不会超过 即有 99% 的把握认为 不成立。 独立性检验的基本思想(类似 反证法 ) (1) 假设结论不成立 , 即 “ 两个分类变量 没有关系 ” . (2) 在此假设下 我们所构造的随机变量 K 2 应该很小 , 如果由观测数据计算得到 K 2 的观测值 k 很大 , 则在 一定可信程度上 说明 不成立 . 即在一定可信程度上认为 “ 两个分类变量有关系 ” ; 如果 k 的值很小,则说明由样本观测数据没有发现反对 的充分证据。 (3) 根据随机变量 K 2 的含义 , 可以通过评价该假设不合理的程 度 , 由实际计算出的 , 说明假设合理的程度为 99%, 即 “ 两个分类变量有关系 ” 这一结论成立的 可信度 为约为 99%. 2021/1/13 怎样判断 K 2 的观测值 k 是大还是小呢? 这仅需要确定一个正数 ,当 时就认为 K 2 的观测值 k 大。此时相应于 的判断规则为: 如果 ,就认为“两个分类变量之间 有关系 ”;否则就认为“两个分类变量之间没有关系”。 ---- 临界值 按照上述规则,把“两个分类变量之间 有关系 ” 错误地 判断为“两个分类变量之间 没关系 ”的概率为 P( ). 在实际应用中,我们把 解释为有 的把握认为“两个分类变量之间有关系”;把 解释为不能以 的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据。 2021/1/13 思考: 利用上面的结论,你能从列联表的三维柱形图中看出两个分类变量是否相关呢? 表 1-11 2x2 联表 一般地,假设有两个分类变量 X 和 Y ,它们的值域分别为 {x 1 ,x 2 } 和 {y 1 ,y 2 }, 其样本频数列联表(称为 2x2 列联表)为: y 1 y 2 总计 x 1 a b a+b x 2 c d c+d 总计 a+c b+d a+b+c+d 2021/1/13 若要判断的结论为: H 1 :“ X 与 Y 有关系”,可以按如下步骤判断 H 1 成立的可能性: 2 、可以 利用独立性检验 来考察两个分类变量是否有关系,并且 能较精确地 给出这种判断的可靠程度。 1 、通过三维柱形图和二维条形图,可以粗略地判断两个变量是否有关系 , 但是这种判断 无法精确 地给出所得结论的可靠程度。 ( 1 )在三维柱形图中, 主对角线上 两个柱形高度的乘积 ad 与 副对角线上 两个柱形高度的乘积 bc 相差越大 , H 1 成立的可能性就越大。 ( 2 )在二维条形图中 , 可以估计满足条件 X=x 1 的个体中具有 Y=y 1 的个体所占的比例 ,也可以估计满足条件 X=x 2 的个体中具有 Y=y 1 的个体所占的比例 。两个比例相差越大, H 1 成立的可能性就越大。 2021/1/13 在实际应用中,要在获取样本数据之前通过下表确定临界值: 0.50 0.40 0.25 0.15 0.10 0.455 0.708 1.323 2.072 2.706 0.05 0.025 0.010 0.005 0.001 3.841 5.024 6.636 7.879 10.828 具体作法是: (1) 根据实际问题需要的可信程度确定临界值 ; (2) 利用公式 (1) ,由观测数据计算得到随机变量 的观测值; (3) 如果 ,就以 的把握认为“ X 与 Y 有关系”;否则就说样本观测数据没有提供“ X 与 Y 有关系”的充分证据。
查看更多

相关文章

您可能关注的文档