【数学】2019届一轮复习人教A版(文)第十章第四节第四节变量间的相关关系、统计案例学案
第十章算法初步、统计、统计案例
第四节变量间的相关关系、统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+,其中=, =-.
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量).
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
(2)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )
答案:(1)√ (2)× (3)× (4)√
2.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2必定平行
B.l1与l2必定重合
C.l1和l2一定有公共点(s,t)
D.l1与l2相交,但交点不一定是(s,t)
解析:选C 注意到回归直线必经过样本中心点.
3.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析:选D 由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确;又线性回归方程必过样本中心点(,),故B正确;由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确;当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,故D不正确.
4.(教材习题改编)已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
解析:∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.
答案:2.6
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
解析:K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
答案:5%
[考什么·怎么考]
高考对相关关系判断的直接考查较少,多与线性回归分析等综合出现在解答题中,难度较小.
1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析:选D 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析:选C 因为y=-0.1x+1的斜率小于0,
故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,
故x与z负相关.
3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
0,∴变量x与y之间是正相关.
②由(1)知,当x=8时,=1.2×8+0.2=9.8,即使用年限为8年时,支出维修费约是9.8万元.
独立性检验是高考的常考内容,但是很少单独考查,多与频率分布直方图、概率等知识综合考查,难度适中.
[典题领悟]
(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解:(1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
根据表中数据及K2的计算公式得,
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
[解题师说]
2个明确
(1)明确两类主体;
(2)明确研究的两个问题
2个关键
(1)准确画出2×2列联表;
(2)准确求解K2
3个步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=,计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断
[冲关演练]
1.某校拟在高一年级开设英语口语选修课,该年级男生600人,女生480人.按性别分层抽样,抽取90名同学做意向调查.
(1)求抽取的90名同学中的男生人数;
(2)将下列2×2列联表补充完整,并判断能否在犯错误的概率不超过0.025的前提下认为“该校高一学生是否愿意选修英语口语课程与性别有关”?
愿意选修英语口语课程
不愿意选修英语口语课程
总计
男生
25
女生
总计
35
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.100
0.050
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
解:(1)该校高一年级的男、女生之比为600∶480=5∶4,所以按照分层抽样,男生应抽取50名.
(2)2×2列联表如下:
愿意选修英语口语课程
不愿意选修英语口语课程
总计
男生
25
25
50
女生
30
10
40
总计
55
35
90
由K2=,代入数据得
K2==≈5.844>5.024.
所以在犯错误的概率不超过0.025的前提下可以认为“该校高一学生是否愿意选修英语口语课程与性别有关”.
2.已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.
(1)求n的值;
(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析能否在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”?
附:
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
K2=.
解:(1)依题意得
解得b=0.01.
因为成绩在[90,100]内的有6人,
所以n==60.
(2)由于2b=a+c,而b=0.01,可得a+c=0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,
设及格的人中,女生有x人,则男生有x-4人,于是x+x-4=48,解得x=26,故及格的人中,女生有26人,男生有22人.
于是本次测试的及格情况与性别的2×2列联表如下:
及格
不及格
总计
男
22
8
30
女
26
4
30
总计
48
12
60
所以K2==1.667<2.706,故不能在犯错误的概率不超过0.010的前提下认为“本次测试的及格情况与性别有关”.
(一)普通高中适用作业
A级——基础小题练熟练快
1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
解析:选D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④.
2.下列说法错误的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B.在线性回归分析中,相关系数r的值越大,变量间的相关性越强
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
解析:选B 根据相关关系的概念知A正确;当r>0时,r越大,相关性越强,当r<0时,r越大,相关性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好.二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C、D正确,故选B.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
解析:选D 因为所有样本点都在直线y=x+1上,所以这组样本数据完全正相关,故其相关系数为1.
4.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
解析:选D ∵y与x具有线性相关关系,且满足回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为=84%.
5.某产品生产厂家的市场部在对4家商场进行调研时,获得该产品售价x(单位:元)和销售量y(单位:件)之间的四组数据如下表:
售价x(元)
4
4.5
5.5
6
销售量y(件)
12
11
10
9
为决策产品的市场指导价,用最小二乘法求得销售量y与售价x之间的线性回归方程为=-1.4x+,那么方程中的值为( )
A.17 B.17.5
C.18 D.18.5
解析:选B ==5,==10.5,∵回归直线过样本点的中心(
,),代入线性回归方程=-1.4x+,得=10.5+1.4×5=17.5.
6.(2018·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
由K2=,
得K2=≈9.616.
参照下表,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
下列说法中,正确的结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析:选C ∵K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”.
7.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归直线方程:=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:x变为x+1,=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
答案:0.245
8.某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得线性回归直线方程=x+中的=-2,预测当气温为-4 ℃时,用电量为________度.
解析:回归直线过点(,),根据题意得==10,==40,将(10,40)代入=-2x+,解得=60,则=-2x+60,当x=-4时,=(-2)×(-4)+60=68,即当气温为-4 ℃时,用电量约为68度.
答案:68
9.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为________.
解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.
答案:1
B级——中档题目练通抓牢
1.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴,y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,的值为1.25
B.线性相关关系较强,的值为0.83
C.线性相关关系较强,的值为-0.87
D.线性相关关系较弱,无研究价值
解析:选B 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.
2.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
解析:选B 由题意知,==10,
==8,
∴=8-0.76×10=0.4,
∴当x=15时,=0.76×15+0.4=11.8(万元).
3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
附表及公式:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
K2=,n=a+b+c+d.
A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:选A 由列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得K2的观测值k==≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
4.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x(元)
9
9.5
m
10.5
11
销售量y(件)
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
解析:==8+,
==6+,
回归直线一定经过样本点中心(,),
即6+=-3.2+40,即3.2m+n=42.
又因为m+n=20,
即解得故n=10.
答案:10
5.某炼钢厂废品率x(%)与成本y(元/吨)的线性回归直线方程为=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有________吨钢是废品(结果保留两位小数).
解析:因为176.5=105.492+42.569x,解得x≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品.
答案:16.68
6.(2018·合肥模拟)某校计划面向高一年级1
200名学生开设校本选修课程,为确保工作的顺利实施,先按性别进行分层抽样,抽取了180名学生对社会科学类、自然科学类这两大类校本选修课程进行选课意向调查,其中男生有105人.在这180名学生中选择社会科学类的男生、女生均为45人.
(1)分别计算抽取的样本中男生及女生选择社会科学类的频率,并以统计的频率作为概率,估计实际选课中选择社会科学类学生的人数;
(2)根据抽取的180名学生的调查结果,完成下列2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?
选择自然科学类
选择社会科学类
总计
男生
女生
总计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
解:(1)由条件知,抽取的男生有105人,女生有180-105=75(人).
男生选择社会科学类的频率为=,
女生选择社会科学类的频率为=.
由题意,男生总人数为1 200×=700,
女生总人数为1 200×=500.
所以估计实际选课中选择社会科学类的学生人数为
700×+500×=600.
(2)根据统计数据,可得2×2列联表如下:
选择自然科学类
选择社会科学类
总计
男生
60
45
105
女生
30
45
75
总计
90
90
180
所以K2=≈5.143>5.024,
所以在犯错误的概率不超过0.025的前提下可以认为科类的选择与性别有关.
7.某地区2011年至2017年农村居民家庭纯收入y(单位:万元)的数据如下表:
年份
2011
2012
2013
2014
2015
2016
2017
年份代号t(年)
1
2
3
4
5
6
7
人均纯收入y(万元)
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2011年至2017年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
=,=-.
解:(1)由所给数据计算得=(1+2+3+4+5+6+7)=4,=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,(ti-)2=9+4+1+0+1+4+9=28,
(ti-)(yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,===0.5,
=-=4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2011年至2017年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5万元.
将2019年的年份代号t=9代入(1)中的回归方程,得=0.5×9+2.3=6.8,
故预测该地区2019年农村居民家庭人均纯收入为6.8万元.
C级——重难题目自主选做
1.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=- .
解:(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
2.为了了解某学校高二年级学生的物理成绩,从中抽取n名学生的物理成绩(百分制)作为样本,按成绩分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],频率分布直方图如图所示,成绩落在[70,80)中的人数为20.
(1)求a和n的值;
(2)根据样本估计总体的思想,估计该校高二学生物理成绩的平均数和中位数m;
(3)成绩在80分以上(含80分)为优秀,样本中成绩落在[50,80)中的男、女生人数比为1∶2,成绩落在[80,100)中的男、女生人数比为3∶2,完成2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为物理成绩优秀与性别有关.
男生
女生
合计
优秀
不优秀
合计
附:参考公式和数据:K2=,
P(K2≥k0)
0.50
0.05
0.025
0.005
k0
0.455
3.841
5.024
7.879
解:(1)由题意得10a=1-(0.005+0.01+0.015+0.02)×10=0.5,
解得a=0.05,则n==40.
(2)由频率分布直方图可知各组的频率分别为0.05,0.2,0.5,0.15,0.1,
所以=55×0.05+65×0.2+75×0.5+85×0.15+95×0.1=75.5,
(m-70)×0.05=0.5-(0.05+0.2),得m=75.
(3)由频率分布直方图可知成绩优秀的人数为40×(0.015+0.01)×10=10,则不优秀的人数为40-10=30.
所以优秀的男生为6人,女生为4人;
不优秀的男生为10人,女生为20人.
所以2×2列联表如下:
男生
女生
总计
优秀
6
4
10
不优秀
10
20
30
总计
16
24
40
所以K2=≈2.222<3.841,
所以在犯错误的概率不超0.05的前提下不能认为物理成绩优秀与性别有关.
(二)重点高中适用作业
A级——保分题目巧做快做
1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
解析:选B 因为散点图呈现上升趋势,故人体脂肪含量与年龄正相关;因为中间两个数据大约介于15%到20%之间,故脂肪含量的中位数小于20%.
2.某同学为了解自己记忆成语的个数与所花费的时间(单位:秒)的关系,做了5次试验,收集到的数据如表所示,由最小二乘法求得的回归直线方程为=0.74x+50.
成语个数x(个)
10
20
30
40
50
记忆时间y(秒)
61
m
n
81
89
则m+n的值为( )
A.130 B.129
C.121 D.118
解析:选A 由表中数据得,=30,=(61+m+n+81+89)=(231+m+n),将=30,=(231+m+n)代入回归直线方程,得m+n=130.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
解析:选D 因为所有样本点都在直线y=x+1上,所以这组样本数据完全正相关,故其相关系数为1.
4.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
解析:选D ∵y与x具有线性相关关系,且满足回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为=84%.
5.(2018·长沙一模)某研究型学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如下表:
使用智能手机
不使用智能手机
总计
学习成绩优秀
4
8
12
学习成绩不优秀
16
2
18
总计
20
10
30
附表:
P(K2≥k0)
0.10
0.05
0.010
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
经计算K2=10,则下列选项正确的是( )
A.有99.5%的把握认为使用智能手机对学习有影响
B.有99.5%的把握认为使用智能手机对学习无影响
C.有99.9%的把握认为使用智能手机对学习有影响
D.有99.9%的把握认为使用智能手机对学习无影响
解析:选A 依题意,注意到7.8796.635,因此能在犯错误的概率不超过0.01的前提下,认为抗倒伏与玉米矮茎有关.
(2)由题意得,抽到的高茎玉米有2株,设为A,B,抽到的矮茎玉米有3株,设为a,b,c,从这5株玉米中取出2株的取法有AB,Aa,Ab,Ac,Ba,Bb,Bc,ab,ac,bc,共10种,其中均为矮茎的选取方法有ab,ac,bc,共3种,因此选取的植株均为矮茎的概率是.
10.某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试.测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子完全停下所需要的距离).无酒状态与酒后状态下的试验数据分别列于表1和表2.
表1:无酒状态
停车距离d(米)
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
频数
26
m
n
8
2
表2:酒后状态
平均每毫升血液酒精含量x(毫克)
10
30
50
70
90
平均停车距离y(米)
30
50
60
70
90
已知表1数据的中位数估计值为26,回答以下问题.
(1)求m,n的值,并估计驾驶员无酒状态下停车距离的平均数;
(2)根据最小二乘法,由表2的数据计算y关于x的回归方程=x+;
(3)该测试团队认为:驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?
(附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为==,=-)
解:(1)依题意,得m=50-26,解得m=40,
又m+n+36=100,解得n=24.
故停车距离的平均数为
15×+25×+35×+45×+55×=27.
(2)依题意,可知=50,=60,
iyi=10×30+30×50+50×60+70×70+90×90=17 800,
=102+302+502+702+902=16 500,
所以==0.7,
=60-0.7×50=25,
所以回归直线方程为=0.7x+25.
(3)由(1)知当y>81时认定驾驶员是“醉驾”.令>81,得0.7x+25>81,解得x>80,当每毫升血液酒精含量大于80毫克时认定为“醉驾”.
B级——拔高题目稳做准做
1.为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x轴,y轴的单位长度相同),用回归直线方程=x+近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )
A.线性相关关系较强,的值为1.25
B.线性相关关系较强,的值为0.83
C.线性相关关系较强,的值为-0.87
D.线性相关关系较弱,无研究价值
解析:选B 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y=x的斜率要小一些,综上可知应选B.
2.已知某产品的广告费用x(单位:万元)与销售额y(单位:万元)具有线性相关关系,其统计数据如下表:
x
3
4
5
6
y
25
30
40
45
由上表可得线性回归方程=x+,据此模型预测广告费用为8万元时的销售额是( )
A.59.5万元 B.52.5万元
C.56万元 D.63.5万元
解析:选A 由表可得,=4.5,=35,(xi-)(yi-)=(-1.5)×(-10)+(-0.5)×(-5)+0.5×5+1.5×10=35,(xi-)2=(-1.5)2+(-0.5)2+0.52+1.52=5,所以==7,=35-7×4.5=3.5,故其线性回归直线方程为=7x+3.5,当x=8时,=7×8+3.5=59.5.
3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
附表及公式:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
K2=,n=a+b+c+d.
A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:选A 由列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a+c=75,b+d=25,ad=675,bc=300,n=100,计算得K2的观测值k==≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
4.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x(元)
9
9.5
m
10.5
11
销售量y(件)
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是=-3.2x+40,且m+n=20,则其中的n=________.
解析:==8+,
==6+,
回归直线一定经过样本点中心(,),
即6+=-3.2+40,即3.2m+n=42.
又因为m+n=20,
即解得故n=10.
答案:10
5.从2009年淘宝创立“双十一”以来,到2017年,“双十一”已经走过了九个年头,随着消费者消费水平越来越高,低价已经不再是最核心的要素,消费者对于品质的追求也越来越高.据美国《福布斯》双周刊网站2017年11月15日报道,“双十一”当天中国的线上交易额比巴西2017年全年的预估电子商务交易额都要多.某公司对“双十一”当天在淘宝购物的男、女各1 000名消费者的消费金额(单位:千元)进行统计,得到了消费金额的频率分布直方图如下:
(1)根据频率分布直方图,从在淘宝购物的这2
000名消费者中任选一人,估计消费金额在2 000元以上(包括2 000元)的概率;
(2)若“双十一”当天在淘宝上至少购买3 000元商品,就称此消费者为“酷爱淘宝者”.列出“酷爱淘宝者”人数与消费者性别的2×2列联表,并确定能否在犯错误的概率不超过0.001的前提下认为“酷爱淘宝者”与性别有关?
参考公式和数据K2=
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解:(1)根据频率分布直方图,可得男、女各1 000名消费者消费金额的频数分布表如下:
消费金额/千元
[0,1)
[1,2)
[2,3)
[3,4)
[4,5]
男性频数
50
200
350
300
100
消费金额/千元
[0,1)
[1,2)
[2,3)
[3,4)
[4,5]
女性频数
250
300
150
100
200
2 000名消费者中消费金额在2 000元以上(包括2 000元)的人数共1 200,估计消费金额在2 000元以上(包括2 000元)的概率为=0.6,故所求概率为0.6.
(2)列出2×2列联表如下所示:
非酷爱淘宝者
酷爱淘宝者
总计
男
600
400
1 000
女
700
300
1 000
总计
1 300
700
2 000
随机变量K2的观测值k=
≈21.978>10.828.
所以能在犯错误的概率不超过0.001的前提下认为“酷爱淘宝者”与性别有关.
6.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的昼夜温差与实验室每天每100颗种子中的发芽数,得到如下资料:
日期
12月1日
12月2日
12月3日
12月4日
12月5日
温差x(℃)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是:先从这5组数据中选取2组,用剩下的3组数据求回归方程,再对被选取的2组数据进行检验.
(1)求选取的2组数据恰好是不相邻的2天数据的概率;
(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?
(附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为
=,=- .)
解:(1)设抽到不相邻两组数据为事件A,因为从5组数据中选取2组数据共有10种情况,每种情况是等可能出现的,其中抽到相邻两组数据的情况共有4种,所以P(A)=1-=,故选取的2组数据恰好是不相邻的2天数据的概率为.
(2)由数据,求得=×(11+13+12)=12,
=×(25+30+26)=27,
iyi=11×25+13×30+12×26=977,
=112+132+122=434,
所以===,
=27-×12=-3.
所以回归直线方程为=x-3.
(3)当x=10时,=22,|22-23|<2,同理当x=8时,=17,|17-16|<2.
所以该研究得到的线性回归方程是可靠的.
[选做题]
(2018·江西五市部分学校联考)某品牌2017款汽车即将上市,为了对这款汽车进行合理定价,某公司在某市五家4S店分别进行了两天试销售,得到如下数据:
4S店
甲
乙
丙
丁
戊
单价
x/万元
18.0
18.6
18.2
18.8
18.4
19.0
18.3
18.5
18.5
18.7
销量
y/辆
88
78
85
75
82
66
82
78
80
76
(1)分别以五家4S店的平均单价与平均销量为散点,求出单价与销量的回归直线方程=x+;
(2)在大量投入市场后,销量与单价仍服从(1)中的关系,且该款汽车的成本为12万元/辆,为使该款汽车获得最大利润,则该款汽车的单价约为多少万元(保留一位小数)?
附:=,=-.
解:(1)五家4S店的平均单价和平均销量分别为(18.3,83),(18.5,80),(18.7,74),(18.4,80),(18.6,78),
∴==18.5,
==79,
∴===-20.
∴=-=79-(-20)×18.5=79+370=449,
∴=-20x+449.
(2)设该款汽车的单价应为x万元,
则利润f(x)=(x-12)(-20x+449)=-20x2+689x-5 388,f′(x)=-40x+689,令-40x+689=0,解得x≈17.2,
故当x≈17.2时,f(x)取得最大值.
∴要使该款汽车获得最大利润,该款汽车的单价约为17.2万元.