- 2021-05-11 发布 |
- 37.5 KB |
- 18页
申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
文档介绍
2020届二轮复习 统计与统计案例 课时作业(全国通用)
第十八讲 统计与统计案例 A 组 一、 选择题 1.某书法社团有男生30名,女生20名,从中抽取一个5人的样本,恰好抽到了2名男生和3名女生①该抽样一定不是系统抽样;②该抽样可能是随机抽样;③该抽样不可能是分层抽样;④男生被抽到的概率大于女生被抽到的概率,其中说法正确的为( ) A.①②③ B.②③ C. ③④ D.①④ 【答案】B 【解析】由题意得,从男生名,女生名,从中抽取一个人的样本,恰好抽到了名男生和名女生,该抽样应该是简单的随机抽样,其中男生被抽到的概率为,女生被抽到的概率为,所以只有②③是正确的,故选B. 2.如下图所示的茎叶图记录了甲、乙两组各名生在一次英语听力测试中的成绩(单位:分)。已知甲组数据的中位数为,乙组数据的平均数为,则的值分别为( ) A. B. C. D. 【答案】C 【解析】由中位数的定义可知,因,故,应选C。 3.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的结果,认为成立的可能性不足1%,那么的一个可能取值为( ) A.7.897 B.6.635 C. 5.024 D. 3.841 【答案】A 【解析】由题这种血清能起到预防感冒的作用为99%的有效率,显然所以选A. 4.下列说法正确的是 ( ) A.在统计中,回归分析是检验两个分类变量是否有关系的一种统计方法 B.线性回归方程对应的直线至少经过其样本数据点 中的一个点 C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高 D.在回归分析中,相关指数为的模型比相关指数为的模型拟合的效果差 【答案】C 【解析】A.回归分析反映两个变量相关关系的数方法,由建立回归方程来预报变量的情况。错误; B.线性回归方程对应的直线,过其样本数据平均数点,错误; D.相关指数越大,则相关性越强,模型的拟合效果越好。 错误; C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高. 正确。 一、 填空题 5.甲、乙、丙三名射击运动员在某次测试中各射击20次,三人的测试成绩如下表 甲的成绩 环数 7 8 9 10 频数 5 5 5 5 乙的成绩 环数 7 8 9 10 频数 6 4 4 6 丙的成绩 环数 7 8 9 10 频数 4 6 6 4 分别表示甲、乙、丙三名运动员这次测试成绩的平均数,则的大小关系为 ;分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则的大小关系为 . 【答案】; 6.某班有55人,现根据生的号,用系统抽样的方法,抽取一个容量为5的样本,已知3号、25号、47号同在样本中,那么样本中还有两个同的号分别为 和 。 【答案】14和36 二、 解答题 7. 某生产企业对其所生产的甲、乙两种产品进行质量检测,分别各抽查10件产品,检测其重量的误差,测得数据如下(单位:): 甲:13 15 14 14 9 14 21 9 10 11 乙:10 14 9 1 15 21 23 19 22 16 (Ⅰ)画出样本数据的茎叶图,并指出甲,乙两种商品重量误差的中位数; (Ⅱ)计算甲种商品重量误差的样本方差; (Ⅲ)根据茎叶图分析甲、乙两种产品的质量. 【解析】 茎叶图如图. 甲,乙两种商品重量误差的中位数分别为,. (Ⅱ). ∴ 甲种商品重量误差的样本方差为 =11.6 (Ⅲ)由茎叶图知,乙产品的重量误差的中位数高于甲产品的重量误差的中位数,而且由茎叶图可以大致看出乙产品的重量误差的的标准差要大于甲产品的重量误差的的标准差,说明甲产品的质量较好,而且较稳定. 8.某工厂36名工人的年龄数据如下表: 工人编号 年龄 工人编号 年龄 工人编号 年龄 工人编号 年龄 1 40 2 44 3 40 4 41 5 33 6 40 7 45 8 42 9 43 10 36 11 31 12 38 13 39 14 43 15 45 16 39 17 38 18 36 19 27 20 43 21 41 22 37 23 34 24 42 25 37 26 44 27 42 28 34 29 39 30 43 31 38 32 42 33 53 34 37 35 49 36 39 (1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据; (2)计算(1)中样本的平均值和方差; (3)求这36名工人中年龄在内的人数所占的百分比. 【解析】 (1)根据系统抽样的方法,抽取容量为9的样本,应分为9组,每组4人. 由题意可知,抽取的样本编号依次为:2,6,10,14,18,22,26,30,34, 对应样本的年龄数据依次为:44,40,36,43,36,37,44,43,37. (2)由(1),得, . (3)由(2),得,∴,由表可知,这36名工人中年龄在内共有23人,所占的百分比为. 9.某研究机构对高三生的记忆力x和判断力y进行统计分析,得下表数据: x 6 8 10 12 y 2 3 5 6 (1)请在图中画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程; (3)试根据(2)求出的线性回归方程,预测记忆力为9的同的判断力。 【解析】 (1)如图所示. (2)=6×2+8×3+10×5+12×6=158, =62+82+102+122=344, ,=4-0.7×9=-2.3, 故线性回归方程为=0.7x-2.3. (3)由回归直线方程,当x=9时,=6.3-2.3=4, 所以预测记忆力为9的同的判断力约为4. 10.2016年全国两会,即中华人民共和国第十二届全国人民代表大会第四次会议和中国人民政治协商会议第十二届全国委员会第四次会议,分别于2016年3月5日和3月3日 在北京开幕.为了解哪些人更关注两会,某机构随机抽取了年龄在岁之间的100人进行调查,并按年龄绘制的频率分布直方图如下图所示,其分组区间为:.把年龄落在区间和内的人分别称为“青少年人”和“中老年人”,经统计“青少年人”与“中老年人”的人数之比为9:11. (1)求图中的值; (2)若“青少年人”中有15人在关注两会,根据已知条件完成下面的列联表,根据此统计结果能否 有99%的把握认为“中老年人”比“青少年人”更加关注两会? 关注 不关注 合计 青少年人 15 中老年人 合计 50 50 100 附参考公式:,其中. 临界值表: 0.05 0.010 0.001 3.841 6.635 10.828 【解析】 (1)依频率分布直方图可知: , 解之,得, (2)依题意可知:“青少年人”共有人, “中老年人”共有100-45=55人,完成的列联表如下: 关注 不关注 合计 青少年人 15 30 45 中老年人 35 20 55 合计 50 50 100 结合列联表的数据得: 因为, 所以有超过99%的把握认为“中老年人”比“青少年人”更加关注两会 B组 一、 选择题 1.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)如图所示; 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数为( ) A、3 B、4 C、5 D、6 【答案】B 【解析】根据茎叶图中的数据得,成绩在区间[139,151]上的运动员人数是20,用系统抽样方法从35人中抽取7人,成绩在区间[139,151]上的运动员应抽取 (人),故选B. 2.从实验小随机抽取100名同,将他们的身高(单位:厘米)数据绘制成频率分布直方图由图中数据可知身高在[120,130]内的生人数为( ) A.3 B.25 C.30 D.35 【答案】C 【解析】由图知,(0.035+a+0.020+0.010+0.005)×10=1,解得a=0.03 ∴身高在[120,130]内的生人数在样本的频率为0.03×10=0.3 故身高在[120,130]内的生人数为0.3×100=30 3.已知与之间的一组数据: 0 1 2 3 3 5.5 7 已求得关于与的线性回归方程为,则的值为( ) A.1 B.0.85 C.0.7 D.0.5 【答案】D 【解析】因,故将其代入,可得.应选D. 4.在一次独立性检验中,得出2×2列联表如下: y1 y2 合计 x1 200 800 1000 x2 180 m 180+m 合计 380 800+m 1180+m 最后发现,两个分类变量x和y没有任何关系,则m的可能值是( ) A.200 B.720 C.100 D.180 【答案】B 【解析】由独立性检验,已知使两个分类变量无关,则可得; 一、 填空题 5.为了了解我校今年准备报考飞行员的生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图), 已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则报考飞行员的生人数是 . 【答案】. 【解析】设图中从左到右的第1小组的频率为,则第2小组的频率为,第3小组的频率为,由频率分布直方图的性质,得: , 解得:, 第2小组的频率为,又已知第2小组的频数为12, 报考飞行员的生人数是:. 故答案应填:. 6.某村有2500人,其中青少年1000人,中年人900人,老年人600人,为了调查本村居民的血压情况,采用分层抽样的方法抽取一个样本,若从中年人中抽取36人,从青年人和老年人中抽取的个体数分别为,则直线上的点到原点的最短距离为___________. 【答案】 【解析】,因此直线上的点到原点的最短距离为 一、 解答题 7.今年的西部决赛勇士和雷霆共进行了七场比赛,经历了残酷的“抢七”比赛,两队的当家球星库里和杜兰特七场比赛的每场比赛的得分如下表: 第一场 第二场 第三场 第四场 第五场 第六场 第七场 库里 26 28 24 22 31 29 36 杜兰特 26 29 33 26 40 29 27 (1)绘制两人得分的茎叶图; (2)分析并比较两位球星的七场比赛的平均得分及得分的稳定程度. 【解析】 (1)如图 (2)库里的平均得分分 方差. 杜兰特的平均得分分 方差. ∴,则这七场比赛库里的平均得分低于杜兰特,但库里的得分更稳定一些. 8.100名生某次数考试成绩(单位:分)的频率分布直方图如图所示. (1)估计这100名生的数成绩落在[50,60)中的人数; (2)求频率分布直方图中a的值; (3)估计这次考试的中位数 (结果保留一位小数). 【解析】 (1)由图可知落在[50,60)的频率为0.01×10=0.1 由频数=总数×频率,从而得到该范围内的人数为100×0.1=10. (2)由频率分布直方图知组距为10,频率总和为1,可列如下等式:(0.01+0.015+0.03++0.01+a)×10=1 解得a=0.035. (3)前两个小矩形面积为0.01×10+0.015×10=0.25. 第三个小矩形的面积为0.035×10=0.35 ∵中位数要平分直方图的面积. 9.甲、乙两所校高三年级分别有1200人,1000人,为了了解两所校全体高三年级生在该地区六校联考的数成绩情况,采用分层抽样方法从两所校一共抽取了110名生的数成绩,并作出了频数分布 统计表如下: 甲 校 分组 [70,80) [80,90) [90,100) [100,110) 频数 3 4 8 15 分组 [110,120) [120,130) [130,140) [140,150] 频数 15 3 2 乙 校 分组 [70,80) [80,90) [90,100) [100,110) 频数 1 2 8 9 分组 [110,120) [120,130) [130,140) [140,150] 频数 10 10 3 甲校 乙校 总计 优秀 非优秀 总计 (1)计算,的值; (2)若规定考试成绩在[120,150]内为优秀,请分别估计两所校数成绩的优秀率; (3)根据以上统计数据完成2×2列联表,并判断是否有90%的把握认为两所校的数成绩有差异. 【解析】 (1)甲校抽取110×60人, 乙校抽取110×=50人, 故x=10, y=7, (2)估计甲校优秀率为, 乙校优秀率为=40%. (3)表格填写如图, 甲校 乙校 总计 优秀 15 20 35 非优秀 45 30 75 总计 60 50 110 k2=≈2.83>2.706 又因为1-0.10=0.9,故有90%的把握认为两个校的数成绩有差异. 10.下表提供了甲产品的产量(吨)与利润(万元)的几组对照数据. (1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程; (2)计算相关指数的值,并判断线性模型拟合的效果. 参考公式:, 【解析】 (1) ∴, , ∴,∴ ∴关于的线性回归方程 (2) ∴∴线性模型拟合的效果较好 C组 一、 选择题 1.某校高一、高二、高三年级分别有720、720、800人,现从全校随机抽取56人参加防火防灾问卷调查.先采用分层抽样确定各年级参加调查的人数,再在各年级内采用系统抽样确定参加调查的同,若将高三年级的同依次编号为001,002,…,800,则高三年级抽取的同的编号不可能为( ) A.001,041,……761 B.031,071,……791 C.027,067,……787 D.055,095,……795 【答案】D 【解析】由根据分层抽样可得高三年级抽取出20人,利用系统抽样可分成40组得到的数据特征应成等差数列,经计算答案中的数据不是的整数倍,因此这组数据不合系统抽样得到的,故应选D. 2.已知一组数据的平均数是,方差是,那么另一组数据的平均数,方差是( ) A. B. C. D. 【答案】D 【解析】因为数据的平均数是,方差是,所以, 因此数据的平均数为:, 方差为:. 3.已知关于某设备的使用年限(单位:年)和所支出的维修费用(单位:万元)有如下的统计资料, 由上表可得线性回归方程,若规定当维修费用时该设备必须报废,据此模型预报该设备使用年限的最大值为( ) A.7 B.8 C.9 D.10 【答案】C 【解析】由已知表格得:, , 由于线性回归直线恒过样本中心点,所以有:,解得:, 所以线性回归方程, 由得:解得:, 由于, 所以据此模型预报该设备使用年限的最大值为9. 故选C. 4.在一次实验中,采集到如下一组数据: -2.0 -1.0 0 1.00 2.00 3.00 0.24 0.51 1 2.02 3.98 8.02 则的函数关系与下列( )类函数最接近(其中为待定系数) A. B . C. D. 【答案】B 【解析】由表格数据逐个验证,观察图象,类似于指数函数,分析选项可知模拟函数为y=a+bx. 故选B. 一、 填空题 5.一个总体中的80个个体编号为0,1,2,…,79,并依次将其分为8个组,组号为0,1,…,9,要用(错位)系统抽样的方法抽取一个容量为8的样本,即规定先在第1组随机抽取一个号码,记为,依次错位地得到后面各组的号码,即第组中抽取个位数为(当)或(当)的号码,在时,所抽到的第8组的号码是 . 【答案】73 【解析】第1组抽取号码为,第8组抽取号码为 6.给出下列命题: ①线性相关系数越大,两个变量的线性相关性越强;反之,线性相关性越弱; ②由变量和的数据得到其回归直线方程,则一定经过点; ③从匀速传递的产品生产流水线上,质检员每分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样; ④在回归分析模型中,残差平方和越小,说明模型的拟合效果越好; ⑤在回归直线方程中,当解释变量每增加一个单位时,预报变量增加个单位,其中真命题的序号是 . 【答案】②④⑤ 【解析】线性相关系数越大,两个变量的线性相关性越强;反之,线性相关性越弱,故①错;回归直线方程一定经过样本中心点,所以②正确;③ 的抽样方式为系统抽样,故③错;由在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方。显然,R2取值越大,意味着残差平方和越小,也就是模型的拟合效果越好,故④正确;由回归直线方程可知,当解释变量每增加一个单位时,预报变量增加个单位的解释是正确的,故⑤正确;所以正确的序号为②④⑤。 一、 解答题 7.偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某个同的某考试成绩与该班平均分的差叫某偏差,在某次考试成绩统计中,某老师为了对生数偏差(单位:分)与物理偏差(单位:分)之间的关系进行分析,随机挑选了8位同,得到他们的两成绩偏差数据如下: 生序号 1 2 3 4 5 6 7 8 数偏差 20 15 13 3 2 -5 -10 -18 物理偏差 6.5 3.5 3.5 1.5 0.5 -0.5 -2.5 -3.5 (1)若与之间具有线性相关关系,求关于的线性回归方程; (2)若该次考试该数平均分为120分,物理平均分为91.5分,试由(1)的结论预测数成绩为128分的同的物理成绩. 参考数据: 【解析】 (1)由题意,, , , 所以, 故线性回归方程为, (2)由题意,设该同的物理成绩为,则物理偏差为:. 而数偏差为128-120=8, ∴,解得, 所以,可以预测这位同的物理成绩为94分 8.某校100名生期中考试数成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100]. (1)求图中a的值; (2)根据频率分布直方图,估计这100名生数成绩的平均分; (3)若这100名生数成绩某些分数段的人数(x)与物理成绩相应分数段的人数(y)之比如下表所示,求物理成绩在[50,90)之外的人数. 分数段 [50,60) [60,70) [70,80) [80,90) x∶y 1∶1 2∶1 3∶4 4∶5 【解析】 (1)由频率分布直方图知: (2a+0.02+0.03+0.04)×10=1,解得a=0.005 (2)由频率分布直方图知这100名生数成绩的平均分为: 55×0.005×10+65×0.04×10+75×0.03×10+85×0.02×10+95×0.005×10=73(分). (3)由频率分布直方图知数成绩在[50,60),[60,70),[70,80),[80,90)各分数段的人数依次为: 0.005×10×10=5, 0.04×10×100=40, 0.03×10×100=30, 0.02×10×100=20. 由题中给出的比例关系知物理成绩在上述各分数段的人数依次为:5,40×=20,30×=40,20×=25. 故物理成绩在[50,90)之外的人数为100-(5+20+40+25)=10 9.2011年3月,日本发生了9.0级地震,地震引发了海啸及核泄漏.某国际组织用分层抽样的方法从心理专家、核专家、地质专家三类专家中抽取若干人组成研究团队赴日本工作,有关数据见表1(单位:人).核专家为了检测当地动物受核辐射后对身体健康的影响,随机选取了110只羊进行了检测,并将有关数据整理为不完整的2×2列联表(表2). 表1 相关人员数 抽取人数 心理专家 24 x 核专家 48 y 地质专家 72 6 表2 高度辐射 轻微辐射 合计 身体健康 30 A 50 身体不健康 B 10 60 合计 C D E (1)求研究小组的总人数; (2)写出表2中A、B、C、D、E的值,根据列联表的独立性检验,能否在犯错误的概率不超过0.01的前提下认为羊受到高度辐射与身体不健康有关. 【解析】 (1)依题意知==, 解得y=4,x=2. 所以研究小组的总人数为2+4+6=12. (2)根据列联表特点得A=20,B=50,C=80,D=30,E=110. 可求得χ2=≈7.486>6.635 所以在犯错误的概率不超过0.01的前提下认为羊受到高度辐射与身体不健康有关 10.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值. 46.6 56.3 6.8 289.8 1.6 1469 108.8 表中 , = (Ⅰ)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由) (Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y关于x的回归方程; (Ⅲ)已知这种产品的年利率z与x、y的关系为z=0.2y-x.根据(Ⅱ)的结果回答下列问题: (ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x为何值时,年利率的预报值最大? 附:对于一组数据,,……,,其回归线的斜率和截距的最小二乘估计分别为: 【解析】 (Ⅰ)由散点图可以判断,适合作为年销售关于年宣传费用的回归方程类型. (Ⅱ)令,先建立关于的线性回归方程,由于=, ∴=563-68×6.8=100.6. ∴关于的线性回归方程为, ∴关于的回归方程为. (Ⅲ)(ⅰ)由(Ⅱ)知,当=49时,年销售量的预报值 =576.6, . (ⅱ)根据(Ⅱ)的结果知,年利润z的预报值 , ∴当=,即时,取得最大值. 故宣传费用为46.24千元时,年利润的预报值最大.查看更多