【数学】2020届一轮复习(文)通用版10-2统计及统计案例作业

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

【数学】2020届一轮复习(文)通用版10-2统计及统计案例作业

‎§10.2 统计及统计案例 挖命题 ‎【考情探究】‎ 考点 内容解读 ‎5年考情 预测热度 考题示例 考向 关联考点 抽样 方法 ‎①理解随机抽样的必要性和重要性;②会用简单随机抽样方法从总体中抽取样本 ‎2018课标全国Ⅲ,14,5分 抽样方法 抽样方法的选择 ‎★★☆‎ 统计 图表 了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率分布折线图、茎叶图,体会它们各自的特点 ‎2017课标全国Ⅲ,3,5分 认识折线图 利用折线图解决实际问题 ‎★★☆‎ ‎2018课标全国Ⅰ,3,5分 认识统计图 由统计图解决实际问题 ‎2018课标全国Ⅰ,19,12分 用频率分布直方图解决实际问题 频率分布与数字特征 样本的数 字特征 ‎①理解样本数据标准差的意义和作用,会计算数据标准差;②能从样本数据中提取基本的数字特征,并给出合理的解释;③会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;④会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题 ‎2017课标全国Ⅰ,2,5分 理解方差或标准差 样本的数字特征 ‎★★☆‎ ‎2014课标Ⅰ,18,12分 频率分布直方图与数字特征 数字特征与实际应用 ‎2014课标Ⅱ,19,12分 茎叶图的认识 茎叶图与实际应用 变量间的 相关性 ‎①会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系;②了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 ‎2016课标全国Ⅲ,18,12分 相关系数与回归方程 数据处理 ‎★★☆‎ ‎2017课标全国Ⅰ,19,12分 相关系数与数字特征 数据处理 ‎2015课标Ⅰ,19,12分 回归方程的求解 非线性关系转换成线性关系 独立性 检验 了解独立性检验的基本思想、方法及其简单应用,能通过计算判断两个变量的相关程度 ‎2017课标全国Ⅱ,19,12分 频率分布直方图与独立性检验 数据的处理 ‎★★☆‎ ‎2018课标全国Ⅲ,18,12分 茎叶图与独立性检验 数据的处理 分析解读  从近几年的高考试题来看,本部分在高考中的考查点如下:1.主要考查分层抽样的定义、频率分布直方图、平均数、方差的计算、识图能力及借助概率知识分析、解决问题的能力;2.在频率分布直方图中,注意小矩形的竖直方向的长度=频率/组距,小矩形的面积为频率,所有小矩形的面积之和为1;3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中分值为17分左右,属中档题.‎ 破考点 ‎【考点集训】‎ 考点一 抽样方法 ‎1.(2018山东烟台11月联考,4)《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩,按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为(  )‎ ‎                                       ‎ A.2 B.4 C.5 D.6‎ 答案 B ‎ ‎2.(2018宁夏银川一中月考,4)用系统抽样的方法从300名学生中抽取容量为20的样本,将300名学生从1~300编号,按编号顺序平均分组.若第16组应抽出的号码为232,则第一组中抽出的号码是(  )‎ A.5 B.6 C.7 D.8‎ 答案 C ‎ 考点二 统计图表 ‎1.(2018四川达州模拟,4)某8人一次比赛得分的茎叶图如图所示,这组数据的中位数和众数分别是(  )‎ A.85和92 B.87和92 C.84和92 D.85和90‎ 答案 B ‎ ‎2.(2017河南新乡第一次调研,3)统计新生婴儿的体重,其频率分布直方图如图所示,则新生婴儿体重在(2 700,3 000]克内的频率为(  )‎ A.0.001 B.0.1 C.0.2 D.0.3‎ 答案 D ‎ 考点三 样本的数字特征 ‎1.(2018湖北华师一附中月考,3)某人到甲、乙两市各7个小区调查空置房情况,将调查得到的小区空置房的套数绘成了如图所示的茎叶图,则调查中甲市空置房套数的中位数与乙市空置房套数的中位数之差为(  )‎ A.4 B.3 C.2 D.1‎ 答案 B ‎ ‎2.(2018山东济南一模,3)已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为x,方差为s2,则(  )‎ A.x=4,s2<2 B.x=4,s2>2‎ C.x>4,s2<2 D.x>4,s2>2‎ 答案 A ‎ 考点四 变量间的相关性 ‎1.(2018河南焦作四模,3)已知变量x和y的统计数据如下表:‎ x ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ y ‎2.5‎ ‎3‎ ‎4‎ ‎4.5‎ ‎6‎ 根据上表可得回归直线方程为y‎^‎=b‎^‎x-0.25,据此可以预测当x=8时,y‎^‎=(  )‎ A.6.4 B.6.25 C.6.55 D.6.45‎ 答案 C ‎ ‎2.(2018湖南张家界三模,4)已知变量x,y之间的线性回归方程为y‎^‎=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法错误的是(  )‎ x ‎6‎ ‎8‎ ‎10‎ ‎12‎ y ‎6‎ m ‎3‎ ‎2‎ A.变量x,y之间成负相关关系 B.可以预测,当x=20时,y‎^‎=-3.7‎ C.m=4‎ D.该回归直线必过点(9,4)‎ 答案 C ‎ 考点五 独立性检验 ‎1.(2017江西九校一模,7)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.‎ 非一线城市 一线城市 总计 愿生 ‎45‎ ‎20‎ ‎65‎ 不愿生 ‎13‎ ‎22‎ ‎35‎ 总计 ‎58‎ ‎42‎ ‎100‎ 附表:‎ P(K2≥k0)‎ ‎0.050‎ ‎0.010‎ ‎0.001‎ k0‎ ‎3.841‎ ‎6.635‎ ‎10.828‎ 由K2=n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎算得,K2=‎100×(45×22-20×13‎‎)‎‎2‎‎58×42×35×65‎≈9.616,参照附表,得到的正确结论是(  )‎ A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”‎ B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”‎ C.有99%以上的把握认为“生育意愿与城市级别有关”‎ D.有99%以上的把握认为“生育意愿与城市级别无关”‎ 答案 C ‎ ‎2.(2018贵州六校12月联考,18)海南大学某餐饮中心为了解新生的饮食习惯,在全校新生中进行了抽样调查,调查结果如下表所示:‎ 喜欢甜品 不喜欢甜品 合计 南方学生 ‎60‎ ‎20‎ ‎80‎ 北方学生 ‎10‎ ‎10‎ ‎20‎ 合计 ‎70‎ ‎30‎ ‎100‎ ‎(1)根据表中数据,问是否有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”?‎ ‎(2)已知在被调查的北方学生中有5名中文系的学生,其中2名喜欢甜品,现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.‎ P(K2≥k0)‎ ‎0.10‎ ‎0.05‎ ‎0.010‎ k0‎ ‎2.706‎ ‎3.841‎ ‎6.635‎ 附:K2=n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎.‎ 解析 (1)将2×2列联表中的数据代入公式计算,得K2=‎100×(60×10-20×10‎‎)‎‎2‎‎70×30×80×20‎=‎100‎‎21‎≈4.762.‎ 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.‎ ‎(2)从5名中文系学生中任取3人的所有可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)},‎ 其中ai表示喜欢甜品的学生,i=1,2,bj表示不喜欢甜品的学生,j=1,2,3.‎ Ω由10个基本事件组成,且这些基本事件的出现是等可能的.‎ 用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b1,b3),(a1,b2,b3),(a2,b1,b2),(a2,b1,b3),(a2,b2,b3),(b1,b2,b3)}.‎ 事件A由7个基本事件组成,因而P(A)=‎7‎‎10‎.‎ 炼技法 ‎【方法集训】‎ 方法1 解与频率分布直方图有关问题的方法 ‎1.(2016山东,3,5分)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是(  )‎ ‎                                       ‎ A.56 B.60 C.120 D.140‎ 答案 D ‎ ‎2.(2017江苏南京调研,3)为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的200辆汽车的时速,所得数据均在区间[40,80]内,其频率分布直方图如图所示,则在抽测的200辆汽车中,时速在区间[40,60)内的汽车有  辆. ‎ 答案 80‎ 方法2 样本的数字特征的求解及其应用 ‎1.(2015山东,6,5分)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:‎ ‎①甲地该月14时的平均气温低于乙地该月14时的平均气温;‎ ‎②甲地该月14时的平均气温高于乙地该月14时的平均气温;‎ ‎③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;‎ ‎④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.‎ 其中根据茎叶图能得到的统计结论的编号为(  )‎ A.①③ B.①④ C.②③ D.②④‎ 答案 B ‎ ‎2.(2018四川德阳模拟,13)为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(10分制)的频数分布直方图如图所示,如果得分的中位数为a,众数为b,平均数为c,则a、b、c中的最大者是   . ‎ 答案 c 方法3 回归直线方程的求解与运用 ‎1.(2017安徽合肥一中等四校联考,6)某品牌牛奶的广告费用x(万元)与销售额y(万元)的统计数据如下表:‎ 广告费用x(万元)‎ ‎4‎ ‎2‎ ‎3‎ ‎5‎ 销售额y(万元)‎ ‎49‎ ‎26‎ ‎39‎ ‎54‎ 根据上表可得回归方程y‎^‎=b‎^‎x+a‎^‎中的b‎^‎为9.4,据此估计,广告费用为7万元时销售额为(  )‎ A.74.9万元 B.65.5万元 C.67.7万元 D.72.0万元 答案 A ‎ ‎2.(2018湘东五校12月联考,18)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:‎ 日期 ‎1月10日 ‎2月10日 ‎3月10日 ‎4月10日 ‎5月10日 ‎6月10日 昼夜温 差x(℃)‎ ‎10‎ ‎11‎ ‎13‎ ‎12‎ ‎8‎ ‎6‎ 就诊人 数y ‎22‎ ‎25‎ ‎29‎ ‎26‎ ‎16‎ ‎12‎ 该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.‎ ‎(1)求选取的2组数据恰好是相邻两个月数据的概率;‎ ‎(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据求出y关于x的线性回归方程y‎^‎=b‎^‎x+a‎^‎;‎ ‎(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?‎ 参考公式:b‎^‎=‎∑‎i=1‎nxiyi‎-nx ‎y‎∑‎i=1‎nxi‎2‎‎-nx‎2‎=‎∑‎i=1‎n‎(xi-x)(yi-y)‎‎∑‎i=1‎n‎(xi-‎x‎)‎‎2‎,a‎^‎=y-b‎^‎x;‎ 参考数据:11×25+13×29+12×26+8×16=1 092,112+132+122+82=498.‎ 解析 (1)设抽到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种,所以P(A)=‎5‎‎15‎=‎1‎‎3‎.‎ ‎(2)由数据求得x=11,y=24,由公式求得b‎^‎=‎18‎‎7‎,‎ 则a‎^‎=y-b‎^‎x=-‎30‎‎7‎,‎ 所以y关于x的线性回归方程为y‎^‎=‎18‎‎7‎x-‎30‎‎7‎.‎ ‎(3)由(2)知,当x=10时,y‎^‎=‎150‎‎7‎,‎150‎‎7‎‎-22‎<2,‎ 当x=6时,y‎^‎=‎78‎‎7‎,‎78‎‎7‎‎-12‎<2,‎ 所以,该小组所得线性回归方程是理想的.‎ 方法4 独立性检验的思想方法 ‎1.(2018山西太原五中12月模拟,18)网购是当前民众购物的新方式,某公司为改进营销方式,随机调查了100名市民,统计其周平均网购的次数,并整理得到如下的频数直方图.这100名市民中,年龄不超过40岁的有65人.将所抽样中周平均网购次数不少于4次的市民称为网购迷,且已知其中有5名市民的年龄超过40岁.‎ ‎(1)根据已知条件完成下面的2×2列联表,能否在犯错的概率不超过0.10的前提条件下认为网购迷与年龄不超过40岁有关?‎ 网购迷 非网购迷 合计 年龄不超过40岁 年龄超过40岁 合计 ‎(2)现将所抽取样本中周平均网购次数不少于5次的市民称为超级网购迷,且已知超级网购迷中有2名年龄超过40岁,若从超级网购迷中任意挑选2名,求至少有1名市民年龄超过40岁的概率.‎ 附:K2=n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎.‎ 解析 (1)根据已知条件完成2×2列联表如下:‎ 网购迷 非网购迷 合计 年龄不超过40岁 ‎20‎ ‎45‎ ‎65‎ 年龄超过40岁 ‎5‎ ‎30‎ ‎35‎ 合计 ‎25‎ ‎75‎ ‎100‎ K2=‎100×(20×30-5×45‎‎)‎‎2‎‎25×75×65×35‎≈3.297,因为3.297>2.706,所以据此列联表判断,在犯错误的概率不超过0.10的前提下,认为网购迷与年龄不超过40岁有关.‎ ‎(2)由频数分布直方图知,超级网购迷共有10人,记其中年龄超过40岁的2名市民为A、B,其余8名市民记为c、d、e、f、g、h、m、n,现从10人中任取2人,基本事件有AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn、cd、ce、cf、cg、ch、cm、cn、de、df、dg、dh、dm、dn、ef、eg、eh、em、en、fg、fh、fm、fn、gh、gm、gn、hm、hn、mn,共有45种,其中至少有1名市民年龄超过40岁的基本事件是AB、Ac、Ad、Ae、Af、Ag、Ah、Am、An、Bc、Bd、Be、Bf、Bg、Bh、Bm、Bn,共17种,‎ 故所求的概率P=‎17‎‎45‎.‎ ‎2.(2017江西红色七校第一次联考,18)某学校为了了解学生使用手机的情况,分别在高一和高二两个年级中各随机抽取了100名学生进行调查.下面是根据调查结果绘制的学生日均使用手机时间的频数分布表和频率分布直方图,将使用手机时间不低于80分钟的学生称为“手机迷”.‎ 高一年级的学生日均使用手机时间的频数分布表 时间分组 ‎[0,20)‎ ‎[20,40)‎ ‎[40,60)‎ ‎[60,80)‎ ‎[80,100)‎ ‎[100,120]‎ 频数 ‎12‎ ‎20‎ ‎24‎ ‎18‎ ‎22‎ ‎4‎ 高二年级的学生日均使用手机时间的频率分布直方图 ‎(1)将频率视为概率,估计哪个年级的学生是“手机迷”的概率大,请说明理由;‎ ‎(2)在对高二年级学生的抽查中,已知随机抽到的女生有55名,其中10名为“手机迷”.根据已知条件完成下面的2×2列联表,并据此资料,你有多大的把握认为“手机迷”与性别有关?‎ 非手机迷 手机迷 合计 男 女 合计 附:K2=n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎,其中n=a+b+c+d.‎ 参考数据 P(K2≥k0)‎ ‎0.15‎ ‎0.10‎ ‎0.05‎ ‎0.025‎ k0‎ ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ 解析 (1)估计高一年级的学生是“手机迷”的概率大.理由:由频数分布表可知,高一年级的学生是“手机迷”的概率为‎22+4‎‎100‎=0.26,‎ 由频率分布直方图可知,高二年级的学生是“手机迷”的概率为(0.002 5+0.010)×20=0.25,‎ 因为0.26>0.25,所以高一年级的学生是“手机迷”的概率大.‎ ‎(2)由频率分布直方图可知,在抽取的100人中,‎ ‎“手机迷”有(0.010+0.002 5)×20×100=25人,‎ ‎“非手机迷”有100-25=75人.‎ ‎2×2列联表如下:‎ 非手机迷 手机迷 合计 男 ‎30‎ ‎15‎ ‎45‎ 女 ‎45‎ ‎10‎ ‎55‎ 合计 ‎75‎ ‎25‎ ‎100‎ 将2×2列联表中的数据代入公式计算,得 K2=‎100×(30×10-45×15‎‎)‎‎2‎‎75×25×45×55‎=‎100‎‎33‎≈3.030.‎ 因为3.030>2.706,所以有90%的把握认为“手机迷”与性别有关.‎ 过专题 ‎【五年高考】‎ A组 统一命题·课标卷题组 考点一 抽样方法 ‎ (2018课标全国Ⅲ,14,5分)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是    . ‎ 答案 分层抽样 考点二 统计图表 ‎1.(2018课标全国Ⅰ,3,5分)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:‎ 则下面结论中不正确的是(  )‎ A.新农村建设后,种植收入减少 B.新农村建设后,其他收入增加了一倍以上 C.新农村建设后,养殖收入增加了一倍 D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半 答案 A ‎ ‎2.(2017课标全国Ⅲ,3,5分)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.‎ 根据该折线图,下列结论错误的是(  )‎ A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在7,8月 D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 答案 A ‎ ‎3.(2015课标Ⅱ,3,5分)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是(  )‎ A.逐年比较,2008年减少二氧化硫排放量的效果最显著 B.2007年我国治理二氧化硫排放显现成效 C.2006年以来我国二氧化硫年排放量呈减少趋势 D.2006年以来我国二氧化硫年排放量与年份正相关 答案 D ‎ ‎4.(2018课标全国Ⅰ,19,12分)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:‎ 未使用节水龙头50天的日用水量频数分布表 日用水量 ‎[0,0.1)‎ ‎[0.1,0.2)‎ ‎[0.2,0.3)‎ ‎[0.3,0.4)‎ ‎[0.4,0.5)‎ ‎[0.5,0.6)‎ ‎[0.6,0.7)‎ 频数 ‎1‎ ‎3‎ ‎2‎ ‎4‎ ‎9‎ ‎26‎ ‎5‎ 使用了节水龙头50天的日用水量频数分布表 日用水量 ‎[0,0.1)‎ ‎[0.1,0.2)‎ ‎[0.2,0.3)‎ ‎[0.3,0.4)‎ ‎[0.4,0.5)‎ ‎[0.5,0.6)‎ 频数 ‎1‎ ‎5‎ ‎13‎ ‎10‎ ‎16‎ ‎5‎ ‎(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图;‎ ‎(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;‎ ‎(3)估计该家庭使用节水龙头后,一年能节省多少水.(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)‎ 解析 (1)‎ ‎(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,‎ 因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.‎ ‎(3)该家庭未使用节水龙头50天日用水量的平均数为 x‎1‎‎=‎1‎‎50‎×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.‎ 该家庭使用了节水龙头后50天日用水量的平均数为 x‎2‎‎=‎1‎‎50‎×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.‎ 估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).‎ 考点三 样本的数字特征 ‎1.(2017课标全国Ⅰ,2,5分)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是(  )‎ ‎                                       ‎ A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差 C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数 答案 B ‎ ‎2.(2014课标Ⅰ,18,12分)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:‎ 质量指标值分组 ‎[75,85)‎ ‎[85,95)‎ ‎[95,105)‎ ‎[105,115)‎ ‎[115,125)‎ 频数 ‎6‎ ‎26‎ ‎38‎ ‎22‎ ‎8‎ ‎(1)作出这些数据的频率分布直方图;‎ ‎(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);‎ ‎(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?‎ 解析 (1)频率分布直方图如图.‎ ‎(2)质量指标值的样本平均数为 x‎=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.‎ 质量指标值的样本方差为 s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.‎ 所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.‎ ‎(3)质量指标值不低于95的产品所占比例的估计值为 ‎0.38+0.22+0.08=0.68.‎ 由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.‎ 考点四 变量间的相关性 ‎1.(2017课标全国Ⅰ,19,12分)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:‎ 抽取次序 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ 零件尺寸 ‎9.95‎ ‎10.12‎ ‎9.96‎ ‎9.96‎ ‎10.01‎ ‎9.92‎ ‎9.98‎ ‎10.04‎ 抽取次序 ‎9‎ ‎10‎ ‎11‎ ‎12‎ ‎13‎ ‎14‎ ‎15‎ ‎16‎ 零件尺寸 ‎10.26‎ ‎9.91‎ ‎10.13‎ ‎10.02‎ ‎9.22‎ ‎10.04‎ ‎10.05‎ ‎9.95‎ 经计算得x=‎1‎‎16‎‎∑‎i=1‎‎16‎xi=9.97,s=‎‎1‎‎16‎‎∑‎i=1‎‎16‎‎(xi-‎x‎)‎‎2‎ ‎=‎1‎‎16‎‎(‎∑‎i=1‎‎16‎xi‎2‎-16x‎ ‎‎2‎)‎≈0.212,‎‎∑‎i=1‎‎16‎‎(i-8.5‎‎)‎‎2‎ ‎≈18.439,‎∑‎i=1‎‎16‎(xi-x)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.‎ ‎(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);‎ ‎(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.‎ ‎(i)从这一天抽检的结果看,是否需对当天的生产过程进行检查?‎ ‎(ii)在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)‎ 附:样本(xi,yi)(i=1,2,…,n)的相关系数 r=‎∑‎i=1‎n‎(xi-x)(yi-y)‎‎∑‎i=1‎n‎(xi-‎x‎)‎‎2‎‎∑‎i=1‎n‎(yi-‎y‎)‎‎2‎.‎ ‎0.008‎‎≈0.09.‎ 解析 (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=‎‎∑‎i=1‎‎16‎‎(xi-x)(i-8.5)‎‎∑‎i=1‎‎16‎‎(xi-‎x‎)‎‎2‎‎∑‎i=1‎‎16‎‎(i-8.5‎‎)‎‎2‎ ‎=‎-2.78‎‎0.212×‎16‎×18.439‎≈-0.18.‎ 由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.‎ ‎(2)(i)由于x=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x-3s,x+3s)以外,因此需对当天的生产过程进行检查.‎ ‎(ii)剔除离群值,即第13个数据,剩下数据的平均数为‎1‎‎15‎×(16×9.97-9.22)=10.02,‎ 这条生产线当天生产的零件尺寸的均值的估计值为10.02.‎ ‎∑‎i=1‎‎16‎xi‎2‎‎=16×0.2122+16×9.972≈1 591.134,‎ 剔除第13个数据,剩下数据的样本方差为 ‎1‎‎15‎‎×(1 591.134-9.222-15×10.022)≈0.008,‎ 这条生产线当天生产的零件尺寸的标准差的估计值为‎0.008‎≈0.09.‎ ‎2.(2016课标全国Ⅲ,18,12分)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.‎ ‎(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;‎ ‎(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.‎ 附注:‎ 参考数据:‎∑‎i=1‎‎7‎yi=9.32,‎∑‎i=1‎‎7‎tiyi=40.17,‎∑‎i=1‎‎7‎‎(yi-‎y‎)‎‎2‎=0.55,‎7‎≈2.646.‎ 参考公式:相关系数r=‎∑‎i=1‎n‎(ti-t)(yi-y)‎‎∑‎i=1‎n‎(ti-t‎)‎‎2‎‎∑‎i=1‎n(yi-‎y‎)‎‎2‎,‎ 回归方程y‎^‎=a‎^‎+b‎^‎t中斜率和截距最小二乘估计公式分别为:‎ b‎^‎‎=‎∑‎i=1‎n‎(ti-t)(yi-y)‎‎∑‎i=1‎n‎(ti-‎t‎)‎‎2‎,a‎^‎=y-b‎^‎t.‎ 解析 (1)由折线图中数据和附注中参考数据得 t‎=4,‎∑‎i=1‎‎7‎(ti-t)2=28,‎∑‎i=1‎‎7‎‎(yi-‎y‎)‎‎2‎=0.55,‎ ‎∑‎i=1‎‎7‎‎(ti-t)(yi-y)=‎∑‎i=1‎‎7‎tiyi-t‎∑‎i=1‎‎7‎yi=40.17-4×9.32=2.89,‎ r≈‎2.89‎‎0.55×2×2.646‎≈0.99.(4分)‎ 因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(6分)‎ ‎(2)由y=‎9.32‎‎7‎≈1.331及(1)得b‎^‎=‎∑‎i=1‎‎7‎‎(ti-t)(yi-y)‎‎∑‎i=1‎‎7‎‎(ti-‎t‎)‎‎2‎=‎2.89‎‎28‎≈0.10,‎ a‎^‎‎=y-b‎^‎t=1.331-0.10×4≈0.93.‎ 所以y关于t的回归方程为y‎^‎=0.93+0.10t.(10分)‎ 将2016年对应的t=9代入回归方程得:y‎^‎=0.93+0.10×9=1.83.‎ 所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.(12分)‎ 考点五 独立性检验 ‎1.(2018课标全国Ⅲ,18,12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:‎ ‎(1)根据茎叶图判断哪种生产方式的效率更高,并说明理由;‎ ‎(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表;‎ 超过m 不超过m 第一种生产方式 第二种生产方式 ‎(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?‎ 附:K2=n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎,‎ P(K2≥k)‎ ‎0.050‎ ‎0.010‎ ‎0.001‎ k ‎3.841‎ ‎6.635‎ ‎10.828‎ ‎.‎ 解析 (1)第二种生产方式的效率更高.‎ 理由如下:‎ ‎(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.‎ ‎(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.‎ ‎(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.‎ ‎(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.‎ 以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.‎ ‎(2)由茎叶图知m=‎79+81‎‎2‎=80.‎ 列联表如下:‎ 超过m 不超过m 第一种生产方式 ‎15‎ ‎5‎ 第二种生产方式 ‎5‎ ‎15‎ ‎(3)由于 K2=‎40×(15×15-5×5‎‎)‎‎2‎‎20×20×20×20‎=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.‎ ‎2.(2017课标全国Ⅱ,19,12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:‎ ‎(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;‎ ‎(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;‎ 箱产量<50 kg 箱产量≥50 kg 旧养殖法 新养殖法 ‎(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.‎ 附:‎ P(K2≥k)‎ ‎0.050‎ ‎0.010‎ ‎0.001‎ k ‎3.841‎ ‎6.635‎ ‎10.828‎ ‎,‎ K2=n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎.‎ 解析 (1)旧养殖法的箱产量低于50 kg的频率为 ‎(0.012+0.014+0.024+0.034+0.040)×5=0.62.‎ 因此,事件A的概率估计值为0.62.‎ ‎(2)根据箱产量的频率分布直方图得列联表:‎ 箱产量<50 kg 箱产量≥50 kg 旧养殖法 ‎62‎ ‎38‎ 新养殖法 ‎34‎ ‎66‎ K2=‎200×(62×66-34×38‎‎)‎‎2‎‎100×100×96×104‎≈15.705.‎ 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.‎ ‎(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.‎ B组 自主命题·省(区、市)卷题组 考点一 抽样方法 ‎1.(2015湖南,2,5分)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.‎ 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是(  )‎ ‎                                       ‎ A.3 B.4 C.5 D.6‎ 答案 B ‎ ‎2.(2017江苏,3,5分)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取    件. ‎ 答案 18‎ 考点二 统计图表 ‎1.(2015湖北,14,5分)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.‎ ‎(1)直方图中的a=    ; ‎ ‎(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为    . ‎ 答案 (1)3 (2)6 000‎ ‎2.(2017北京,17,13分)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:‎ ‎(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;‎ ‎(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;‎ ‎(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.‎ 解析 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,‎ 所以样本中分数小于70的频率为1-0.6=0.4.‎ 所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.‎ ‎(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,‎ 分数在区间[40,50)内的人数为100-100×0.9-5=5.‎ 所以总体中分数在区间[40,50)内的人数估计为400×‎5‎‎100‎=20.‎ ‎(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,‎ 所以样本中分数不小于70的男生人数为60×‎1‎‎2‎=30.‎ 所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.‎ 所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.‎ 考点三 样本的数字特征 ‎1.(2017山东,8,5分)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为(  )‎ A.3,5 B.5,5 C.3,7 D.5,7‎ 答案 A ‎ ‎2.(2018江苏,3,5分)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为    . ‎ ‎8‎ ‎9 9‎ ‎9‎ ‎0 1 1‎ 答案 90‎ ‎3.(2016江苏,4,5分)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是    . ‎ 答案 0.1‎ 考点四 变量间的相关性 ‎1.(2015湖北,4,5分)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是(  )‎ A.x与y正相关,x与z负相关 ‎ B.x与y正相关,x与z正相关 C.x与y负相关,x与z负相关 ‎ D.x与y负相关,x与z正相关 答案 C ‎ ‎2.(2015重庆,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:‎ 年份 ‎2010‎ ‎2011‎ ‎2012‎ ‎2013‎ ‎2014‎ 时间代号t ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ 储蓄存款y(千亿元)‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ ‎10‎ ‎(1)求y关于t的回归方程y‎^‎=b‎^‎t+a‎^‎;‎ ‎(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.‎ 附:回归方程y‎^‎=b‎^‎t+a‎^‎中,b‎^‎=‎∑‎i=1‎ntiyi‎-nty‎∑‎i=1‎nti‎2‎‎-nt‎2‎‎,‎a‎^‎=y-b‎^‎t.‎ 解析 (1)列表计算如下:‎ i ti yi ti‎2‎ tiyi ‎1‎ ‎1‎ ‎5‎ ‎1‎ ‎5‎ ‎2‎ ‎2‎ ‎6‎ ‎4‎ ‎12‎ ‎3‎ ‎3‎ ‎7‎ ‎9‎ ‎21‎ ‎4‎ ‎4‎ ‎8‎ ‎16‎ ‎32‎ ‎5‎ ‎5‎ ‎10‎ ‎25‎ ‎50‎ ‎∑‎ ‎15‎ ‎36‎ ‎55‎ ‎120‎ 这里n=5,t=‎1‎n‎∑‎i=1‎nti=‎15‎‎5‎=3,y=‎1‎n‎∑‎i=1‎nyi=‎36‎‎5‎=7.2.‎ 又ltt=‎∑‎i=1‎nti‎2‎-nt‎2‎=55-5×32=10,lty=‎∑‎i=1‎ntiyi-nt y=120-5×3×7.2=12,从而b‎^‎=ltyltt=‎12‎‎10‎=1.2,a‎^‎=y-b‎^‎t=7.2-1.2×3=3.6,‎ 故所求回归方程为y‎^‎=1.2t+3.6.‎ ‎(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y‎^‎=1.2×6+3.6=10.8(千亿元).‎ 考点五 独立性检验 ‎1.(2014江西,7,5分)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是(  )‎ 表1‎ ‎  成绩 性别  ‎ 不及格 及格 总计 男 ‎6‎ ‎14‎ ‎20‎ 女 ‎10‎ ‎22‎ ‎32‎ 总计 ‎16‎ ‎36‎ ‎52‎ ‎ ‎ 表2‎ ‎  视力 性别  ‎ 好 差 总计 男 ‎4‎ ‎16‎ ‎20‎ 女 ‎12‎ ‎20‎ ‎32‎ 总计 ‎16‎ ‎36‎ ‎52‎ 表3‎ ‎  智商 性别  ‎ 偏高 正常 总计 男 ‎8‎ ‎12‎ ‎20‎ 女 ‎8‎ ‎24‎ ‎32‎ 总计 ‎16‎ ‎36‎ ‎52‎ ‎ ‎ 表4‎ ‎  阅读量 性别  ‎ 丰富 不丰富 总计 男 ‎14‎ ‎6‎ ‎20‎ 女 ‎2‎ ‎30‎ ‎32‎ 总计 ‎16‎ ‎36‎ ‎52‎ A.成绩 B.视力 C.智商 D.阅读量 答案 D ‎ ‎2.(2014安徽,17,12分)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).‎ ‎(1)应收集多少位女生的样本数据?‎ ‎(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;‎ ‎(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.‎ 附:K2=‎n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎ P(K2≥k0)‎ ‎0.10‎ ‎0.05‎ ‎0.010‎ ‎0.005‎ k0‎ ‎2.706‎ ‎3.841‎ ‎6.635‎ ‎7.879‎ 解析 (1)300×‎4 500‎‎15 000‎=90,所以应收集90位女生的样本数据.‎ ‎(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.‎ ‎(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:‎ 每周平均体育运动时间与性别列联表 男生 女生 总计 每周平均体育运动时间 不超过4小时 ‎45‎ ‎30‎ ‎75‎ 每周平均体育运动时间 超过4小时 ‎165‎ ‎60‎ ‎225‎ 总计 ‎210‎ ‎90‎ ‎300‎ 结合列联表可算得K2=‎300×(45×60-30×165‎‎)‎‎2‎‎75×225×210×90‎=‎100‎‎21‎≈4.762>3.841.‎ 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.‎ C组 教师专用题组 考点一 抽样方法 ‎1.(2015湖北,2,5分)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1 534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为(  )                    ‎ A.134石 B.169石 C.338石 D.1 365石 答案 B ‎ ‎2.(2015北京,4,5分)某校老年、中年和青年教师的人数见下表.采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为(  )‎ 类别 人数 老年教师 ‎900‎ 中年教师 ‎1 800‎ 青年教师 ‎1 600‎ 合计 ‎4 300‎ A.90 B.100 C.180 D.300‎ 答案 C ‎ ‎3.(2014四川,2,5分)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是(  )‎ A.总体 B.个体 C.样本的容量 D.从总体中抽取的一个样本 答案 A ‎ ‎4.(2014重庆,3,5分)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取70人,则n为(  )‎ A.100 B.150 C.200 D.250‎ 答案 A ‎ ‎5.(2014广东,6,5分)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为(  )‎ A.50 B.40 C.25 D.20‎ 答案 C ‎ ‎6.(2014湖南,3,5分)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则(  )‎ A.p1=p219时,y=3 800+500(x-19)=500x-5 700,‎ 所以y与x的函数解析式为 y=‎3 800,   x≤19,‎‎500x-5 700,x>19‎(x∈N).(4分)‎ ‎(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19.(5分)‎ ‎(3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3 800元,20台的费用为4 300元,10台的费用为4 800元,‎ 因此这100台机器在购买易损零件上所需费用的平均数为‎1‎‎100‎(3 800×70+4 300×20+4 800×10)=4 000(元).(7分)‎ 若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4 000元,10台的费用为4 500元,因此这100台机器在购买易损零件上所需费用的平均数为‎1‎‎100‎(4 000×90+4 500×10)=4 050(元).(10分)‎ 比较两个平均数可知,购买1台机器的同时应购买19个易损零件.(12分)‎ ‎3.(2016北京,17,13分)某市居民用水拟实行阶梯水价.每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:‎ ‎(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?‎ ‎(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.‎ 解析 (1)由用水量的频率分布直方图知,‎ 该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.(3分)‎ 所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.(5分)‎ 依题意,w至少定为3.(6分)‎ ‎(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:‎ 组号 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ 分组 ‎[2,4]‎ ‎(4,6]‎ ‎(6,8]‎ ‎(8,10]‎ ‎(10,12]‎ ‎(12,17]‎ ‎(17,22]‎ ‎(22,27]‎ 频率 ‎0.1‎ ‎0.15‎ ‎0.2‎ ‎0.25‎ ‎0.15‎ ‎0.05‎ ‎0.05‎ ‎0.05‎ ‎(10分)‎ 根据题意,该市居民该月的人均水费估计为:‎ ‎4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).(13分)‎ ‎4.(2015课标Ⅱ,18,12分)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.‎ B地区用户满意度评分的频数分布表 满意度评分分组 ‎[50,60)‎ ‎[60,70)‎ ‎[70,80)‎ ‎[80,90)‎ ‎[90,100]‎ 频 数 ‎2‎ ‎8‎ ‎14‎ ‎10‎ ‎6‎ ‎(1)作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);‎ ‎(2)根据用户满意度评分,将用户的满意度分为三个等级:‎ 满意度评分 低于70分 ‎70分到89分 不低于90分 满意度等级 不满意 满意 非常满意 估计哪个地区用户的满意度等级为不满意的概率大,说明理由. ‎ 解析 (1)‎ 通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.‎ ‎(2)A地区用户的满意度等级为不满意的概率大.‎ 记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”.‎ 由直方图得P(CA)的估计值为(0.01+0.02+0.03)×10=0.6,‎ P(CB)的估计值为(0.005+0.02)×10=0.25.‎ 所以A地区用户的满意度等级为不满意的概率大.‎ ‎5.(2015安徽,17,12分)某企业为了解下属某部门对本企业职工的服务情况,随机访问50名职工,根据这50名职工对该部门的评分,绘制频率分布直方图(如图所示),其中样本数据分组区间为:[40,50),[50,60),…,[80,90),[90,100].‎ ‎(1)求频率分布直方图中a的值;‎ ‎(2)估计该企业的职工对该部门评分不低于80的概率;‎ ‎(3)从评分在[40,60)的受访职工中,随机抽取2人,求此2人的评分都在[40,50)的概率.‎ 解析 (1)因为(0.004+a+0.018+0.022×2+0.028)×10=1,所以a=0.006.‎ ‎(2)由所给频率分布直方图知,50名受访职工评分不低于80的频率为(0.022+0.018)×10=0.4,‎ 所以该企业职工对该部门评分不低于80的概率的估计值为0.4.‎ ‎(3)受访职工中评分在[50,60)的有50×0.006×10=3(人),记为A1,A2,A3;‎ 受访职工中评分在[40,50)的有50×0.004×10=2(人),记为B1,B2.‎ 从这5名受访职工中随机抽取2人,所有可能的结果共有10种,它们是{A1,A2},{A1,A3},{A1,B1},{A1,B2},{A2,A3},{A2,B1},{A2,B2},{A3,B1},{A3,B2},{B1,B2},又因为所抽取2人的评分都在[40,50)的结果有1种,即{B1,B2},故所求的概率为P=‎1‎‎10‎.‎ ‎6.(2014重庆,17,13分)20名学生某次数学考试成绩(单位:分)的频率分布直方图如下:‎ ‎(1)求频率分布直方图中a的值;‎ ‎(2)分别求出成绩落在[50,60)与[60,70)中的学生人数;‎ ‎(3)从成绩在[50,70)的学生中任选2人,求此2人的成绩都在[60,70)中的概率.‎ 解析 (1)据题中直方图知组距=10,由(2a+3a+6a+7a+2a)×10=1,解得a=‎1‎‎200‎=0.005.‎ ‎(2)成绩落在[50,60)中的学生人数为2×0.005×10×20=2.‎ 成绩落在[60,70)中的学生人数为3×0.005×10×20=3.‎ ‎(3)记成绩落在[50,60)中的2人为A1,A2,成绩落在[60,70)中的3人为B1,B2,B3,则从成绩在[50,70)的学生中任选2人的基本事件共有10个:‎ ‎(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3),‎ 其中2人的成绩都在[60,70)中的基本事件有3个:‎ ‎(B1,B2),(B1,B3),(B2,B3),故所求概率为P=‎3‎‎10‎.‎ ‎7.(2014北京,18,13分)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:‎ 组号 分组 频数 ‎1‎ ‎[0,2)‎ ‎6‎ ‎2‎ ‎[2,4)‎ ‎8‎ ‎3‎ ‎[4,6)‎ ‎17‎ ‎4‎ ‎[6,8)‎ ‎22‎ ‎5‎ ‎[8,10)‎ ‎25‎ ‎6‎ ‎[10,12)‎ ‎12‎ ‎7‎ ‎[12,14)‎ ‎6‎ ‎8‎ ‎[14,16)‎ ‎2‎ ‎9‎ ‎[16,18)‎ ‎2‎ 合计 ‎100‎ ‎(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;‎ ‎(2)求频率分布直方图中的a,b的值;‎ ‎(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)‎ 解析 (1)根据频数分布表知,100名学生中一周课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生一周课外阅读时间少于12小时的频率是1-‎10‎‎100‎=0.9.‎ 故从该校随机选取一名学生,估计其该周课外阅读时间少于12小时的概率为0.9.‎ ‎(2)课外阅读时间落在组[4,6)内的有17人,频率为0.17,所以a=频率组距=‎0.17‎‎2‎=0.085.‎ 课外阅读时间落在组[8,10)内的有25人,频率为0.25,所以b=频率组距=‎0.25‎‎2‎=0.125.‎ ‎(3)样本中的100名学生该周课外阅读时间的平均数在第4组.‎ ‎8.(2013课标Ⅱ,19,12分)经销商经销某种农产品,在一个销售季度内,每售出1 t该产品获利润500元,未售出的产品,每1 t亏损300元.根据历史资料,得到销售季度内市场需求量的频率分布直方图,如图所示.经销商为下一个销售季度购进了130 t该农产品,以X(单位:t,100≤X≤150)表示下一个销售季度内的市场需求量,T(单位:元)表示下一个销售季度内经销该农产品的利润.‎ ‎(1)将T表示为X的函数;‎ ‎(2)根据直方图估计利润T不少于57 000元的概率.‎ 解析 (1)当X∈[100,130)时,‎ T=500X-300(130-X)=800X-39 000.‎ 当X∈[130,150]时,T=500×130=65 000.‎ 所以T=‎‎800X-39 000,100≤X<130,‎‎65 000,130≤X≤150.‎ ‎(2)由(1)知利润T不少于57 000元当且仅当120≤X≤150.‎ 由直方图知需求量X∈[120,150]的频率为0.7,所以下一个销售季度内的利润T不少于57 000元的概率的估计值为0.7.‎ 考点三 样本的数字特征 ‎1.(2015重庆,4,5分)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:‎ ‎0‎ ‎8‎ ‎9‎ ‎1‎ ‎2‎ ‎5‎ ‎8‎ ‎2‎ ‎0‎ ‎0‎ ‎3‎ ‎3‎ ‎8‎ ‎3‎ ‎1‎ ‎2‎ 则这组数据的中位数是(  )‎ A.19 B.20 C.21.5 D.23‎ 答案 B ‎ ‎2.(2014陕西,9,5分)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为x和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为(  )‎ A.x,s2+1002 B.x+100,s2+1002‎ C.x,s2 D.x+100,s2‎ 答案 D ‎ ‎3.(2016四川,16,12分)我国是世界上严重缺水的国家,某市为了制订合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.‎ ‎(1)求直方图中a的值;‎ ‎(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;‎ ‎(3)估计居民月均用水量的中位数.‎ 解析 (1)由频率分布直方图,可知:月均用水量在[0,0.5)的频率为0.08×0.5=0.04.‎ 同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.‎ 由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.‎ ‎(2)由(1),100位居民月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12,‎ 由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.‎ ‎(3)设中位数为x吨.‎ 因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,‎ 而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,‎ 所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.‎ 故可估计居民月均用水量的中位数为2.04吨.‎ ‎4.(2015广东,17,12分)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.‎ ‎(1)求直方图中x的值;‎ ‎(2)求月平均用电量的众数和中位数;‎ ‎(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?‎ 解析 (1)由已知得,20×(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)=1,解得x=0.007 5.‎ ‎(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估计值为230;‎ 因为20×(0.002+0.009 5+0.011)=0.45<0.5,‎ ‎20×(0.002+0.009 5+0.011+0.012 5)=0.7>0.5,所以中位数在区间[220,240)内.‎ 设中位数为m,则20×(0.002+0.009 5+0.011)+0.012 5×(m-220)=0.5,解得m=224.‎ 所以月平均用电量的中位数为224.‎ ‎(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.012 5×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.‎ 故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×‎25‎‎25+15+10+5‎=5(户).‎ ‎5.(2014广东,17,13分)某车间20名工人年龄数据如下表:‎ 年龄(岁)‎ 工人数(人)‎ ‎19‎ ‎1‎ ‎28‎ ‎3‎ ‎29‎ ‎3‎ ‎30‎ ‎5‎ ‎31‎ ‎4‎ ‎32‎ ‎3‎ ‎40‎ ‎1‎ 合计 ‎20‎ ‎(1)求这20名工人年龄的众数与极差;‎ ‎(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;‎ ‎(3)求这20名工人年龄的方差.‎ 解析 (1)由题表中的数据易知,这20名工人年龄的众数是30,极差为40-19=21.‎ ‎(2)这20名工人年龄的茎叶图如下:‎ ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎9‎ ‎8 8 8 9 9 9‎ ‎0 0 0 0 0 1 1 1 1 2 2 2‎ ‎0‎ ‎(3)这20名工人年龄的平均数x=‎1‎‎20‎×(19×1+28×3+29×3+30×5+31×4+32×3+40×1)=30,‎ 故方差s2=‎1‎‎20‎×[1×(19-30)2+3×(28-30)2+3×(29-30)2+5×(30-30)2+4×(31-30)2+3×(32-30)2+1×(40-30)2]=‎1‎‎20‎×(121+12+3+0+4+12+100)=12.6.‎ ‎6.(2014湖南,17,12分)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:‎ ‎(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),(a,b),‎ 其中a,a分别表示甲组研发成功和失败;b,b分别表示乙组研发成功和失败.‎ ‎(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;‎ ‎(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.‎ 解析 (1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,‎ 其平均数为x甲=‎10‎‎15‎=‎2‎‎3‎;‎ 方差为s甲‎2‎=‎1‎‎15‎‎1-‎‎2‎‎3‎‎2‎‎×10+‎0-‎‎2‎‎3‎‎2‎×5‎=‎2‎‎9‎.‎ 乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为x乙=‎9‎‎15‎=‎3‎‎5‎;‎ 方差为s乙‎2‎=‎1‎‎15‎‎1-‎‎3‎‎5‎‎2‎‎×9+‎0-‎‎3‎‎5‎‎2‎×6‎=‎6‎‎25‎.‎ 因为x甲>x乙,s甲‎2‎y,因此可看出A药的疗效更好.‎ ‎(2)由观测结果可绘制如下茎叶图:‎ 从以上茎叶图可以看出,A药疗效的试验结果有‎7‎‎10‎的叶集中在茎2,3上,而B药疗效的试验结果有‎7‎‎10‎的叶集中在茎0,1上,由此可看出A药的疗效更好.‎ 考点四 变量间的相关性 ‎1.(2012课标全国,3,5分)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=‎1‎‎2‎x+1上,则这组样本数据的样本相关系数为(  )‎ A.-1 B.0‎ C.‎1‎‎2‎ D.1‎ 答案 D ‎ ‎2.(2014湖北,6,5分)根据如下样本数据 x ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ y ‎4.0‎ ‎2.5‎ ‎-0.5‎ ‎0.5‎ ‎-2.0‎ ‎-3.0‎ 得到的回归方程为y‎^‎=bx+a,则(  )‎ A.a>0,b<0 B.a>0,b>0‎ C.a<0,b<0 D.a<0,b>0‎ 答案 A ‎ ‎3.(2015课标Ⅰ,19,12分)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.‎ x y w ‎∑‎i=1‎‎8‎‎(xi-x)2‎ ‎∑‎i=1‎‎8‎‎(wi-w)2‎ ‎∑‎i=1‎‎8‎‎(xi-x)(yi-y)‎ ‎∑‎i=1‎‎8‎‎(wi-w)(yi-y)‎ ‎46.6‎ ‎563‎ ‎6.8‎ ‎289.8‎ ‎1.6‎ ‎1 469‎ ‎108.8‎ 表中wi=xi,w=‎1‎‎8‎‎∑‎i=1‎‎8‎wi.‎ ‎(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)‎ ‎(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;‎ ‎(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:‎ ‎(i)年宣传费x=49时,年销售量及年利润的预报值是多少?‎ ‎(ii)年宣传费x为何值时,年利润的预报值最大?‎ 附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为 β‎^‎‎=‎∑‎i=1‎n‎(ui-u)(vi-v)‎‎∑‎i=1‎n‎(ui-‎u‎)‎‎2‎,α‎^‎=v-β‎^‎ u.‎ 解析 (1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.(2分)‎ ‎(2)令w=x,先建立y关于w的线性回归方程.‎ 由于d‎^‎=‎∑‎i=1‎‎8‎‎(wi-w)(yi-y)‎‎∑‎i=1‎‎8‎‎(wi-‎w‎)‎‎2‎=‎108.8‎‎1.6‎=68,‎ c‎^‎‎=y-d‎^‎ w=563-68×6.8=100.6,‎ 所以y关于w的线性回归方程为y‎^‎=100.6+68w,‎ 因此y关于x的回归方程为y‎^‎=100.6+68x.(6分)‎ ‎(3)(i)由(2)知,当x=49时,年销售量y的预报值 y‎^‎‎=100.6+68‎49‎=576.6,‎ 年利润z的预报值z‎^‎=576.6×0.2-49=66.32.(9分)‎ ‎(ii)根据(2)的结果知,年利润z的预报值 z‎^‎‎=0.2(100.6+68x)-x=-x+13.6x+20.12.‎ 所以当x=‎13.6‎‎2‎=6.8,即x=46.24时,z‎^‎取得最大值.‎ 故年宣传费为46.24千元时,年利润的预报值最大.(12分)‎ ‎4.(2014课标Ⅱ,19,12分)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:‎ 年 份 ‎2007‎ ‎2008‎ ‎2009‎ ‎2010‎ ‎2011‎ ‎2012‎ ‎2013‎ 年份代号t ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ 人均纯收入y ‎2.9‎ ‎3.3‎ ‎3.6‎ ‎4.4‎ ‎4.8‎ ‎5.2‎ ‎5.9‎ ‎(1)求y关于t的线性回归方程;‎ ‎(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.‎ 附:回归直线的斜率和截距的最小二乘估计公式分别为:‎ b‎^‎‎=‎∑‎i=1‎n‎(ti-t)(yi-y)‎‎∑‎i=1‎n‎(ti-‎t‎)‎‎2‎,a‎^‎=y-b‎^‎t.‎ 解析 (1)由所给数据计算得 t‎=‎1‎‎7‎×(1+2+3+4+5+6+7)=4,‎ y‎=‎1‎‎7‎×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,‎ ‎∑‎i=1‎‎7‎‎(ti-t)2=9+4+1+0+1+4+9=28,‎ ‎∑‎i=1‎‎7‎‎(ti-t)(yi-y)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,‎ b‎^‎‎=‎∑‎i=1‎‎7‎‎(ti-t)(yi-y)‎‎∑‎i=1‎‎7‎‎(ti-‎t‎)‎‎2‎=‎14‎‎28‎=0.5,‎ a‎^‎‎=y-b‎^‎t=4.3-0.5×4=2.3,所求回归方程为y‎^‎=0.5t+2.3.‎ ‎(2)由(1)知,b‎^‎=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.‎ 将2015年的年份代号t=9代入(1)中的回归方程,得y‎^‎=0.5×9+2.3=6.8,‎ 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.‎ 考点五 独立性检验 ‎ (2010课标全国,19,12分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:‎ 性别 是否需要志愿者      ‎ 男 女 需要 ‎40‎ ‎30‎ 不需要 ‎160‎ ‎270‎ ‎(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;‎ ‎(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?‎ ‎(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?‎ 说明理由.‎ 附:‎ P(K2≥k)‎ ‎ 0.050  0.010  0.001‎ k ‎ 3.841  6.635  10.828‎ K2=‎n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎ ‎(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为‎70‎‎500‎=14%.‎ ‎(2)K2=‎500×(40×270-30×160‎‎)‎‎2‎‎200×300×70×430‎≈9.967.‎ 由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.‎ ‎(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.‎ ‎【三年模拟】‎ 时间:60分钟 分值:70分 一、选择题(每小题5分,共20分)‎ ‎1.(2017安徽合肥四校联考,4)设样本数据x1,x2,…,x20的均值和方差分别为1和8,若yi=2xi+3(i=1,2,…,20),则y1,y2,…,y20的均值和方差分别是(  )                                       ‎ A.5,32 B.5,19 C.1,32 D.4,35‎ 答案 A ‎ ‎2.(2017山西大学附中第二次模拟,3)某校高二(1)班一次阶段考试数学成绩的茎叶图和频率分布直方图的可见部分如图,根据图中的信息,可确定被抽测的人数及分数在[90,100]内的人数分别为(  )‎ A.20,2 B.24,4 C.25,2 D.25,4‎ 答案 C ‎ ‎3.(2018江西南昌一模,10)已知线性相关的五个样本点A1(0,0),A2(2,2),A3(3,2),A4(4,2),A5(6,4),用最小二乘法得到回归直线方程l1:y‎^‎=b‎^‎x+a‎^‎,过点A1,A2的直线方程l2:y=mx+n,那么下列四个命题:‎ ‎①m>b‎^‎,a‎^‎>n;②直线l1过点A3;③‎∑‎i=1‎‎5‎(yi-b‎^‎xi-a‎^‎)2≥‎∑‎i=1‎‎5‎(yi-mxi-n)2;④‎∑‎i=1‎‎5‎|yi-b‎^‎xi-a‎^‎|≥‎∑‎i=1‎‎5‎|yi-mxi-n|.‎ 参考公式:b‎^‎=‎‎∑‎i=1‎nxiyi‎-nxy‎∑‎i=1‎nxi‎2‎‎-nx‎ ‎‎2‎‎=‎∑‎i=1‎n‎(xi-x)(yi-y)‎‎∑‎i=1‎n‎(xi-‎x‎)‎‎2‎,a‎^‎=y-b‎^‎x)‎ 其中正确的命题有(  )‎ ‎                     ‎ A.1个 B.2个 C.3个 D.4个 答案 B ‎ ‎4.(2018广东五校联考,3)下表是我国某城市在2017年1月份至10月份10个月的最低气温与最高气温(℃)的数据一览表.‎ 月份 ‎1‎ ‎2‎ ‎3‎ ‎4‎ ‎5‎ ‎6‎ ‎7‎ ‎8‎ ‎9‎ ‎10‎ 最高气温 ‎5‎ ‎9‎ ‎9‎ ‎11‎ ‎17‎ ‎24‎ ‎27‎ ‎30‎ ‎31‎ ‎21‎ 最低气温 ‎-12‎ ‎-3‎ ‎1‎ ‎-2‎ ‎7‎ ‎17‎ ‎19‎ ‎23‎ ‎25‎ ‎10‎ 已知该城市各月的最低气温与最高气温具有相关关系,根据表格下列结论错误的是(  )‎ A.最低气温与最高气温为正相关 B.每月最高气温和最低气温的平均值在前8个月逐月增加 C.月温差(最高气温减最低气温)的最大值出现在1月 D.1月至4月的月温差(最高气温减最低气温)相对于7月至10月,波动性更大 答案 B 二、解答题(共50分)‎ ‎5.(2017湖南百所重点中学阶段性诊断,18)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:‎ ‎(1)试问这3年的前7个月中哪个月的月平均利润较高?‎ ‎(2)通过计算判断这3年的前7个月的总利润的发展趋势;‎ ‎(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.‎ 月份x ‎1‎ ‎2‎ ‎3‎ ‎4‎ 利润y(单位:百万元)‎ ‎4‎ ‎4‎ ‎6‎ ‎6‎ 相关公式:b‎^‎=‎∑‎i=1‎n‎(xi-x)(yi-y)‎‎∑‎i=1‎n‎(xi-‎x‎)‎‎2‎=‎∑‎i=1‎nxiyi‎-nxy‎∑‎i=1‎nxi‎2‎‎-nx‎ ‎‎2‎,‎ a‎^‎‎=y-b‎^‎x.‎ 解析 (1)由折线图可知5月和6月的平均利润最高.‎ ‎(2)第1年前7个月的总利润为 ‎1+2+3+5+6+7+4=28(百万元),‎ 第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元),‎ 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),‎ 所以这3年的前7个月的总利润呈上升趋势.‎ ‎(3)∵x=2.5,y=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,‎ ‎∴b‎^‎=‎54-4×2.5×5‎‎30-4×‎‎2.5‎‎2‎=0.8,‎ ‎∴a‎^‎=5-2.5×0.8=3,‎ ‎∴y‎^‎=0.8x+3,‎ 当x=8时,y‎^‎=0.8×8+3=9.4.‎ ‎∴估计第3年8月份的利润为9.4百万元.‎ ‎6.(2018齐鲁名校教科研协作体山东、湖北部分重点中学高考冲刺模拟,18)某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x与y(万元)近似满足关系式y=C1·‎2‎C‎2‎x,其中C1,C2为常数.(2013年至2018年该市中学生人数大致保持不变)‎ y k ‎∑‎i=1‎‎5‎‎(ki-k)2‎ ‎∑‎i=1‎‎5‎‎(yi-y)2‎ ‎∑‎i=1‎‎5‎‎(xi-x)(yi-y)‎ ‎∑‎i=1‎‎5‎‎(xi-x)‎ ‎·(ki-k)‎ ‎2.3‎ ‎1.2‎ ‎3.1‎ ‎4.6‎ ‎2‎ ‎1‎ 其中ki=log2yi,k=‎1‎‎5‎‎∑‎i=1‎‎5‎ki.‎ ‎(1)估计该市2018年人均可支配收入;‎ ‎(2)求该市2018年的“专项教育基金”的财政预算大约为多少.‎ 附:①对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程v‎^‎=β‎^‎u+α‎^‎的斜率和截距的最小二乘估计分别为β‎^‎=‎∑‎i=1‎n‎(ui-u)(vi-v)‎‎∑‎i=1‎n‎(ui-‎u‎)‎‎2‎,α‎^‎=v-β‎^‎u.‎ ‎②‎ ‎2-0.7‎ ‎2-0.3‎ ‎20.1‎ ‎21.7‎ ‎21.8‎ ‎21.9‎ ‎0.6‎ ‎0.8‎ ‎1.1‎ ‎3.2‎ ‎3.5‎ ‎3.73‎ 解析 (1)因为x=‎1‎‎5‎×(13+14+15+16+17)=15,‎ 所以‎∑‎i=1‎‎5‎(xi-x)2=(-2)2+(-1)2+02+12+22=10.‎ 由k=log2y得k=log2C1+C2x,‎ 所以C2=‎∑‎i=1‎‎5‎‎(xi-x)(ki-k)‎‎∑‎i=1‎‎5‎‎(xi-‎x‎)‎‎2‎=‎1‎‎10‎,‎ log2C1=k-C2x=1.2-‎1‎‎10‎×15=-0.3,‎ 所以C1=2-0.3=0.8,‎ 所以y=0.8×‎2‎x‎10‎.‎ 当x=18时,y=0.8×21.8=0.8×3.5=2.8(万元).‎ 所以估计该市2018年人均可支配收入为2.8万元.‎ ‎(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生共有200 000×7%=14 000人,‎ 一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长‎0.8×‎2‎‎1.8‎-0.8×‎‎2‎‎1.7‎‎0.8×‎‎2‎‎1.7‎=20.1-1=0.1=10%,‎ 所以2018年该市特别困难的中学生有2 800×(1-10%)=2 520人,‎ 很困难的学生有4 200×(1-20%)+2 800×10%=3 640人,‎ 一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.‎ 所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=1 624(万元).‎ ‎7.(2018湖南长沙雅礼中学、河南省实验中学联考,19)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:‎ 空气污染指数 ‎(0,50]‎ ‎(50,100]‎ ‎(100,150]‎ ‎(150,200]‎ ‎(200,300]‎ ‎(300,+∞)‎ 空气质量等级 优 良 轻度污染 中度污染 重度污染 严重污染 某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.‎ ‎(1)求频率分布直方图中m的值;‎ ‎(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;‎ ‎(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:‎ 空气质量 优 良 轻度污染 中度污染 重度污染 严重污染 天数 ‎11‎ ‎27‎ ‎11‎ ‎7‎ ‎3‎ ‎1‎ 根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.‎ 空气质量优良 空气质量污染 合计 限行前 限行后 合计 参考数据:‎ P(K2≥k0)‎ ‎0.15‎ ‎0.10‎ ‎0.05‎ ‎0.025‎ ‎0.010‎ ‎0.005‎ k0‎ ‎2.072‎ ‎2.706‎ ‎3.841‎ ‎5.024‎ ‎6.635‎ ‎7.879‎ 参考公式:K2=n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎,其中n=a+b+c+d.‎ 解析 (1)因为限行分单双号,王先生的车被限行的概率为0.05,‎ 所以空气重度污染和严重污染的概率应为0.05×2=0.1,‎ 由频率分布直方图可知(0.004+0.006+0.005+m)×50+0.1=1,解得m=0.003.‎ ‎(2)因为空气质量良好与中度污染的天气的概率之比为0.3∶0.15=2∶1,‎ 所以按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,‎ 空气质量中度污染的天气被抽取的有2天,记作B1,B2,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共15个.‎ 记事件M为“至少有一天空气质量是中度污染”,则事件M所包含的基本事件有(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(A4,B1),(A4,B2),(B1,B2),共9个,‎ 故P(M)=‎9‎‎15‎=‎3‎‎5‎,即至少有一天空气质量是中度污染的概率为‎3‎‎5‎.‎ ‎(3)2×2列联表如下:‎ 空气质量优良 空气质量污染 合计 限行前 ‎90‎ ‎90‎ ‎180‎ 限行后 ‎38‎ ‎22‎ ‎60‎ 合计 ‎128‎ ‎112‎ ‎240‎ 由表中数据可得,K2=‎240×(90×22-90×38‎‎)‎‎2‎‎180×60×128×112‎≈3.214>2.706,‎ 所以有90%的把握认为空气质量的优良与汽车尾气的排放有关.‎ ‎8.(2019届河南名校联盟调研,19)为了调查一款电视机的使用时间,研究人员对该款电视机进行了相应的测试,得到的数据统计如图所示.‎ 并对不同年龄层的市民对这款电视机的购买意愿做出调查,得到的数据如下表所示:‎ 愿意购买该款电视机 不愿意购买该款电视机 总计 ‎40岁以上 ‎800‎ ‎1 000‎ ‎40岁以下 ‎600‎ 总计 ‎1 200‎ ‎(1)根据图中的数据,试估计该款电视机的平均使用时间;‎ ‎(2)根据表中数据,判断是否有99.9%的把握认为“愿意购买该款电视机”与“市民的年龄”有关;‎ ‎(3)若按照电视机的使用时间进行分层抽样,从使用时间在[0,4)和[4,20]的电视机中抽取5台,再从这5台中随机抽取2台进行配件检测,求被抽取的2台电视机的使用时间都在[4,20]内的概率.‎ 附:K2=n(ad-bc‎)‎‎2‎‎(a+b)(c+d)(a+c)(b+d)‎,‎ P(K2≥k0)‎ ‎0.100‎ ‎0.050‎ ‎0.010‎ ‎0.001‎ k0‎ ‎2.706‎ ‎3.841‎ ‎6.635‎ ‎10.828‎ 解析 (1)依题意,所求平均数为2×0.05×4+6×0.09×4+10×0.07×4+14×0.03×4+18×0.01×4=0.4+2.16+2.8+1.68+0.72=7.76.‎ 故估计该款电视机的平均使用时间为7.76年.‎ ‎(2)依题意,完善表中的数据如下所示:‎ 愿意购买该款电视机 不愿意购买该款电视机 总计 ‎40岁以上 ‎800‎ ‎200‎ ‎1 000‎ ‎40岁以下 ‎400‎ ‎600‎ ‎1 000‎ 总计 ‎1 200‎ ‎800‎ ‎2 000‎ 故K2=‎2 000×(800×600-200×400‎‎)‎‎2‎‎1 000×1 000×1 200×800‎≈333.33>10.828,‎ 故有99.9%的把握认为“愿意购买该款电视机”与“市民的年龄”有关.‎ ‎(3)依题意得,使用时间在[0,4)内的电视机有1台,记为A,使用时间在[4,20]内的电视机有4台,记为a,b,c,d,则从这5台电视机中随机抽取2台,所有的情况为(A,a),(A,b),(A,c),(A,d),(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共10种,‎ 其中满足条件的有(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共6种,故所求概率P=‎6‎‎10‎=‎3‎‎5‎.‎ ‎9.(2019届河南信阳第一次大考,19)如图是某小区2017年1月至2018年1月当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码1—13分别对应2017年1月—2018年1月)‎ 由散点图选择y=a+bx和y=c+dln x两个模型进行拟合,‎ 经过数据处理得到两个回归方程分别为y‎^‎=0.936 9+0.028 5x和y‎^‎=0.955 4+0.030 6ln x,并得到以下一些统计量的值:‎ y‎^‎‎=0.936 9+‎ ‎0.028 5‎x y‎^‎‎=0.955 4+‎ ‎0.030 6ln x 残差平方和‎∑‎i=1‎‎13‎(yi-y‎^‎i)2‎ ‎0.000 591‎ ‎0.000 164‎ 总偏差平方和‎∑‎i=1‎‎13‎(yi-y)2‎ ‎0.006 050‎ ‎(1)请利用相关指数R2判断哪个模型的拟合效果更好;‎ ‎(2)某位购房者拟于2018年6月份购买这个小区m(70≤m≤160)平方米的二手房(欲购房为其家庭首套房).若购买时该小区所有住房的房产证均已满2年但未满5年,请你利用(1)中拟合效果更好的模型估算该购房者应支付的购房金额.(购房金额=房款+税费;房屋均价精确到0.001万元/平方米)‎ 附注:根据有关规定,二手房交易需要缴纳若干项税费,税费按房屋的计税价格进行征收(计税价格=房款),征收方式见下表:‎ 契税 ‎(买方缴纳)‎ 首套面积在90平方米内(含90平方米)为1%;首套面积在90平方米以上且在144平方米以内(含144平方米)为1.5%;首套面积在144平方米以上或非首套为3%‎ 增值税 ‎(卖方缴纳)‎ 房产证未满2年或满2年且面积在144平方米以上(不含144平方米)为5.6%;其他情况免征 个人所得税 ‎(卖方缴纳)‎ 首套面积在144平方米以内(含144平方米)为1%;首套面积在144平方米以上或非首套均为1.5%;房产证满5年且是家庭唯一住房的免征 参考数据:ln 2≈0.69,ln 3≈1.10,ln 17≈2.83,ln 19≈2.94,‎2‎≈1.41,‎3‎≈1.73,‎17‎≈4.12,‎19‎≈4.36,参考公式:相关指数R2=1-‎∑‎i=1‎n‎(yi-‎y‎^‎i‎)‎‎2‎‎∑‎i=1‎n‎(yi-‎y‎)‎‎2‎.‎ 解析 (1)设模型y‎^‎=0.936 9+0.028 5x和y‎^‎=0.955 4+0.030 6ln x的相关指数分别为R‎1‎‎2‎和R‎2‎‎2‎,则R‎1‎‎2‎=1-‎0.000 591‎‎0.006 050‎≈0.902,R‎2‎‎2‎=1-‎0.000 164‎‎0.006 050‎≈0.973,R‎1‎‎2‎
查看更多