一、普通的众数、平均数、中位数及方差 1、 众数:一组数据中,出现次数最多的数。
2、平均数:①、常规平均数:xxx22xnnx1x2xn ②、加权平均数:x11
12nn3、中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数。 4、方差:s21[(x1x)2(x2x)2(xnx)2] n二、频率直方分布图下的频率
1、频率 =小长方形面积:fSy距d;频率=频数/总数 2、频率之和:f1f2fn1;同时 S1S2Sn1;
三、频率直方分布图下的众数、平均数、中位数及方差 1、众数:最高小矩形底边的中点。
xx1S1x2S2x3S3xnSn2、平均数:xx1f1x2f2x3f3xnfn 3、中位数: 从左到右或者从右到左累加,面积等于0.5时x的值。 4、方差:s2(x1x)2f1(x2x)2f2(xnx)2fn
ˆaˆbxˆ 四、线性回归直线方程:yˆ其中:b(xix)(yiy)i1n(xix)i1n2xiyinxyi1n22xinxi1nˆ ˆybx , a1、线性回归直线方程必过样本中心(x,y);
ˆ0:正相关;bˆ0:负相关。 2、bˆ中,两个公式中分子、分母对应也相等;中间可以推导得到。 ˆaˆbxˆ的斜率b3、线性回归直线方程:y五、回归分析
ˆiyiyˆi(残差=真实值—预报值)。分析:eˆi越小越好; 1、残差:eˆi)2, 2、残差平方和:(yiyi1nˆi)2(y1yˆ1)2(y2yˆ2)2(ynyˆn)2 分析:①意义:越小越好; ②计算:(yiyi1n3、拟合度(相关指数):R21nˆi)2(yiyi1nn(yiy)i12,分析:①.R20,1的常数; ②.越大拟合度越高;
4、相关系数:r(xix)(yiy)i1(xix)(yiy)2i1i1nn2xiyinxyi1n(xix)(yiy)2i1i1nn 2分析:①.r[1,1]的常数; ②.r0:正相关;r0:负相关
③.r[0,0.25];相关性很弱; r(0.25,0.75);相关性一般; r[0.75,1];相关性很强; 六、独立性检验 1、2×2列联表: 2、独立性检验公式 ①.k2 2x1 x2 b d bd 合计 n(adbc)
(ab)(cd)(ac)(bd)y1 y2 合计 a c ac ab cd n
②.犯错误上界P对照表
3、独立性检验步骤
n(adbc)2①.计算观察值k:k;
(ab)(cd)(ac)(bd)②.查找临界值k0:由犯错误概率P,根据上表查找临界值k0;
③.下结论:kk0:即犯错误概率不超过P的前提下认为: ,有1-P以上的把握认为: ; kk0:即犯错误概率超过P的前提认为: ,没有1-P以上的把握认为: ;
【经典例题】
题型1 与茎叶图的应用
例1(2014全国)某市为考核甲、乙两部门的工作情况,学科网随机访问了50位市民。根据这50位市民 (1)分别估计该市的市民对甲、乙部门评分的中位数;
(2)分别估计该市的市民对甲、乙部门的评分做于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙学科网两部门的评价。
题型2 频率直方分布图的应用
例2(2015广东)某城市100户居民的月平均用电量(单位:度),以160,180,180,200,200,220,220,240,240,260,260,280,280,300分组的频率分布直方图如图2,
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为220,240,240,260,260,280,280,300的四组用户中,用分层抽样的方法抽取11户居民,则
月平均用电量在220,240的用户中应抽取多少户?
练习2 (2014全国1)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量表得如下频数分布表: 质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125) 频数 6 26 38 22 8 (1)在答题卡上作出这些数据的频率分布直方图: (2)估计这种产品质量指标值的平均数及方差
(同一组中的数据用该组区间的中点值作代表); (3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?
题型3 计算线性回归方程
例3(2015重庆)随着我国经济的发展,居民
的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表: 年份 2010 2011 2012 2013 时间代号t 1 2 3 4 储蓄存款y(千亿元) 5 6 7 8 2014 5 10 ˆaˆbtˆ (1)求y关于t的回归方程y(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.
练习3(2014全国2)某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的数据如下表:
年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9 (1)求y关于t的线性回归方程; (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
题型4 线性回归分析
例4(2016全国3)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1–7分别对应年份2008–2014.
(1).由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
ˆaˆbtˆ(系数精确到0.01),(2).求出y关于t的回归方程y预测2016年我国生活垃圾无害化处理量.
参考数据:
yi17i9.32,tiyi40.17,i17(yy)ii1720.55,≈2.646.
参考公式:r(tt)(yy)iii1n(tit)2(yiy)2i1i1nn回归方程yabt中:b,(tt)(yy)iii1n(tt)ii1na=ybt. ,2
题型5 独立性检验综合应用
例5.为了解某班学生喜爱打篮球是否与性别有关,对本班60人进行了问卷调查得到了如下的2×2列联表: (1)用分层抽样的方法在喜爱打篮球的学生中抽6人,其中男生抽多少人? (2)在上述抽取的人中选2人,求恰有一名女生的概率;
(3)你是否有95%的把握认为喜爱打篮球与性别有关?说明你的理由。
练习5. 为调查某市学生百米运动成绩,从该市学生中按照男女比例 随机抽取50名学生进行百米测试,学生成绩全部都介于13秒到18秒之 间,将测试结果按如下方式分成五组,第一组13,14,第二组14,15,第 五组17,18,如图是按上述分组方法得到的频率分布直方图. (1)求这次测试成绩的平均数、众数和中位数、
(2)设m,n表示从第一组和第五组的所有学生中任意抽取的两名学生的百米测试成绩,即m,n13,1417,18,求事件“mn2”的概率;
(3)根据有关规定,成绩小于16秒为达标.如果男女生使用相同的达标标准,则男女生达标情况如下表: 完成上表,并根据上表数据,能否有99﹪的把握认为“体育达标与性达标 别有关”? 不达标 总计
男 24 女 12 总计 50
因篇幅问题不能全部显示,请点此查看更多更全内容