您的当前位置:首页正文

两样本差异的统计学比较方法-假设检验

2021-05-27 来源:客趣旅游网
两样本差异的统计学⽐较⽅法-假设检验

⼀:背景

这⼏天重新复习了⼀下以前经典的假设检验⽅法。包括之前使⽤excel来做⼀些简单的统计分析。假设检验(hypothesis test)亦称显著性检验(significant test),是统计推断的另⼀重要内容,

其⽬的是⽐较总体参数之间有⽆差别。假设检验的实质是判断观察到的“差别”是由抽样误差引起还是总体上的不同,⽬的是评价两种不同处理引起效应不同的证据有多强,这种证据的强度⽤概率P来度量和表⽰。P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。⼆:假设检验步骤

假设任意给定两组数据,⽐如从两个样本抽样的⼀个特征。想知道这两个样本的分布是否不同,有没有差别。

问题通常有两种解法,⼀个是参数检验,⼀个⾮参数检验。

如果数据的分布⽐较符合某些正态分布或经典三⼤分布(t分布,f分布,卡⽅分布)的条件,采⽤第⼀种办法效果⽐较好,分为以下⼏个步骤

1.建⽴假设2.求抽样分布

3.选择显著性⽔平和否定域4.计算检验统计量5.判定

正态分布,⽤以构建Z统计量,主要⽤来作为以下⼏种情形的检验分布,

1:(单个总体参数)当总体⽅差已知,⼤样本的情况下,判断样本均值(⽐例)和总体均值(⽐例)是否有差异。例如已知⼀个城市2018年⼈均收⼊是1万元,2019年随机抽样了100个⼈,计算均值为10100元,问两年的⼈均收⼊是否有显著差异。2:(单个总体参数)当总体⽅差已知,⼩样本的情况下,判断样本均值(⽐例)和总体均值(⽐例)是否有差异。3:(两个总体参数)当总体⽅差已知或未知,⼤样本的情况下,⽐如随机抽100名18岁⾼中⽣,⽐较男⼥的⾝⾼是否有差异T分布,⽤以构建t统计量,⼜称厚尾分布

1:(单个总体参数)当总体⽅差未知,⼩样本的情况下,判断样本均值(⽐例)和总体均值(⽐例)是否有差异。2:(两个总体参数)当总体⽅差未知,⼩样本的情况下,⽐如随机抽20名18岁⾼中⽣,⽐较男⼥的⾝⾼是否有差异卡⽅分布,⽤以构建x2统计量,

1:(单个总体参数)⽐较和总体⽅差是否存在差异,⽐如⽣产⼀种零件,要求误差不超过1mm,随机抽取了20个,分别进⾏测定,求卡⽅值做检验

2:拟合优度检验,⽐较两个总体⽐例是否有显著差异,具体参考问题3

3:独⽴性检验,两个分类变量之间是否存在联系,⽐如产品的质量与产地是否有关 F分布,⽤以构建f统计量

1:(两个总体参数)⽐较两总体的⽅差是否相等,⽅差齐,可以通过两个⽅差之⽐等于1来进⾏,如果不满⾜正态,独⽴,⽅差齐等前提,也不知道分布形式,可以采⽤⾮参检验。当然满⾜参数检验条件的两组数据也可以使⽤⾮参检验,但是效果不如参数检验好。三:参数检验⽅法⽰例1:T检验

通过两个样本之差的分布去推断,两个样本数据应满⾜正态分布条件,⽅差齐,还要相互独⽴,之所以叫t检验,是因为构建的统计量是t统计量,t统计量服从n1+n2-2个⾃由度的t分布,

⼩样本的情况下(n<=30),⽐较两个样本的均值是否显著差异。

原假设是没有差异,P<0.05,拒绝原假设,说明有差异。如果通过Levene F⽅法检验⽅差不齐,则需要⽤校正的t检验,或者⽤⾮参数⽅法处理。

excel (ttest),spss,R (t.test())都可以分析。

前提要先做正态性检验,但这⼀个问题可以有很多⽅法来处理,⼀个是画直⽅图,pp,qq,只是定性分析,还有其他的⽅法,像R⾥的shapiro.test,ks检验⽤的⽐较多。

Levene's Test 检验,⽤于检验两组及两组以上独⽴样本的⽅差是否相等。要求样本为随机样本且相互独⽴。Levene检验 与Bartlette检验(巴特莱多)的区别:

1)对于正态分布的样本,Bartlette检验极其灵敏,但是对于⾮正态分布的样本,检验⾮常不准确;

2)Levene检验是⼀种更为稳健的检验⽅法,既可⽤于正态分布的样本,也可⽤于⾮正态分布的样本,同时对⽐较的各组样本量可以相等或不等;

3)两者的检验原理不同,Bartlette检验是对原始数据检验其⽅差是否齐性,⽽Levene检验是检验组间残差是否齐性,⽽且⼀般认为要求残差的⽅差齐性,

所以⼀般统计软件使⽤Levene检验(同时,根据由原理也可以解释1和2,Levene检验只针对残差,所以与分布⽆关,⽽Bartlette检验针对原始数据,所以符合正态分布与⾮正态分布差别较⼤);

因此,Levene检验被⼴泛地公认为是标准的⽅差齐性检验的⽅法。

2:⽅差分析(F 检验)

t检验是⽤来⽐较样本均值的,f检验是⽤来⽐叫⽅差的,⼜分单因素,双因素,多因素,就是对⼀种⽬标,有⼀个变量或多个变量影响这该⽬标,⽐如亩产,有品种,肥⼒,灌溉等因素,哪个因素是主要影响因素呢?使⽤⽅差分析需要满⾜(正态,⽅差齐)

通过⽅差分析,找到整体⽅差的主要来源,加⼊有3个因素,⼀般软件会⾃动处理单因素,双因素联合效应,三因素联合效应。

原假设是组间⽅差(同因素不同处理⽔平下)没差异,如果P<0.05,拒绝原假设,说明该因素的⽅差占了⼤部分整体⽅差来源,是显著影响因素。

如果⼀个因素种,有多个处理⽔平,也就是多重⽐较时,spss⾥使⽤tukey和lsd这两种⽐较检验⽅法较为常⽤,如果⽅差不齐,有Tamhane’s T2法选项处理。3:卡⽅检验

⽤于列联表分析,当变量是⼀个分类变量时,统计的是频数,⽐如赞同的⼈数,⼀级,⼆级这种。

卡⽅检验可以⽤于正态性检验,独⽴性检验(⽐如说⽜奶的质量是否与产地有关), ⽐较分类变量⽐例之间是否有显著差异(⽐如两个城市之间不同社会阶层的收⼊⽔平占⽐是否有差异)。⾃由度是(R-1)*(C-1)四:⾮参数检验⽅法⽰例

⾮参数检验主要不是⽤变量的值,⼆是⽤秩作为分析对象。

spss只要勾上四个选项,可以同时分析出结果。1: U检验

要满⾜四个假设,1.数据中有⼀个因变量,且因变量为连续变量或等级变量。

例如:连续变量——智⼒得分、考试分数、体重;等级变量——满意程度(包括⾮常不满意、不满意、满意、⾮常满意)。2.数据中有⼀个⾃变量,且⾃变量为⼆分类的独⽴变量。例如:性别分组——男性组、⼥性组;⽣活习惯——吸烟组、⾮吸烟组。3.观察值之间相互独⽴,即⾃变量的两个分组中的研究个体不能相关。

研究数据不符合此项条件,例如测量同⼀组患者治疗前与治疗后的⾎⽣化指标,这样数据属于配对样本数据,应选⽤Wilcoxon符号秩和检验。

例如:对⽐两个班级的学⽣的考试分数;对⽐患者与健康者的⾎⽣化指标。4.⾃变量中两组样本的分布⼀致。

2:KS检验:不仅可以检验单个总体是否服从某⼀理论分布,还能检验两个总体分布是否存在显著差异。3:Moses极端反应检验4:W检验

因篇幅问题不能全部显示,请点此查看更多更全内容