参考资料:R试验设计与数据分析
2、假设检验
从总体随机抽样,由样本信息推断总体特征,除了参数估计之外,在实际应用中还会遇到这样的问题:某一样本均数是否来自已知均数总体?两个不同样本均数是否来自均数相同的总体等等。要回答这类问题,除参数估计的方法外,更多的是用统计推断的另一种方法——假设检验来解决。
假设检验也成为显著性检验,它和参数估计是统计推断的两个重要领域。假设检验是对总体的特征(如总体的参数或分布、位置)提出某种假设,如果假设筒体均值为一定值、总体均值相等、总体分布为某种分布、两个总体分布位置相同等等,然后根据随机样本提供的信息,根据统计量的分布规律计算出检验统计量,再根据计算出来的检验统计量确定其概率值,运用小概率原理,由p值判断样本是否只支持原假设,推断假设是否成立,并对假设做出取舍决策,从而最终做出统计推断。
所谓小概率原理,就是在一次试验中,概率很小(接近于零)的事件认为是实际上不可能发生的事件,而概率接近于1的事件认为是实际上必然发生的事件。根据小概率原理,概率很小的随机事件在一次试验中可认为是不会发生的。否定假设的依据就是小概率原理。
统计上的假设检验方法是:先假设差异完全是抽样误差所致,在这个假设下,计算检验统计量(如t值、u值等),按样本统计量的分布规律求出获得现有样本检验统计量值的概率,采用归纳法和类似反证法的逻辑作出拒绝假设或不拒绝假设的推断。如果出现了小概率事件,就应拒绝这个假设;如果没有出现小概率事件,则没有理由怀疑这个假设,所以不拒绝这个假设。
假设检验的一般步骤是:
①对待检验的未知参数θ,根据问题的需要,做出一个单边或双边的原假设H0。
②选定一个显著水平α,最常用的是α=0.05。
③构造一个统计量g,g的带下反映对H0有利或不利,再根据g确定其概率p值。
④最后根据小概率原理,依据p值判断样本信息是否支持原假设H0,并对假设做出取舍,从而做出最终统计推断。
⑤如果根据统计量g计算出p值大于显著性水平,则拒绝接受原假设;如果p值小于显著性水平,则说明尚没有证据表明原假设是错误的,从而接受原假设。
通常采用结论成立的假设为原假设,又称为零假设,记为H0;与之对立的假设为备择假设,又称为对立假设,记为H1。原假设和对立假设并不对称或可交换,它们在假设检验中的地位是不同的。原假设和备择假设的建立主要根据具体问题来决定,常把没有把握、不能轻易肯定的命题作为备择假设,而把没有充分理由不能轻易否定的命题作为原假设,只有理由充分时才拒绝它,否则应予以保留。
在假设检验中,拒绝原假设m的最小显著性水平为检验的P值。检验的P值表示对原假设的怀疑程度,或解释为首次拒绝原假设的概率,P值越小,表示原假设越可疑,从而越应该拒绝原假设。P值的具体计算依赖于原假设、统计量的分布及其规律。
3、重要的参数检验
由于实际问题中,大多数随机变量服从或近似服从正态分布,因此这里重点介绍正态参数的假设检验。在正态计量资料的假设检验中,最为简单、常用的方法是t检验。当样本含量较小时(如n<60),理论上要求t检验的样本随机地取自正态总体,量小样本均值比较时还要求两样本所对应的两总体方差相等,即方差齐性。在实际应用中,如与上述条件略有偏离,对结果亦影响不大。
(1)单样本t检验
单样本t检验及样本均值与已知总体均值(一般为理论值、标准值或经过大量观察所得到的稳定值)的比较。其检验统计量公式为:
自由度v=n-1。在R语言中,可以采用t.test()函数进行单样本t检验。

# 建立样本
x<-rnorm(n=36,mean=130.83,sd=25.74)
# 单样本t检验
result<-t.test(x,mu=140)
# 查看检验结果
result
# 查看统计量
result$statistic
# 查看自由度
result$parameter
# 查看p值
result$p.value
# 查看置信区间
result$conf.int

通过R语言的t.test()函数,我们可以看到t统计量为-3.88,p值为0.0004,按α=0.05水平,拒绝H0。
t.test()函数也给出了区间估计的结果,95%置信水平的置信区间,本例中置信区间为:[117.0252,132.8023],该区间不包含140,并且低于140。
(2)配对样本t检验
配对样本t检验又称为成组t检验,适用于配对设计的计量资料。配对设计是将受试对象按照某些重要特征配成对子,每对中受试对象随机分配到两个处理组,主要有两种情形:一种是同质受试对象分别接受两种不同处理;另外一种是同一受试对象分别接受两种不同处理。配对t检验本职与单样本t检验相同,若两种处理效果相同,即μ1=μ2,则μ1-μ2=0,因此可将此类资料看成两样本均值之差所代表的样本与未知总体均值
的比较,其检验统计量计算式为:
式中s_d为差值的标准差,n为对子数,自由度v=n-1

# 录入样本数据
m1<-c(0.840,0.591,0.674,0.632,0.687,0.978,0.750,0.730,1.200,0.870)
m2<-c(0.580,0.509,0.500,0.316,0.337,0.517,0.454,0.512,0.997,0.506)
# 配对数据t检验
result<-t.test(x=m1,y=m2,paired=TRUE)
# 查看结果
result
# 查看统计量
result$statistic
# 查看p值
result$p.value
# 查看置信区间
result$conf.int
# 查看差值的均值
result$estimate

t检验结果表明:t=7.93,p=2.84e-5,按0.05水平,拒绝H0,即认为两种方法对脂肪含量测定结果不同。当然,我们也可以按单样本t检验方法进行计算,如下:
d<-m1-m2
t.test(d,mu=0)

(3)两样本t检验
两样本t检验又称为成组t检验,适用于完全随机设计两样本均值的比较,此时关心的是两样本均值所代表的两总体均值是否相等。R中,两样本t检验不管方差是否相同,均可以采用t.test()函数进行,声明参数var.equal=FALSE表示方差不等,var.equal=TRUE表示方差相等。


# 录入样本数据
group1<-c(-0.7,-5.6,2.0,2.8,0.7,3.5,4.0,5.8,7.1,-0.5,2.5,-1.6,1.7,3.0,0.4,4.5,4.6,2.5,6.0,-1.4)
group2<-c(3.7,6.5,5.0,5.2,0.8,0.2,0.6,3.4,6.6,-1.1,6.0,3.8,2.0,1.6,2.0,2.2,1.2,3.1,1.7,-2.0)
# 成组数据t检验
result<-t.test(group1,group2,var.equal=TRUE)
result
# 查看两样本均值
result$estimate
# 查看统计量
result$statistic
# 查看p值
result$p.value
# 查看置信区间
result$conf.int

根据t检验结果显示p=0.5248>0.05,不拒绝H0。还不能认为两种药对空腹血糖的降糖效果有所不同。

1万+

被折叠的 条评论
为什么被折叠?



