R语言——试验数据的统计推断2

最新推荐文章于 2026-07-01 09:10:03 发布

原创最新推荐文章于 2026-07-01 09:10:03 发布 · 1k 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

R语言统计分析

参考资料：R试验设计与数据分析

2、假设检验

从总体随机抽样，由样本信息推断总体特征，除了参数估计之外，在实际应用中还会遇到这样的问题：某一样本均数是否来自已知均数总体？两个不同样本均数是否来自均数相同的总体等等。要回答这类问题，除参数估计的方法外，更多的是用统计推断的另一种方法——假设检验来解决。

假设检验也成为显著性检验，它和参数估计是统计推断的两个重要领域。假设检验是对总体的特征（如总体的参数或分布、位置）提出某种假设，如果假设筒体均值为一定值、总体均值相等、总体分布为某种分布、两个总体分布位置相同等等，然后根据随机样本提供的信息，根据统计量的分布规律计算出检验统计量，再根据计算出来的检验统计量确定其概率值，运用小概率原理，由p值判断样本是否只支持原假设，推断假设是否成立，并对假设做出取舍决策，从而最终做出统计推断。

所谓小概率原理，就是在一次试验中，概率很小(接近于零)的事件认为是实际上不可能发生的事件，而概率接近于1的事件认为是实际上必然发生的事件。根据小概率原理，概率很小的随机事件在一次试验中可认为是不会发生的。否定假设的依据就是小概率原理。

统计上的假设检验方法是：先假设差异完全是抽样误差所致，在这个假设下，计算检验统计量(如t值、u值等)，按样本统计量的分布规律求出获得现有样本检验统计量值的概率，采用归纳法和类似反证法的逻辑作出拒绝假设或不拒绝假设的推断。如果出现了小概率事件，就应拒绝这个假设；如果没有出现小概率事件，则没有理由怀疑这个假设，所以不拒绝这个假设。

假设检验的一般步骤是：

①对待检验的未知参数θ，根据问题的需要，做出一个单边或双边的原假设H0。

②选定一个显著水平α，最常用的是α=0.05。

③构造一个统计量g，g的带下反映对H0有利或不利，再根据g确定其概率p值。

④最后根据小概率原理，依据p值判断样本信息是否支持原假设H0，并对假设做出取舍，从而做出最终统计推断。

⑤如果根据统计量g计算出p值大于显著性水平，则拒绝接受原假设；如果p值小于显著性水平，则说明尚没有证据表明原假设是错误的，从而接受原假设。

通常采用结论成立的假设为原假设，又称为零假设，记为H0；与之对立的假设为备择假设，又称为对立假设，记为H1。原假设和对立假设并不对称或可交换，它们在假设检验中的地位是不同的。原假设和备择假设的建立主要根据具体问题来决定，常把没有把握、不能轻易肯定的命题作为备择假设，而把没有充分理由不能轻易否定的命题作为原假设，只有理由充分时才拒绝它，否则应予以保留。

在假设检验中，拒绝原假设m的最小显著性水平为检验的P值。检验的P值表示对原假设的怀疑程度，或解释为首次拒绝原假设的概率，P值越小，表示原假设越可疑，从而越应该拒绝原假设。P值的具体计算依赖于原假设、统计量的分布及其规律。

3、重要的参数检验

由于实际问题中，大多数随机变量服从或近似服从正态分布，因此这里重点介绍正态参数的假设检验。在正态计量资料的假设检验中，最为简单、常用的方法是t检验。当样本含量较小时（如n<60），理论上要求t检验的样本随机地取自正态总体，量小样本均值比较时还要求两样本所对应的两总体方差相等，即方差齐性。在实际应用中，如与上述条件略有偏离，对结果亦影响不大。

（1）单样本t检验

单样本t检验及样本均值与已知总体均值（一般为理论值、标准值或经过大量观察所得到的稳定值）的比较。其检验统计量公式为：

$t=\frac{\bar{x}-\mu_0}{s_d/\sqrt{n}}$

自由度v=n-1。在R语言中，可以采用t.test()函数进行单样本t检验。

# 建立样本
x<-rnorm(n=36,mean=130.83,sd=25.74)
# 单样本t检验
result<-t.test(x,mu=140)
# 查看检验结果
result
# 查看统计量
result$statistic
# 查看自由度
result$parameter
# 查看p值
result$p.value
# 查看置信区间
result$conf.int

通过R语言的t.test()函数，我们可以看到t统计量为-3.88，p值为0.0004，按α=0.05水平，拒绝H0。

t.test()函数也给出了区间估计的结果，95%置信水平的置信区间，本例中置信区间为：[117.0252,132.8023]，该区间不包含140，并且低于140。

（2）配对样本t检验

配对样本t检验又称为成组t检验，适用于配对设计的计量资料。配对设计是将受试对象按照某些重要特征配成对子，每对中受试对象随机分配到两个处理组，主要有两种情形：一种是同质受试对象分别接受两种不同处理；另外一种是同一受试对象分别接受两种不同处理。配对t检验本职与单样本t检验相同，若两种处理效果相同，即μ1=μ2，则μ1-μ2=0，因此可将此类资料看成两样本均值之差 $\bar{x_1}-\bar{x_2}$ 所代表的样本与未知总体均值 $\mu_d=0$ 的比较，其检验统计量计算式为：

$t=\frac{\bar{x_1}-\bar{x_2}}{s_d/\sqrt{n}}$

式中s_d为差值的标准差，n为对子数，自由度v=n-1

# 录入样本数据
m1<-c(0.840,0.591,0.674,0.632,0.687,0.978,0.750,0.730,1.200,0.870)
m2<-c(0.580,0.509,0.500,0.316,0.337,0.517,0.454,0.512,0.997,0.506)
# 配对数据t检验
result<-t.test(x=m1,y=m2,paired=TRUE)
# 查看结果
result
# 查看统计量
result$statistic
# 查看p值
result$p.value
# 查看置信区间
result$conf.int
# 查看差值的均值
result$estimate

t检验结果表明：t=7.93，p=2.84e-5，按0.05水平，拒绝H0，即认为两种方法对脂肪含量测定结果不同。当然，我们也可以按单样本t检验方法进行计算，如下：

d<-m1-m2
t.test(d,mu=0)

（3）两样本t检验

两样本t检验又称为成组t检验，适用于完全随机设计两样本均值的比较，此时关心的是两样本均值所代表的两总体均值是否相等。R中，两样本t检验不管方差是否相同，均可以采用t.test()函数进行，声明参数var.equal=FALSE表示方差不等，var.equal=TRUE表示方差相等。

# 录入样本数据
group1<-c(-0.7,-5.6,2.0,2.8,0.7,3.5,4.0,5.8,7.1,-0.5,2.5,-1.6,1.7,3.0,0.4,4.5,4.6,2.5,6.0,-1.4)
group2<-c(3.7,6.5,5.0,5.2,0.8,0.2,0.6,3.4,6.6,-1.1,6.0,3.8,2.0,1.6,2.0,2.2,1.2,3.1,1.7,-2.0)
# 成组数据t检验
result<-t.test(group1,group2,var.equal=TRUE)
result
# 查看两样本均值
result$estimate
# 查看统计量
result$statistic
# 查看p值
result$p.value
# 查看置信区间
result$conf.int