← 返回首页

方差分析(ANOVA)中常被忽略的前提假设

在组间均值比较这类分析里,ANOVA 几乎是第一反应。但我发现在实际数据分析中,大多数人只会记得三个前提:独立性、正态性、方差齐性。真正踩坑的地方,反而是这三个之外的一些细节。

1. 独立性:常被忽略但最难补救

独立性要求各组内观测彼此独立。听起来理所当然,但实际中经常被违反:

独立性违反造成的标准误低估往往导致 p 值被人为"做小",结果看起来显著但实际上并不可靠。其他两个前提被违反时结论往往还是比较稳健的,但独立性违反基本等于整个推断作废。

2. 正态性:不是组别正态,而是残差正态

很多教材说"每组数据要服从正态分布",这其实不完全准确。ANOVA 真正需要的是残差(observation − group mean)服从正态。

在小样本时要重点检查这点,但当总样本 N 大于 30 左右,根据中心极限定理,对正态性偏离的敏感性会大幅降低。

3. 方差齐性:Levene vs Bartlett

这两个检验常见但有差异:

如果方差不齐但样本量均衡(各组差不多大),ANOVA 其实还比较稳健;如果样本量不均衡 + 方差不齐,建议改用 Welch ANOVA。

4. 一个被忽略的细节:固定效应 vs 随机效应

常规 ANOVA 默认组别是"固定"的——你研究的就是这几个具体的组。但如果组别其实是"随机抽取自更大总体"的代表(比如从所有学校里随机抽了 5 所),结论的推广范围就完全不同,应该用随机效应模型。

这个区分在心理学、教育学实验中很重要,但在工程和自然科学的实验中常常被忽视。

小结

ANOVA 不是只要看 Levene + Q-Q plot 就稳了。先想清楚数据的采样结构、组别是固定还是随机、观测间的相关性,这些比公式上的"前提检验"更重要。