← 返回首页

箱线图里藏着哪些被忽视的信息

箱线图(Box Plot)是描述性统计里最常见的图之一,但实际阅读的时候大多数人只看中位数和离群点,其他信息都浪费了。其实一张标准箱线图至少包含 5 个数字 + 分布形状暗示

一张箱线图的完整构成

其中 IQR(Interquartile Range)= Q3 − Q1,是四分位距,代表中间 50% 数据的宽度。

第 1 个被忽视的信息:偏态

中位数在盒子里的位置直接反映分布的偏态:

同样,上下触须长度的差异也能反映偏态。触须不等长是经常被忽视的信号。

第 2 个:尺度差异

盒子本身的长度(IQR)反映中心 50% 数据的离散程度。两组数据比较时:

很多人做 t 检验前忘了看方差,结果 Levene p < 0.05 才意识到问题;其实在画箱线图的时候就能目测到。

第 3 个:离群点的分布模式

离群点不是越多越糟,它们的位置和模式比数量更重要:

一个常见的误用:缺口箱线图

Notched Box Plot(缺口箱线图)在中位数附近会有一个 V 形缺口,缺口宽度约等于 ±1.57·IQR/√n。如果两组的缺口不重叠,可以粗略认为两组中位数"在 95% 置信水平上显著不同"。

这是非常好用的视觉检验,但前提条件是样本量不能太小(n > 10),也不适用于方差差异极大的情况。

箱线图的局限

箱线图展示分位数,但无法展示分布形状——双峰、三峰、尖峰分布在箱线图上看起来可能完全一样。

所以在数据探索阶段,我习惯同时画:

一张箱线图能告诉你的,只是描述性统计的一个侧面。真正稳妥的做法是把它作为初步筛查工具,发现有趣的结构再做深入分析。