箱线图(Box Plot)是描述性统计里最常见的图之一,但实际阅读的时候大多数人只看中位数和离群点,其他信息都浪费了。其实一张标准箱线图至少包含 5 个数字 + 分布形状暗示。
一张箱线图的完整构成
- 下触须末端:下界 = max(min, Q1 − 1.5·IQR)
- 盒底:Q1(25% 分位数)
- 盒内中线:中位数(Q2 / 50%)
- 盒顶:Q3(75% 分位数)
- 上触须末端:上界 = min(max, Q3 + 1.5·IQR)
- 圆点:离群值(超出 1.5·IQR 范围的点)
其中 IQR(Interquartile Range)= Q3 − Q1,是四分位距,代表中间 50% 数据的宽度。
第 1 个被忽视的信息:偏态
中位数在盒子里的位置直接反映分布的偏态:
- 中位数居盒子中央 → 大致对称
- 中位数贴近盒底(靠下) → 右偏(长尾在上)
- 中位数贴近盒顶(靠上) → 左偏(长尾在下)
同样,上下触须长度的差异也能反映偏态。触须不等长是经常被忽视的信号。
第 2 个:尺度差异
盒子本身的长度(IQR)反映中心 50% 数据的离散程度。两组数据比较时:
- 盒子长度接近 + 中位数高度接近 → 分布相似
- 盒子长度接近 + 中位数高度不同 → 位置差异(均值检验关注)
- 盒子长度差异明显 → 方差差异(方差齐性受影响)
很多人做 t 检验前忘了看方差,结果 Levene p < 0.05 才意识到问题;其实在画箱线图的时候就能目测到。
第 3 个:离群点的分布模式
离群点不是越多越糟,它们的位置和模式比数量更重要:
- 单边离群(只在一侧有)→ 可能是测量误差或极端事件
- 双边离群且对称 → 可能是厚尾分布(如 Cauchy、t 分布)
- 离群点明显聚集成团 → 可能是亚组,需要分层分析
一个常见的误用:缺口箱线图
Notched Box Plot(缺口箱线图)在中位数附近会有一个 V 形缺口,缺口宽度约等于 ±1.57·IQR/√n。如果两组的缺口不重叠,可以粗略认为两组中位数"在 95% 置信水平上显著不同"。
这是非常好用的视觉检验,但前提条件是样本量不能太小(n > 10),也不适用于方差差异极大的情况。
箱线图的局限
箱线图展示分位数,但无法展示分布形状——双峰、三峰、尖峰分布在箱线图上看起来可能完全一样。
所以在数据探索阶段,我习惯同时画:
- 小提琴图(Violin Plot):箱线图 + 核密度估计,能看出多峰
- 抖动散点(Jitter + strip plot):小样本直接显示所有点
- 直方图:对单变量分布最直观
一张箱线图能告诉你的,只是描述性统计的一个侧面。真正稳妥的做法是把它作为初步筛查工具,发现有趣的结构再做深入分析。