调研数据的缺失值处理：删除还是填补

调研数据收回来，翻开一看，有些受访者跳过了某几道题，有些题目的回答明显是乱填的。缺失值是每个定量调研项目都会遇到的现实问题，处理方式不同，对分析结论的影响可能很大。

这篇文章讲缺失值处理的主要方法，以及什么情况下应该删除、什么情况下应该填补。

首先要搞清楚缺失值的类型

在决定怎么处理缺失值之前，需要先理解缺失值是怎么产生的，因为不同类型的缺失需要不同的处理策略。

统计学上把缺失值分为三种类型：

完全随机缺失（MCAR）：缺失的发生和数据本身没有任何关系，纯粹是随机的。比如网络连接中断导致某题没有提交。这种情况下，直接删除缺失数据影响最小，不会引入系统性偏差。

随机缺失（MAR）：缺失和其他可观测变量有关，但和缺失变量本身无关。比如年龄大的受访者更容易跳过收入题，缺失和年龄有关，但和收入的实际水平无关。这种情况可以用填补方法处理，利用其他变量的信息来填补缺失值。

非随机缺失（MNAR）：缺失和缺失变量本身有关。比如高收入者更容易不填收入题，缺失的收入数据中高收入占比高于整体。这种缺失最难处理，任何填补方法都无法完全消除偏差，在分析时需要特别说明这个局限性。

用该变量的均值（连续变量）或众数（分类变量）填补缺失值，是最常见的处理方法，操作简单，不需要复杂的统计工具。

局限在于：这种方法人为地减少了变量的方差——所有缺失值都被替换成同一个数，会让数据的分布变窄，低估变量之间的相关性。对于缺失比例较低（低于10%）的情况，影响通常可接受；缺失比例越高，这种方法引入的失真越大。

多重填补（MI）是目前统计上被认为最可靠的缺失值处理方法，原理是利用数据中其他变量的信息，通过统计模型预测缺失值，并生成多个”完整数据集”，在每个数据集上分别分析，然后综合多个分析结果得出最终结论。

这种方法能够：

缺点是操作相对复杂，需要使用统计软件（R、SPSS、Stata等均有实现），不适合快速、非技术性的分析场景。

缺失值的最好处理方法是事前预防。几个设计层面的建议：

第一，减少不必要的强制回答题目。如果某题对研究不是必须，设为选填而非必填，避免受访者因为不愿意回答而放弃整份问卷。

第二，对敏感题目提供”不便透露”选项，给受访者一个安全的退出选项，而不是强迫他们要么乱填，要么中途退出。

第三，通过预调研识别哪些题目的跳过率异常高，这通常意味着题目措辞有问题或问题设计不合理，在正式发布前修正。

调研数据的缺失值处理没有万能的方法，关键是了解缺失发生的原因，选择与缺失类型和研究精度要求相匹配的处理方式，并在报告中如实说明处理方法对结论可能造成的影响。