调研数据的缺失值处理:删除还是填补
调研数据收回来,翻开一看,有些受访者跳过了某几道题,有些题目的回答明显是乱填的。缺失值是每个定量调研项目都会遇到的现实问题,处理方式不同,对分析结论的影响可能很大。
这篇文章讲缺失值处理的主要方法,以及什么情况下应该删除、什么情况下应该填补。
首先要搞清楚缺失值的类型
在决定怎么处理缺失值之前,需要先理解缺失值是怎么产生的,因为不同类型的缺失需要不同的处理策略。
统计学上把缺失值分为三种类型:
完全随机缺失(MCAR):缺失的发生和数据本身没有任何关系,纯粹是随机的。比如网络连接中断导致某题没有提交。这种情况下,直接删除缺失数据影响最小,不会引入系统性偏差。
随机缺失(MAR):缺失和其他可观测变量有关,但和缺失变量本身无关。比如年龄大的受访者更容易跳过收入题,缺失和年龄有关,但和收入的实际水平无关。这种情况可以用填补方法处理,利用其他变量的信息来填补缺失值。
非随机缺失(MNAR):缺失和缺失变量本身有关。比如高收入者更容易不填收入题,缺失的收入数据中高收入占比高于整体。这种缺失最难处理,任何填补方法都无法完全消除偏差,在分析时需要特别说明这个局限性。