北京市朝阳区建国路93号院11号楼10层

天津市河西区苏州道2号文华国际中心13层

010-86399425

022-85194925

13910732521

13717670751

问卷数据清洗:删掉这三类无效数据,结论才可靠

问卷数据清洗:删掉这三类无效数据,结论才可靠

问卷数据清洗:删掉这三类无效数据,结论才可靠

问卷数据收集完成后,不能直接用于分析,需要先进行数据清洗。清洗掉无效数据,结论才可靠。

这篇文章介绍需要清洗的三类无效数据。

一、规律性作答数据

有些受访者不认真答题,而是按照固定规律作答,比如一直选第一个选项,或者ABCD循环选。

这类数据的特征是:答案呈现明显的规律性,缺乏随机性。

识别方法:检查是否存在相同的连续答案、是否存在周期性重复的答案模式。

处理方式:删除此类数据,或标记为低质量数据。

二、异常时长数据

答题时间异常的数据需要警惕:时间过短可能是乱答,时间过长可能是中途离开又回来。

设定答题时长的合理区间:比如问卷长度10分钟,合理区间可能是5-30分钟。过短或过长的都要检查。

但要注意:有些认真作答的用户确实需要更长时间,不要一刀切全部删除。

三、不完整作答数据

有些问卷没有全部完成,或者某些题目没有作答。

处理方式:根据缺失比例决定。如果缺失比例很高(比如超过20%),直接删除;如果只是个别题目缺失,可以用插值法填补。

另外,检查是否有”不知道”或”不确定”选项被大量选择,这可能意味着问题设计有问题。

写在最后

数据清洗是保证分析质量的关键步骤,不能省。