问卷数据清洗:删掉这三类无效数据,结论才可靠
问卷数据收集完成后,不能直接用于分析,需要先进行数据清洗。清洗掉无效数据,结论才可靠。
这篇文章介绍需要清洗的三类无效数据。
一、规律性作答数据
有些受访者不认真答题,而是按照固定规律作答,比如一直选第一个选项,或者ABCD循环选。
这类数据的特征是:答案呈现明显的规律性,缺乏随机性。
识别方法:检查是否存在相同的连续答案、是否存在周期性重复的答案模式。
处理方式:删除此类数据,或标记为低质量数据。
二、异常时长数据
答题时间异常的数据需要警惕:时间过短可能是乱答,时间过长可能是中途离开又回来。
设定答题时长的合理区间:比如问卷长度10分钟,合理区间可能是5-30分钟。过短或过长的都要检查。
但要注意:有些认真作答的用户确实需要更长时间,不要一刀切全部删除。
三、不完整作答数据
有些问卷没有全部完成,或者某些题目没有作答。
处理方式:根据缺失比例决定。如果缺失比例很高(比如超过20%),直接删除;如果只是个别题目缺失,可以用插值法填补。
另外,检查是否有”不知道”或”不确定”选项被大量选择,这可能意味着问题设计有问题。
写在最后
数据清洗是保证分析质量的关键步骤,不能省。