卡方检验是什么：调研结论里的差异是否显著

做完调研，发现男性受访者中有68%表示会考虑购买，女性受访者中是62%，问：这个6%的差距是真实存在的性别差异，还是只是抽样带来的随机波动？

要回答这个问题，就要用到卡方检验（Chi-square Test）。

卡方检验解决什么问题

卡方检验是检验两个或多个分类变量之间是否存在统计上显著的关联关系的方法。最常见的应用场景是：

简单说：卡方检验告诉你，两个分类变量之间的关系，有多大可能是真实存在的，而不是偶然。

卡方检验不需要理解复杂的数学公式，但理解它的基本逻辑很有帮助：

检验的核心是比较”观测频次”（实际调研中各格子的计数）和”期望频次”（如果两个变量之间没有关联，我们理论上预期看到的计数）。

如果观测频次和期望频次差距很小，说明两个变量之间没有明显关联，观察到的差异只是抽样波动；如果差距很大，说明两个变量之间可能有真实关联。

这个”差距”用卡方统计量来衡量，配合样本量，换算成p值（概率值）。p值代表的是：如果两个变量之间真的没有关联，随机得到当前这样大的差距的概率。

通常设定显著性水平α=0.05（5%）：如果p值<0.05，说明在5%的错误率下可以认为差异显著；如果p值>0.05，不能拒绝”两者无关”的假设，差异可能只是随机波动。

回到开头的例子：男性购买意向68%，女性62%。用卡方检验：

这就是为什么不能只看百分比的差距，还要检验统计显著性——小样本下的大差距，不一定是真实差异；大样本下的小差距，也可能是真实差异。

在调研报告中，标记了显著性结果的分析通常会显示”*”（p<0.05）或"**"（p<0.01）来表示哪些差异在统计上是可信的，哪些不是。

卡方检验有几个使用前提，违反了这些前提，结果可能不可靠：

样本量要足够：通常要求每个格子的期望频次不低于5，如果有太多格子期望频次低于5，检验结果不稳定。解决方法是合并相邻类别，或使用Fisher精确检验（适用于小样本）。

观测独立：每个受访者只能出现一次，不能有重复。

适用于分类变量：卡方检验只适用于分类/名义变量，不适合连续变量（连续变量的比较用t检验或方差分析）。

统计显著性和实际意义不是同一件事。样本量足够大时，即使非常小的差异（比如满意度68.2% vs 67.9%）也可能达到统计显著，但这样的差异在业务上几乎没有意义。

调研报告中，在报告p值的同时，也应该描述差异的实际大小（比如用效应量Cohen’s W），帮助读者判断差异是否有实际意义，而不只是告诉他们”差异显著”。

卡方检验是调研数据分析中最常用的统计工具之一，理解它的逻辑和局限，能让你在看报告时更清醒地判断那些打着”差异显著”标签的结论是否真的值得重视。