卡方检验

用于独立性检验
检验时h0假设总是认为x与y独立(不相关),这样计算期望时才可以用独立概率计算联合概率。
因此,得到的chi2越大,意味着h0越不成立(拒绝),x与y越相关;而如果得到的chi2较小,意味着没能拒绝h0,x与y不太可能相关。

举例,检查“汽车品牌选择”与“性别”是否独立:
H0: “汽车品牌选择”与“性别”独立
H1: “汽车品牌选择”与“性别”相关

1. 对数据各条记录进行统计,获取[频数表格]

统计数据集中x、y各取值的频数

频数 其他 宝马 奔驰 合计
150 200 400 750
350 500 1500 2350
总计 500 700 1900 3100

2. 计算[期望表格]

因为零假设是两个变量独立,$P(A,B)=P(A)P(B)$,于是表中每个格子的期望频数为$N \times P(A,B) = N \times P(A)\times P(B)$,其中 $N$为总数量。那么,第一个格子的期望频数为$3100 \times \frac{750}{3100} \times \frac{500}{3100} = 121$。总体期望表为:

期望 其他 宝马 奔驰 合计
121 169 460 750
379 531 1440 2350
总计 500 700 1900 3100

3. 计算[卡方值]

其中$O_{i,j}$为观测频数表中$i$行$j$列单元格的数值,$E_{i,j}$为期望频数表中$i$行$j$列单元格的数值
自由度为$(行数-1) \times (列数-1)$

卡方值越大,越可能拒绝原假设,即x与y越相关