用于独立性检验:
检验时h0假设总是认为x与y独立(不相关),这样计算期望时才可以用独立概率计算联合概率。
因此,得到的chi2越大,意味着h0越不成立(拒绝),x与y越相关;而如果得到的chi2较小,意味着没能拒绝h0,x与y不太可能相关。
举例,检查“汽车品牌选择”与“性别”是否独立:
H0: “汽车品牌选择”与“性别”独立
H1: “汽车品牌选择”与“性别”相关
1. 对数据各条记录进行统计,获取[频数表格]
统计数据集中x、y各取值的频数
频数 | 其他 | 宝马 | 奔驰 | 合计 |
---|---|---|---|---|
男 | 150 | 200 | 400 | 750 |
女 | 350 | 500 | 1500 | 2350 |
总计 | 500 | 700 | 1900 | 3100 |
2. 计算[期望表格]
因为零假设是两个变量独立,$P(A,B)=P(A)P(B)$,于是表中每个格子的期望频数为$N \times P(A,B) = N \times P(A)\times P(B)$,其中 $N$为总数量。那么,第一个格子的期望频数为$3100 \times \frac{750}{3100} \times \frac{500}{3100} = 121$。总体期望表为:
期望 | 其他 | 宝马 | 奔驰 | 合计 |
---|---|---|---|---|
男 | 121 | 169 | 460 | 750 |
女 | 379 | 531 | 1440 | 2350 |
总计 | 500 | 700 | 1900 | 3100 |
3. 计算[卡方值]
其中$O_{i,j}$为观测频数表中$i$行$j$列单元格的数值,$E_{i,j}$为期望频数表中$i$行$j$列单元格的数值
自由度为$(行数-1) \times (列数-1)$
卡方值越大,越可能拒绝原假设,即x与y越相关