卡方检验常用于检查某序列是否属于某分布。
计算(整体)卡方值,如果卡方值较大,则认为不属于同一分布。
$$\begin{aligned}
\chi^{2} = \sum \frac{(A-E)^{2}}{E} = \sum_{i=1}^{k}\frac{(A_{i}-E_{i})^{2}}{E_{i}}
\end{aligned}$$
其中,$A_{i}$为各点(指标)出现频次,$E_{i}$为期望。
检验两序列是否来自同一分布的常用场景为:一个序列为训练集累加获取的基线序列(因为是对分布情况的分析,累加即可无需平均);而另一个序列为待检验的测试序列。
期望使用两序列频次求和后平均来计算。
对各点求算两序列的卡方值(之和),较大的点为异常指标点。
也可直接对序列的所有点卡方值累加,比较各点卡方值之和,如果检测序列的各点sum值较大,则认为检测序列整体上分布于训练模板不同。
1 | # -*- coding: UTF-8 -*- |