統計學/独立样本四格表资料的χ²检验

维基教科书,自由的教学读本

χ2检验可以用于检验两个样本的总体频率分布是否相同。

2×2列联表χ2检验的基本思想[编辑]

表1 独立样本资料的四格表
组别 属性 合计
Y1 Y2
a(T11 b(T12 n1=a+b(固定值)
c(T21 d(T22) n2=c+d(固定值)
合计 m1=a+c m2=b+d n=a+b+c+d

这样的数据形式称为2×2列联表(2×2 contingency table)。因为此表格的基本数据分布在a、b、c、d四个格子中,故又称之为四格表。
在假设H0成立的条件下,表1中的两样本的总体分布相等。由于总体分布未知,用两样本联合计算的频率分布作为总体分布的近视:属性Y1的理论频率近似地等于m1/n,属性Y2的理论频率近似地等于m2/n。
于是,H0成立的条件下,四格表中每一格相应的理论频数分别近似地等于
T11==,T12==
T21==,T22==
一般地,理论频数Tij的计算公式为
Tij=(i=1,2;j=1,2)[1]
式中n为总例数,ni是第I行的合计数,mj是第j列的合计数。
如果H0成立,当观察个数n较大时,样本观察频数与理论频数应当相去不远。每一格的样本观察频数Aij与理论频数Tij之间的差异,可运用下面的式[2]计算统计量χ2来衡量。
χ2=(i=1,2;j=1,2)[2]
可以证明,H0成立时,统计量χ2近似服从自由度为v=1的χ2分布。自由度的计算公式为:v=(行数-1)×(列数-1)。

2×2列联表χ2检验的基本步骤[编辑]

建立检验假设,确立检验水准[编辑]

计算检验统计量[编辑]

确定P值,作出推断[编辑]

2×2列联表χ2检验的专用公式[编辑]

2×2列联表χ2检验注意事项[编辑]