統計學/獨立樣本四格表資料的χ²檢驗
外觀
< 統計學
χ2檢驗可以用於檢驗兩個樣本的總體頻率分布是否相同。
2×2列聯表χ2檢驗的基本思想
[編輯]組別 | 屬性 | 合計 | |
---|---|---|---|
Y1 | Y2 | ||
甲 | a(T11) | b(T12) | n1=a+b(固定值) |
乙 | c(T21) | d(T22) | n2=c+d(固定值) |
合計 | m1=a+c | m2=b+d | n=a+b+c+d |
這樣的數據形式稱為2×2列聯表(2×2 contingency table)。因為此表格的基本數據分布在a、b、c、d四個格子中,故又稱之為四格表。
在假設H0成立的條件下,表1中的兩樣本的總體分布相等。由於總體分布未知,用兩樣本聯合計算的頻率分布作為總體分布的近視:屬性Y1的理論頻率近似地等於m1/n,屬性Y2的理論頻率近似地等於m2/n。
於是,H0成立的條件下,四格表中每一格相應的理論頻數分別近似地等於
T11==,T12==
T21==,T22==
一般地,理論頻數Tij的計算公式為
Tij=(i=1,2;j=1,2)[1]
式中n為總例數,ni是第I行的合計數,mj是第j列的合計數。
如果H0成立,當觀察個數n較大時,樣本觀察頻數與理論頻數應當相去不遠。每一格的樣本觀察頻數Aij與理論頻數Tij之間的差異,可運用下面的式[2]計算統計量χ2來衡量。
χ2=(i=1,2;j=1,2)[2]
可以證明,H0成立時,統計量χ2近似服從自由度為v=1的χ2分布。自由度的計算公式為:v=(行數-1)×(列數-1)。