統計學/獨立樣本四格表資料的χ²檢驗

維基教科書,自由的教學讀本

χ2檢驗可以用於檢驗兩個樣本的總體頻率分布是否相同。

2×2列聯表χ2檢驗的基本思想[編輯]

表1 獨立樣本資料的四格表
組別 屬性 合計
Y1 Y2
a(T11 b(T12 n1=a+b(固定值)
c(T21 d(T22) n2=c+d(固定值)
合計 m1=a+c m2=b+d n=a+b+c+d

這樣的數據形式稱為2×2列聯表(2×2 contingency table)。因為此表格的基本數據分布在a、b、c、d四個格子中,故又稱之為四格表。
在假設H0成立的條件下,表1中的兩樣本的總體分布相等。由於總體分布未知,用兩樣本聯合計算的頻率分布作為總體分布的近視:屬性Y1的理論頻率近似地等於m1/n,屬性Y2的理論頻率近似地等於m2/n。
於是,H0成立的條件下,四格表中每一格相應的理論頻數分別近似地等於
T11==,T12==
T21==,T22==
一般地,理論頻數Tij的計算公式為
Tij=(i=1,2;j=1,2)[1]
式中n為總例數,ni是第I行的合計數,mj是第j列的合計數。
如果H0成立,當觀察個數n較大時,樣本觀察頻數與理論頻數應當相去不遠。每一格的樣本觀察頻數Aij與理論頻數Tij之間的差異,可運用下面的式[2]計算統計量χ2來衡量。
χ2=(i=1,2;j=1,2)[2]
可以證明,H0成立時,統計量χ2近似服從自由度為v=1的χ2分布。自由度的計算公式為:v=(行數-1)×(列數-1)。

2×2列聯表χ2檢驗的基本步驟[編輯]

建立檢驗假設,確立檢驗水準[編輯]

計算檢驗統計量[編輯]

確定P值,作出推斷[編輯]

2×2列聯表χ2檢驗的專用公式[編輯]

2×2列聯表χ2檢驗注意事項[編輯]