四分表(クロス表)からχ二乗検定を行う

 四分表では下記の式でχ二乗統計値を求めるのが一般的ですが,名義変数やアウトカムの取る値が3以上の場合でもχ二乗検定を行うことは可能です.χ二乗統計値とは,全てのセルにおいて観察値 O と期待値 E の差を二乗した値を期待値 E で除し,それらを合計した値のことです.

\displaystyle\chi^2(df)=\sum\frac{(O-E)^2}{E}

df: degree of freedom

 四分表(クロス表)が下記のようである場合,χ二乗統計値は次の通りです.χ二乗統計値はχ二乗分布に従い,自由度1の場合,片側検定で p < 0.05 となるχ二乗統計値は 3.841, p < 0.01 だと 6.635, p < 0.001 だと 10.828 です.両側検定で p < 0.05 となるχ二乗統計値は 5.024, P < 0.01 だと 7.879 です.

  TRUE FALSE Marginal total
POSITIVE a b a + b
NEGATIVE c d c + d
Marginal total a + c b + d N 
\displaystyle \begin{array}{rcl}\chi^2&=&(ad-bc)^2\times\frac{N}{(a+b)(c+d)(a+c)(b+d)}\vspace{0.2in}\\\chi^2(Yates)&=&\left(|ad-bc|-\frac{1}{2}\right)^2\times\frac{N}{(a+b)(c+d)(a+c)(b+d)}\end{array}

周辺度数からクロス表を作成するには

 クロス表から Fisher の直接確率検定を行う場合,周辺度数 (marginal total) が一定ですので,真陽性の度数 a さえ決まれば残りは自動的に決まります.下記の四分表はそれを示しています.すべての度数は 0 以上の整数ですから,a の取りうる範囲は 0 から T または P のいずれか小さい方までです.

 ここで重要なことは,Fisher の直接確率検定による確率 p は a の関数になっていることです.これを超幾何分布と言います.仮に POSITIVE と NEGATIVE とが何らかの連続変数の閾値によって分けられている場合,閾値を変化させることで周辺度数である陽性の度数 P,陰性の度数 N – P  および真陽性の度数 a も変化します.真の度数 T および偽の度数 N – T は閾値によって変化することはありません.つまり Fisher の直接確率検定による確率 p は閾値の関数になっています.

 通常ですと論文には総数の N, 真の度数 T, 陽性の度数 P, 更に感度と特異度が記載されており,ここから四分表を再現できるようになっています.

  TRUE FALSE Marginal total
POSITIVE a P – a P
NEGATIVE T – a a + N – P – T N – P
Marginal total T N – T N 

 最初に分かっているのは下記のように総数 N,陽性の度数 P,真の度数 T のみです.

  TRUE FALSE Marginal total
POSITIVE     P
NEGATIVE      
Marginal total T   N 

 次に陰性の度数 N-P,偽の度数 N-T を計算で求めます.これで周辺度数 (marginal total) が得られます.

  TRUE FALSE Marginal total
POSITIVE     P
NEGATIVE     N – P
Marginal total T N – T N 

  a を与えると,偽陰性と偽陽性が求められます.a は TRUE に感度をかけて求めます.

  TRUE FALSE Marginal total
POSITIVE a P – a P
NEGATIVE T – a   N – P
Marginal total T N – T N 

  最後に真陰性が得られます.

  TRUE FALSE Marginal total
POSITIVE a P – a P
NEGATIVE T – a a + N – P – T N – P
Marginal total T N – T N