四分表(クロス表)からχ二乗検定を行う

 四分表では下記の式でχ二乗統計値を求めるのが一般的ですが,名義変数やアウトカムの取る値が3以上の場合でもχ二乗検定を行うことは可能です.χ二乗統計値とは,全てのセルにおいて観察値 O と期待値 E の差を二乗した値を期待値 E で除し,それらを合計した値のことです.

\displaystyle\chi^2(df)=\sum\frac{(O-E)^2}{E}

df: degree of freedom

 四分表(クロス表)が下記のようである場合,χ二乗統計値は次の通りです.χ二乗統計値はχ二乗分布に従い,自由度1の場合,片側検定で p < 0.05 となるχ二乗統計値は 3.841, p < 0.01 だと 6.635, p < 0.001 だと 10.828 です.両側検定で p < 0.05 となるχ二乗統計値は 5.024, P < 0.01 だと 7.879 です.

  TRUE FALSE Marginal total
POSITIVE a b a + b
NEGATIVE c d c + d
Marginal total a + c b + d N 
\displaystyle \begin{array}{rcl}\chi^2&=&(ad-bc)^2\times\frac{N}{(a+b)(c+d)(a+c)(b+d)}\vspace{0.2in}\\\chi^2(Yates)&=&\left(|ad-bc|-\frac{1}{2}\right)^2\times\frac{N}{(a+b)(c+d)(a+c)(b+d)}\end{array}

周辺度数からクロス表を作成するには

 クロス表から Fisher の直接確率検定を行う場合,周辺度数 (marginal total) が一定ですので,真陽性の度数 a さえ決まれば残りは自動的に決まります.下記の四分表はそれを示しています.すべての度数は 0 以上の整数ですから,a の取りうる範囲は 0 から T または P のいずれか小さい方までです.

 ここで重要なことは,Fisher の直接確率検定による確率 p は a の関数になっていることです.これを超幾何分布と言います.仮に POSITIVE と NEGATIVE とが何らかの連続変数の閾値によって分けられている場合,閾値を変化させることで周辺度数である陽性の度数 P,陰性の度数 N – P  および真陽性の度数 a も変化します.真の度数 T および偽の度数 N – T は閾値によって変化することはありません.つまり Fisher の直接確率検定による確率 p は閾値の関数になっています.

 通常ですと論文には総数の N, 真の度数 T, 陽性の度数 P, 更に感度と特異度が記載されており,ここから四分表を再現できるようになっています.

  TRUE FALSE Marginal total
POSITIVE a P – a P
NEGATIVE T – a a + N – P – T N – P
Marginal total T N – T N 

 最初に分かっているのは下記のように総数 N,陽性の度数 P,真の度数 T のみです.

  TRUE FALSE Marginal total
POSITIVE     P
NEGATIVE      
Marginal total T   N 

 次に陰性の度数 N-P,偽の度数 N-T を計算で求めます.これで周辺度数 (marginal total) が得られます.

  TRUE FALSE Marginal total
POSITIVE     P
NEGATIVE     N – P
Marginal total T N – T N 

  a を与えると,偽陰性と偽陽性が求められます.a は TRUE に感度をかけて求めます.

  TRUE FALSE Marginal total
POSITIVE a P – a P
NEGATIVE T – a   N – P
Marginal total T N – T N 

  最後に真陰性が得られます.

  TRUE FALSE Marginal total
POSITIVE a P – a P
NEGATIVE T – a a + N – P – T N – P
Marginal total T N – T N 

四分表からオッズ比と相対危険度および95%信頼区間を計算する

 有効か無効か,生存か死亡かなどの値が TRUE か FALSE の二項分布する名義変数をアウトカムとし,危険因子の暴露ありかなしか,介入ありかなしか,実薬か偽薬かなどの値が POSITIVE か NEGATIVE の二項分布する名義変数を予知因子とする場合,四分表により予知因子がアウトカムに及ぼす影響が統計的有意か否かをオッズ比や相対危険度の95%信頼区間により判定できます.

 オッズ比は症例対照研究に用いられ,オッズ比が1だと予知因子は何の効果もないことになります.オッズ比が1より大きいと予知因子によるアウトカムの発生が増えることになります.逆に1より小さければアウトカムの発生を抑制することになります.

 相対危険度は前向きコホート試験やランダム化比較試験で用いられ,1より大きければ予知因子はアウトカムの発生を高め,1より小さければ予知因子はアウトカムの発生が低くなることになります.

 オッズ比,相対危険度共に95%信頼区間が1を跨いでいる場合には統計的有意とはいえません.

  TRUE FALSE Marginal total
POSITIVE a b a + b
NEGATIVE c d c + d
Marginal total a + c b + d N 

オッズ比ORは以下の式で求まります.

\displaystyle OR=\frac{\frac{a/(a+c)}{c/(a+c)}}{\frac{b/(b+d)}{d/(b+d)}}=\frac{ad}{bc}

オッズ比の95%信頼区間は以下の式で求まります.

\displaystyle 95\%C.I.=\exp\left(\ln OR \pm 1.96\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}}\right)

相対危険度RRは以下の式で求まります.

\displaystyle RR=\frac{a/(a+b)}{c/(c+d)}

相対危険度の95%信頼区間は以下の式で求まります.

\displaystyle 95\%C.I. = \exp\left(\ln{RR}\pm1.96\sqrt{\frac{1}{a}+\frac{1}{c}-\frac{1}{a+b}-\frac{1}{c+d}} \right)