ロジスティック回帰分析における確率から対数オッズ(ロジット)への変換の意味

 ロジスティック回帰分析においては確率pをオッズ p/(1-p) に変換し,更にオッズの対数(ロジット)を取って回帰分析を行います.この意味を少し考えました.元々は二項分布と言って,ある目的とする事象が起きるか起きないかいずれかの値しか取らない現象を重回帰分析するために考えだされた方法です.世界恐慌直後の米国である疫学調査が行われ,その際に考案された手法だとされています.



 確率 p は 0 から 1 の範囲でしか値を取りません.これをマイナス無限大からプラス無限大の範囲に拡張するのがロジットです.グラフを見たほうが分かりやすいでしょう.

 確率pは 0 以上 1 以下の実数です.横軸を p, 縦軸を \displaystyle \frac{p}{1-p} にグラフを描くと下図のようになります.縦軸のオッズの範囲が 0 以上プラス無限大に拡張しました.

Fig1. probability and logit
Fig1. probability and logit

 次に横軸にオッズ,縦軸に対数オッズ(ロジット)を取ってグラフを描くと下図のようになります.対数オッズ(ロジット)の範囲がマイナス無限大からプラス無限大に拡張しました.

Fig2. logit and logarithm of logit
Fig2. logit and logarithm of logit

 最後に横軸にp, 縦軸に対数オッズ(ロジット)を取ってグラフを描くと下図のようになります.0 から 1 の範囲しか取れなかった確率 p が,対数オッズ(ロジット)に変換されることでマイナス無限大からプラス無限大までの実数に拡張したことが分かります.

Fig3. probability and logarithm of logit
Fig3. probability and logarithm of logit

対数を用いてFisherの直接確率検定を計算するには

 四分表を用いて2つの比率が等しいか異なるかを検定する方法としてはχ二乗検定が知られています.しかしχ二乗検定は総数が20未満の場合や期待値が5未満のマスがある場合には用いてはならないとされています.

 そのような場合でも,Fisherの直接確率検定を用いれば正確なp値が求まります.ただし階乗計算を要するために,オーバーフローを起こす可能性があります.実際 EXCEL のワークシート関数でも階乗の引数は 170 までです.これは EXCEL に限った問題ではなく,数値のデータ型の定義域の限界と考えられます.

 この問題法は対数を用いて乗除の計算を加減に変換することです.

  1. 階乗の乗除の対数をとる
  2. 対数により乗除が加減に変換されるため実際の計算をここで行う
  3. 得られた結果を指数に戻す
  TRUE FALSE Marginal total
POSITIVE a b a + b
NEGATIVE c d c + d
Marginal total a + c b + d N 
\displaystyle \begin{array} {rcl} P &=& \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{N!a!b!c!d!}\vspace{0.2in}\\&=& \exp\left[LN \left( \frac{(a+b)!(c+d)!(a+c)!(b+d)!}{N!a!b!c!d!} \right) \right]\vspace{0.2in}\\ &=& \exp [LN((a+b)!) +LN((c+d)!) +LN((a+c)!) +LN((b+d)!)\vspace{0.2in}\\& & -LN(N!) -LN(a!) -LN(b!) -LN(c!) -LN(d!) ]\end{array}