クロス表(四分表)を見て,各セルの期待値が 5 未満の割合が 20 % 以上存在する場合や,総数 N が 20 未満の場合にはχ二乗検定ではなく Fisher の直接確率検定を行うべきであるとされています.この辺り,本来なら Fisher の直接確率検定を行いたいが計算コストが高すぎてχ二乗検定で代用せざるを得なかった経緯があるのではないかと考えます.
ここでは各セルの期待値を求める方法を述べます.一見して明らかですが,期待値は周辺度数 (marginal total) のみから算出されます.
下表のようなクロス表があるとします.
TRUE | FALSE | Marginal total | |
POSITIVE | a | b | a + b |
NEGATIVE | c | d | c + d |
Marginal total | a + c | b + d | N |
各セルの期待値は下記の通りです.
TRUE | FALSE | Marginal total | |
POSITIVE | (a + b)*(a + c)/N | (a + b)*(b + d)/N | a + b |
NEGATIVE | (c + d)*(a + c)/N | (c + d)*(b + d)/N | c + d |
Marginal total | a + c | b + d | N |