X2（カイ二乗）検定の基礎知識

従属変数、独立変数ともに2値数の名義変数の場合、結果は2×2のクロス集計表にまとめられます。2群でアウトカムの発症に差があるかをみる場合にはX²検定やFisherの正確検定を用います。
ここではクロス集計表や独立の検定とも呼ばれるX²検定の基礎知識、Fisherの正確検定の使い方を学んでいきます。

クロス集計表でわかること

要因Aと疾患Bの発症に関連があるかをみる場合、図1のような表に結果をまとめることができ、これをクロス集計表と呼んでいます。

要因Aがある割合 P(A)=(a+c)/(a+b+c+d)
疾患Bを発症する割合 P(B)=(a+b)/(a+b+c+d)
AとBが互いに独立である場合　P(A⋀B)=P(A)*P(B)

X^２検定（独立性の検定）の基礎知識

X²検定は独立性の検定とも呼ばれます。「AとBが互いに独立である」を帰無仮説とします。つまり、帰無仮説が成り立つ場合はP(A⋀B)=P(A)*P(B)の関係が成り立ちます。

例として喫煙（要因）と肺癌（疾患）の関連を見てみます。
ある集団での喫煙率が20%、肺癌の発症率が10％であった場合、喫煙と肺癌が互いに独立した因子であると仮定すると図2のようなクロス集計表となります。喫煙あり群、なし群両者において肺癌の発症率は10%です。

しかし、同じ喫煙率20％、肺癌発症率10％でも実際には図3のようになっていました（大げさすぎる例えですが）。

喫煙あり群では肺癌の発症率が8/20×100=40%、喫煙なし群では2/80×100=2.5%となっています。これが有意な差なのかどうかをＸ²検定を行うことで見ています。
ここで図2のようにAとBが互いに独立であると仮定したときのセルの度数を期待度数と呼びます。
Ｘ²検定の細かい説明は省きますが、Ｘ²分布というデータの2乗をすべて足し合わせてできた分布をクロス集計表に当てはめたピアソンのＸ²分布がベースとなっています。