SPSSで正規性の確認をする

SPSS

検定方法には大きくパラメトリック検定、ノンパラメトリック検定があり、変数が正規分布をしているかどうかによって、使う検定が異なります。
正規分布についてはこちら>>正規分布 統計で一番大切な分布

そのため、検定したい変数が正規分布に従っているか確認することはとても重要です。正規分布を確認する方法は複数あるので、総合的に判断をします。

まず、記述統計を行う

これは連続変数の記述統計を行う場合と同じです。
分析➡度数分布表 を用います。詳しいやり方はこちら>>SPSSで記述統計 連続変数・名義変数
例として対象患者の年齢の分布をみてみたいと思います。このように出力されました。

図1 度数分布と見るべきポイント

ここで見るべきポイントは大きく4つ。
①平均値≒中央値となっているか?
平均 67.04、中央値 68.00でほぼ等しいと言えます。平均値はこの集団を代表できる値と言えそうです。
②標準偏差は大きすぎないか?
基準値はありませんが、大きいと100を超えることもあります。
③歪度、尖度は0に近い値をとっているか?
SPSSの場合は歪度、尖度は0が基準です。この場合はそれぞれ-0.609、0.348と0に近い値をとっています。
④ヒストグラムは釣り鐘型か?
少し飛び出ている部分はありますが、正規分布に準じていると判断してよいと思います。

実際にはヒストグラムが一番大事なので、この段階で正規分布していると判断して、パラメトリック検定に移っても構いませんが、正規分布かどうか判断がつきかねる場合は正規性の検定を行います。

参考までに正規性の検定をする

図2 正規分布していなさそうなとき

例えばこのようなとき。先ほどの4つのポイントをチェックしてみましょう。
この段階で正規分布しないと判断してもよいのですが、判断が難しい場合は正規性の検定を行ってみます。
記述統計➡探索的

図3 正規性の検定

①連続変数を選び、②作図で[ヒストグラム][正規性の検定とプロット]にチェックを入れたら、[OK]をクリック。
出力されます。

図4 正規性の検定とQQプロット

2種類の正規性の検定とQQプロットが出力されます。
Kolmogrov-Sminov、Shapiro-Wilkの検定ともにp≧0.05で正規分布とみなします。しかし、これは当てにならないことも多々あります。ヒストグラムは明らかに正規分布していても、nが大きいとp<0.05(正規分布ではない)となってしまうことも経験されます。検定はp値が出るのでクリアカットでよいと思われがちですが、必ずヒストグラム等で確認することが重要です。
QQプロットは正規分布する場合には直線状にプロットが並びます。こちらも参考になります。例の場合は直線からプロットがかなりずれてしまっているので、正規分布ではなさそうです。

まとめ

正規分布しているのか、迷う場合も多いかもしれませんが、記述統計、ヒストグラム、正規性の検定、Q-Qプロットなどの所見を総合的に判断します。客観性を欠くと思われがちですが、ヒストグラムの形が一番大事です。
また、迷ったら概念も参考にします。例えば、年齢、身長は正規分布するはず、BNPはとる値の幅が広いので正規分布しないだろう、といったような概念も含めて判断することも必要です。


正規分布かどうかは人によって判断が分かれることもあるかと思いますが、自分なりに総合的に評価をして判断を下した理由があれば大丈夫です。自信をもって次のパラメトリック検定、ノンパラメトリック検定に進んでください。

コメント

タイトルとURLをコピーしました