ROC(Receiver Operating Characteristic) 曲線とは、一言でいうとアウトカムを予測するモデルを作ったとき、どの程度そのモデルが正確に予測しているか、推定値と観察値を比較したものです。詳しくみていきましょう。
実際にSPSSを使用してROC曲線を描く場合はこちら>>SPSSでROC曲線を描く モデルの精度を評価する
ROC曲線とは
実際のROC曲線は図1のとおりで縦軸に「感度」、横軸に「1-特異度」をとった曲線です。
感度と特異度はトレードオフの関係があります。
・感度が高い=陽性を正しく陽性と判断する能力が高いが、陰性も陽性と間違って判断すること(疑陽性)も多くなる。
・特異度が高い=陰性を正しく陰性と判断する能力が高いが、陽性も間違って陰性と判断すること(偽陰性)も多くなる。
つまり、感度を高くする(感度が1に近づく)と特異度が低くなり(1-特異度が1に近づく)、特異度を高くすると感度が低くなるという逆の動きをすることになります。
ロジスティック回帰分析で予測式を作ったとき、予測scoreが算出されます。このscoreのカットオフ値を少しずつ変えていき、そのときの感度と特異度をプロットした曲線がROC曲線です。よくわからない場合はこちらのページの最後の段落も参照してください。>>SPSSでロジスティック回帰分析
正確に予測しているかどうか?
ROC曲線が予測の正確さを表している、と冒頭でお伝えしましたが、ROC曲線がどのようになれば予測能が高いと言えるのでしょうか。
予測能が高いモデルとは「感度が高い」と「特異度が高い」が両立しているモデルと言えます。トレードオフの関係があるのでどちらも100%とはいきませんが、両方がそれなりに高くなっているのが予測能が高い状態です。
ROC曲線で考えると、「感度が1に近い」ど「1-特異度が0に近い」が両立している場所、すなわちグラフの左上に近づくほど予測能が高い状態です。
いろいろなROC曲線の比較
先ほどから登場しているROC曲線を1、左側にあるものを2、右側にあるものを3としました。左上に近づくほどよいので2が1より良いのはわかるかと思います。
45度の直線の真ん中の点は感度50%、特異度50%を示しています。つまり、半々、コイントスのような偶然を示します。
それより右側にずれていうROC曲線3はモデルを作るとかえって偶然よりも予測能が悪くなってしまうという状態です。
AUC (area under the curve)とは
見た目でも予測能はわかるのですが、同じグラフ上に表示されていないと別のモデルを比較しづらいという欠点があります。それを数値で示したものが、AUC (area under the curve)です。ROC曲線より右側の面積を表したものになります。
45度ラインのROC(二等辺三角形の部分)は0.5です。偶然のときのAUCが0.5で、1に近づくほど予測能が高いということになります。
いくつ以上だとよい、という決まりはありませんが、一般的に下記ような判断が目安となります。
AUC | 判断 |
0.9-1.0 | Excellent |
0.8-0.9 | Good |
0.7-0.8 | Fair |
0.5-0.7 | Poor |
0.5 | Random |
<0.5 | Worse than random |
それでは実際に行ったロジスティック回帰分析でROC曲線を描いてみましょう!
SPSSでROC曲線を描くはこちら>>SPSSでROC曲線を描く モデルの精度を評価する
コメント