1.ROC曲線
ROC曲線全稱為受試者工作特征曲線(Receiver Operating Characteristic)。提到ROC曲線就要先說明一下兩個概念:FPR(偽正類率),TPR(真正類率),它們都是分類任務的評測指標。
1.1 TPR 、FPR
對于一個二分類任務(假定為1表示正類, 0表示負類),對于一個樣本,分類的結果總共有四種:
類別實際為1,被預測為0,FN(False Negative)
類別實際為1,被預測為1,TP(True Positive)
類別實際為0,被預測為1,FP(False Positive)
類別實際為0,被預測為0,TN(True Negative)
FPR(False Positive Rate)= FP /(FP + TN),即負類數據被預測為正類的比例;
TPR(True Positive Rate)= TP /(TP + FN),即正類數據被預測為正類的比例。
1.2 ROC曲線
那什么是ROC曲線呢?我們看一下ROC曲線的圖示:
對于樣本數據,我們使用分類器對其進行分類,分類器會給出每個數據為正例的概率。我們可以針對此來設定一個閾值,當某個樣本被預測為正例的概率大于這個閾值時,認為該樣本為正例,小于則為負例。
通過計算我們就可以得到一個(TPR , FPR)對,即圖像上的一個點。通過不斷調整這個閾值,就得到若干個點,從而畫出一條曲線。
可以看出,當這個閾值越大時,會有越多的樣本被預測為負例,而這些樣本中其實也有正例的存在。這樣一來,TPR下降(正例數據被預測為負例了),FPR下降(負類數據更不會被預測為正例,但是影響要比TPR小,所以斜率呈上升趨勢)。
當閾值越小時,越多的樣本被預測為正例,而這些樣本中可能包含是正例,卻被預測為負例的樣本以及是負例卻被預測為正例的樣本,這樣一來TPR上升(更多的正例樣本被預測為正例),FPR上升(更多的負例樣本預測為正例,影響更大,所以斜率呈下降趨勢)。
1.3 閾值調整
那么該如何調整這個閾值呢?一般來說,分類器會對一批數據的每個樣本給出一個是正例的概率,如下圖示,共20個樣本,class為實際標簽,score為分類器判斷樣本為正例的概率:
對給出的分數進行排序,然后依次使用score作為閾值,這樣就得到了20組(FPR, TPR),做出ROC曲線如下:
當閾值為1時就可以到達ROC曲線上(0, 0)點,當閾值為0時就可以到達ROC曲線上(1, 1) 點。當然也不一定就必須使用概率值,也可以使用未經過softmax(或其他類似處理)的結果,使用方法相同,畢竟我們只需要一個次序。
2.AUC
說完ROC,再來說一下AUC。AUC被定義為ROC曲線下的面積(Area Under Curve),顯然這個面積小于1。又因為ROC曲線一般都處于y=x這條直線的上方,所以AUC一般在0.5到1之間。
2.1 AUC優點與含義
使用AUC值作為評價標準是因為很多時候ROC曲線并不能清晰的說明哪個分類器的效果更好,而作為一個數值,對應AUC更大的分類器效果更好。
AUC的含義為,當隨機挑選一個正樣本和一個負樣本,根據當前的分類器計算得到的score將這個正樣本排在負樣本前面的概率。
2.2AUC與分類器優劣
從AUC判斷分類器(預測模型)優劣的標準:
AUC = 1,是完美分類器,采用這個預測模型時,存在至少一個閾值能得出完美預測。絕大多數預測的場合,不存在完美分類器。
0.5 < AUC < 1,優于隨機猜測。這個分類器(模型)妥善設定閾值的話,能有預測價值。
AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值。
AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優于隨機猜測。
3. 為什么使用ROC曲線?
既然已經這么多評價標準,為什么還要使用ROC和AUC呢?因為ROC曲線有個很好的特性:當測試集中的正負樣本的分布變化的時候,ROC曲線能夠保持不變。
在實際的數據集中經常會出現類不平衡(class imbalance)現象,即負樣本比正樣本多很多(或者相反),而且測試數據中的正負樣本的分布也可能隨著時間變化。
下圖中,(a)和(c)為ROC曲線,(b)和(d)為Precision-Recal[1]曲線。(a)和(b)展示的是分類其在原始測試集(正負樣本分布平衡)的結果,(c)和(d)是將測試集中負樣本的數量增加到原來的10倍后,分類器的結果。
可以明顯的看出,ROC曲線基本保持原貌,而Precision-Recall曲線則變化較大。
審核編輯 :李倩
-
數據
+關注
關注
8文章
7134瀏覽量
89391 -
曲線
+關注
關注
1文章
82瀏覽量
20878
原文標題:3. 為什么使用ROC曲線?
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論