色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

分類模型評估指標匯總

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-10 21:38 ? 次閱讀

作者:努力的孔子

對模型進行評估時,可以選擇很多種指標,但不同的指標可能得到不同的結(jié)果,如何選擇合適的指標,需要取決于任務(wù)需求。

正確率與錯誤率

正確率:正確分類的樣本數(shù)/總樣本數(shù),accuracy

錯誤率:錯誤分類的樣本數(shù)/總樣本數(shù),error

正確率+錯誤率=1

這兩種指標最簡單,也最常用

缺點

不一定能反應(yīng)模型的泛化能力,如類別不均衡問題。

不能滿足所有任務(wù)需求

如有一車西瓜,任務(wù)一:挑出的好瓜中有多少實際是好瓜,任務(wù)二: 所有的好瓜有多少被挑出來了,顯然正確率和錯誤率不能解決這個問題。

查準率與查全率

先認識幾個概念

正樣本/正元組:目標元組,感興趣的元組

負樣本/負元組:其他元組

對于二分類問題,模型的預(yù)測結(jié)果可以劃分為:真正例 TP、假正例 FP、真負例 TN、 假負例 FN,

真正例就是實際為正、預(yù)測為正,其他同理

顯然 TP+FP+TN+FN=總樣本數(shù)

混淆矩陣

把上面四種劃分用混淆矩陣來表示

從而得出如下概念

查準率:預(yù)測為正里多少實際為正,precision,也叫精度

查全率:實際為正里多少預(yù)測為正,recall,也叫召回率

查準率和查全率是一對矛盾的度量。通常來講,查準率高,查全率就低,反之亦然。

例如還是一車西瓜,我希望將所有好瓜盡可能選出來,如果我把所有瓜都選了,那自然所有好瓜都被選了,這就需要所有的瓜被識別為好瓜,此時查準率較低,而召回率是100%,

如果我希望選出的瓜都是好瓜,那就要慎重了,寧可不選,不能錯選,這就需要預(yù)測為正就必須是真正例,此時查準率是100%,查全率可能較低。

注意我說的是可能較低,通常如果樣本很好分,比如正的全分到正的,負的全分到負的,那查準率、查全率都是100%,不矛盾。

P-R曲線

既然矛盾,那兩者之間的關(guān)系應(yīng)該如下圖

這條曲線叫 P-R曲線,即查準率-查全率曲線。

這條曲線怎么畫出來的呢?可以這么理解,假如我用某種方法得到樣本是正例的概率(如用模型對所有樣本進行預(yù)測),然后把樣本按概率排序,從高到低

如果模型把第一個預(yù)測為正,其余預(yù)測為負,此時查準率為1,查全率接近于0,

如果模型把前2個預(yù)測為正,其余預(yù)測為負,此時查準率稍微降低,查全率稍微增加,

依次...

如果模型把除最后一個外的樣本預(yù)測為正,最后一個預(yù)測為負,那么查準率很低,查全率很高。

此時我把數(shù)據(jù)順序打亂,畫出來的圖依然一樣,即上圖。

既然查準率和查全率互相矛盾,那用哪個作為評價指標呢?或者說同時用兩個指標怎么評價模型呢?

兩種情形

如果學(xué)習(xí)器A的P-R曲線能完全“包住”學(xué)習(xí)器C的P-R曲線,則A的性能優(yōu)于C

如果學(xué)習(xí)器A的P-R曲線與學(xué)習(xí)器B的P-R曲線相交,則難以判斷孰優(yōu)孰劣,此時通常的作法是,固定查準率,比較查全率,或者固定查全率,比較查準率。

通常情況下曲線會相交,但是人們?nèi)韵M褍蓚€學(xué)習(xí)器比出個高低,一個合理的方式是比較兩條P-R曲線下的面積。

但是這個面積不好計算,于是人們又設(shè)計了一些其他綜合考慮查準率查全率的方式,來替代面積計算。

平衡點:Break-Event Point,簡稱BEP,就是選擇 查準率=查全率 的點,即上圖,y=x直線與P-R曲線的交點

這種方法比較暴力

F1 與 Fβ 度量

更常用的方法是F1度量

即 F1 是 P 和 R 的調(diào)和平均數(shù)。

與算數(shù)平均數(shù) 和 幾何平均數(shù)相比,調(diào)和平均數(shù)更重視較小值。

在一些應(yīng)用中,對查準率和查全率的重視程度有所不同。

例如商品推薦系統(tǒng),為了避免騷擾客戶,希望推薦的內(nèi)容都是客戶感興趣的,此時查準率比較重要,

又如資料查詢系統(tǒng),為了不漏掉有用信息,希望把所有資料都取到,此時查全率比較重要。

此時需要對查準率和查全率進行加權(quán)

即 P 和 R 的加權(quán)調(diào)和平均數(shù)。

β>0,β度量了查全率對查準率的重要性,β=1時即為F1

β>1,查全率更重要,β<1,查準率更重要

多分類的F1

多分類沒有正例負例之說,那么可以轉(zhuǎn)化為多個二分類,即多個混淆矩陣,在這多個混淆矩陣上綜合考慮查準率和查全率,即多分類的F1

方法1

直接在每個混淆矩陣上計算出查準率和查全率,再求平均,這樣得到“宏查準率”,“宏查全率”和“宏F1”

方法2

把混淆矩陣中對應(yīng)元素相加求平均,即 TP 的平均,TN 的平均,等,再計算查準率、查全率、F1,這樣得到“微查準率”,“微查全率”和“微F1”

ROC 與 AUC

很多學(xué)習(xí)器是為樣本生成一個概率,然后和設(shè)定閾值進行比較,大于閾值為正例,小于為負例,如邏輯回歸。

而模型的優(yōu)劣取決于兩點:

這個概率的計算準確與否

閾值的設(shè)定

我們把計算出的概率按從大到小排序,然后在某個點劃分開,這個點就是閾值,可以根據(jù)實際任務(wù)需求來確定這個閾值,比如更重視查準率,則閾值設(shè)大點,若更重視查全率,則閾值設(shè)小點,

這里體現(xiàn)了同一模型的優(yōu)化,

不同的模型計算出的概率是不一樣的,也就是說樣本按概率排序時順序不同,那切分時自然可能分到不同的類,

這里體現(xiàn)了不同模型之間的差異,

所以ROC可以用來模型優(yōu)化和模型選擇,理論上講 P-R曲線也可以。

ROC曲線的繪制方法與P-R曲線類似,不再贅述,結(jié)果如下圖

橫坐標為假正例率,縱坐標為真正例率,曲線下的面積叫 AUC

如何評價模型呢?

若學(xué)習(xí)器A的ROC曲線能包住學(xué)習(xí)器B的ROC曲線,則A優(yōu)于B

若學(xué)習(xí)器A的ROC曲線與學(xué)習(xí)器B的ROC曲線相交,則難以比較孰優(yōu)孰劣,此時可以比較AUC的大小

總結(jié)

模型評估主要考慮兩種場景:類別均衡,類別不均衡

模型評估必須考慮實際任務(wù)需求

P-R 曲線和 ROC曲線可以用于模型選擇

ROC曲線可以用于模型優(yōu)化

參考資料

周志華《機器學(xué)習(xí)

本文由博客一文多發(fā)平臺 OpenWrite 發(fā)布!

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3268

    瀏覽量

    48926
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8425

    瀏覽量

    132773
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5507

    瀏覽量

    121298
收藏 人收藏

    評論

    相關(guān)推薦

    如何評估AI大模型的效果

    評估AI大模型的效果是一個復(fù)雜且多維度的過程,涉及多個方面的考量。以下是一些關(guān)鍵的評估方法和步驟: 一、基準測試(Benchmarking) 使用標準數(shù)據(jù)集和任務(wù)來評估
    的頭像 發(fā)表于 10-23 15:21 ?1233次閱讀

    Meta推出可自我評估AI模型

    Meta近期宣布了一項重要的人工智能進展,即將發(fā)布一系列全新的人工智能模型。其中,一款能夠自我評估模型尤為引人注目,這一創(chuàng)新有望顯著減少人工智能開發(fā)過程中的人類參與。
    的頭像 發(fā)表于 10-22 17:07 ?325次閱讀

    【每天學(xué)點AI】人工智能大模型評估標準有哪些?

    OpenAI新模型o1號稱編程能力8倍殺GPT-4o,MMLU媲美人類專家,MMLU是什么?評估模型的標準是什么?相信大家在閱讀大模型相關(guān)文檔的時候經(jīng)常會看到MMLU,BBH,GSM
    的頭像 發(fā)表于 10-17 16:49 ?462次閱讀
    【每天學(xué)點AI】人工智能大<b class='flag-5'>模型</b><b class='flag-5'>評估</b>標準有哪些?

    DRAM的分類、特點及技術(shù)指標

    DRAM(Dynamic Random Access Memory),即動態(tài)隨機存取存儲器,是計算機系統(tǒng)中廣泛使用的內(nèi)存類型之一。它以其高速、大容量和相對低成本的特點,在數(shù)據(jù)處理和存儲中發(fā)揮著關(guān)鍵作用。以下將詳細介紹DRAM的分類、特點以及技術(shù)指標
    的頭像 發(fā)表于 08-20 09:35 ?3478次閱讀

    利用TensorFlow實現(xiàn)基于深度神經(jīng)網(wǎng)絡(luò)的文本分類模型

    要利用TensorFlow實現(xiàn)一個基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的文本分類模型,我們首先需要明確幾個關(guān)鍵步驟:數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型
    的頭像 發(fā)表于 07-12 16:39 ?901次閱讀

    人臉檢測模型的精確度怎么算

    人臉檢測模型的精確度評估是一個復(fù)雜的過程,涉及到多個方面的因素。本文將從以下幾個方面進行介紹:人臉檢測模型的基本概念、評估指標
    的頭像 發(fā)表于 07-04 09:14 ?562次閱讀

    神經(jīng)網(wǎng)絡(luò)模型建完了怎么用

    : 1.1 交叉驗證 交叉驗證是一種常用的評估方法,它將數(shù)據(jù)集分成若干個子集,然后使用其中一個子集作為測試集,其余子集作為訓(xùn)練集。通過這種方式,可以評估模型在不同數(shù)據(jù)集上的性能。 1.2 混淆矩陣 混淆矩陣是一種
    的頭像 發(fā)表于 07-02 11:23 ?625次閱讀

    深度學(xué)習(xí)模型訓(xùn)練過程詳解

    深度學(xué)習(xí)模型訓(xùn)練是一個復(fù)雜且關(guān)鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設(shè)計的算法。訓(xùn)練一個深度學(xué)習(xí)模型,本質(zhì)上是通過優(yōu)化算法調(diào)整模型參數(shù),使模型能夠更好地擬合數(shù)據(jù),提高預(yù)測或
    的頭像 發(fā)表于 07-01 16:13 ?1364次閱讀

    esp-dl int8量化模型數(shù)據(jù)集評估精度下降的疑問求解?

    一 試著將模型進行了esp-dl上int16和int8的量化,并在測試數(shù)據(jù)集上進行精度評估,其中int16的模型精度基本沒有下降,但是int8的模型
    發(fā)表于 06-28 15:10

    商湯小浣熊榮獲中國信通院代碼大模型能力評估“三好生”

    近日,商湯小浣熊代碼大模型在中國信通院“可信AI代碼大模型評估”中,榮獲4+級最高評級,成為國內(nèi)首批通過該項評估的企業(yè)之一。
    的頭像 發(fā)表于 06-13 15:37 ?467次閱讀
    商湯小浣熊榮獲中國信通院代碼大<b class='flag-5'>模型</b>能力<b class='flag-5'>評估</b>“三好生”

    基于神經(jīng)網(wǎng)絡(luò)的呼吸音分類算法

    1080Ti GPU的英特爾酷睿i7-6900 CPU的計算機上進行的。 結(jié)果 對于噪聲二元分類任務(wù),NMRNN獲得了0.89的評估分數(shù),而最佳基線模型GBM僅獲得0.53的分數(shù)。這可以通過RNN學(xué)習(xí)周期和噪聲
    發(fā)表于 05-31 12:05

    頻譜分析儀的分類和技術(shù)指標

    頻譜分析儀是電子測量領(lǐng)域中的一項重要工具,主要用于分析信號的頻譜特性。隨著電子技術(shù)的飛速發(fā)展,頻譜分析儀的應(yīng)用范圍日益廣泛,其種類和技術(shù)指標也日益豐富。本文將對頻譜分析儀的分類和技術(shù)指標進行詳細介紹,以期為讀者提供全面的了解。
    的頭像 發(fā)表于 05-14 15:48 ?641次閱讀

    【大語言模型:原理與工程實踐】大語言模型的評測

    和安全性。行業(yè)模型的評測則針對特定領(lǐng)域的能力,整體能力的評測則從宏觀角度評估模型的通用性。在基座模型的評測中,除了自回歸損失和困惑度等指標
    發(fā)表于 05-07 17:12

    【大語言模型:原理與工程實踐】核心技術(shù)綜述

    和量化: 減小模型尺寸和計算復(fù)雜度,使模型更適合在計算資源受限的環(huán)境下部署。 解釋性和可視化: 提供模型決策的可視化和解釋工具,讓模型的行為更加透明易懂。 性能
    發(fā)表于 05-05 10:56

    模型在戰(zhàn)略評估系統(tǒng)中的應(yīng)用有哪些

    智慧華盛恒輝大模型,顧名思義,是指參數(shù)規(guī)模超過千萬的機器學(xué)習(xí)模型。這些模型主要應(yīng)用于自然語言處理、計算機視覺、語音識別等領(lǐng)域,在大場景下的表現(xiàn)尤為出色。 智慧華盛恒輝大模型在戰(zhàn)略
    的頭像 發(fā)表于 04-24 13:48 ?295次閱讀
    主站蜘蛛池模板: 国产AV亚洲精品久久久久| X8X8拨牐拨牐X8免费视频8午夜| 欧美亚洲另类热图| 久久久久久久国产精品视频| 国产最猛性XXXX69交| 国产精品97久久久久久AV色戒| 草莓视频在线看免费高清观看 | 麒麟色欧美影院在线播放| 久久精品国产欧美成人| 精品一二三区久久AAA片| 娇妻让壮男弄的流白浆| 和尚扒开双腿蹂躏| 精品 在线 视频 亚洲| 精品国产免费观看久久久| 好好的曰com久久| 久操久操久操| 久久精品电影| 久久综合久综合久久鬼色| 久热这里在线精品| 老湿机一区午夜精品免费福利| 久久亚洲人成网站| 毛片免费观看的视频| 免费国产福利| 欧美亚洲曰韩一本道| 欧美性猛交AAA片| 日韩成人在线视频| 涩涩视频下载| 亚久久伊人精品青青草原2020| 亚洲精品无码国产爽快A片| 亚洲男人片片在线观看| 一级毛片美国| 97久久超碰中文字幕| 99久久综合精品免费| 边做边爱免费视频播放| 国产成人精品免费视频大全办公室| 国产精品一区二区AV白丝在线| 国产亚洲精品久久久999蜜臀| 好男人的视频在线观看| 久久久久青草大香线综合精品| 男女牲交大战免费播放| 日产精品久久久久久久蜜殿|