自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別

發(fā)布于 2025-5-14 00:05
瀏覽
0收藏

對(duì)模型的泛化性能進(jìn)行評(píng)估,不僅需要有效可行的試驗(yàn)估計(jì)方法,還需要具有衡量模型泛化能力的評(píng)價(jià)標(biāo)準(zhǔn),即性能度量。且在不同的任務(wù)中對(duì)比模型的性能時(shí),使用不同的性能度量往往會(huì)導(dǎo)致不同的評(píng)判結(jié)果。在分類任務(wù)中,最常用的性能度量有錯(cuò)誤率、精度、查準(zhǔn)率、查全率、F1分?jǐn)?shù)及AUC-ROC曲線。

本文將首先介紹錯(cuò)誤率、精度、查準(zhǔn)率、查全率、P-R曲線與平衡點(diǎn)及F1分?jǐn)?shù)的詳細(xì)原理。

1.錯(cuò)誤率與精度

(1) 錯(cuò)誤率(error rate)是分類錯(cuò)誤的樣本數(shù)占樣本總數(shù)(m)的比例。計(jì)算公式可表示為:

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(2) 精度(accuracy)是分類正確的樣本數(shù)占樣本總數(shù)的比例。計(jì)算公式可表示為:

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

2.查準(zhǔn)率與查全率

(1) 二分類混淆矩陣:在二分類問題中,可將樣本根據(jù)其真實(shí)類別與模型預(yù)測(cè)類別的組合劃分為真正例、假正例、真反例與假反例四種情形。

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(2) 查準(zhǔn)率(或準(zhǔn)確率)定義為:在預(yù)測(cè)結(jié)果為正例的所有樣例中,預(yù)測(cè)正確(真實(shí)情況也為正例)的概率。

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(3) 查全率(或召回率)定義為:在真實(shí)情況為正例的所有樣例中,預(yù)測(cè)正確(預(yù)測(cè)結(jié)果也為正例)的概率。

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(4) 查準(zhǔn)率與查全率是一對(duì)矛盾的變量。一般來說,查準(zhǔn)率高時(shí),查全率往往偏低;反之亦然。

(a) 影響兩者大小變化的關(guān)鍵在于FP和FN。

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(b) 假設(shè)分類閾值降低,則模型預(yù)測(cè)結(jié)果為正例的樣例數(shù)量將會(huì)增加(同時(shí),模型預(yù)測(cè)結(jié)果為反例的樣例數(shù)量將會(huì)減少),此操作保證盡量不遺漏正例,即TP將會(huì)增加。

(b) 同時(shí),此操作將會(huì)使真實(shí)情況為正例,但預(yù)測(cè)結(jié)果為反例的情況減少,即FN減少。

(c) 同時(shí),此操作將會(huì)使真實(shí)情況為反例,但預(yù)測(cè)結(jié)果為正例的情況增加,即FP增加。

(d) 綜上所述,在分類閾值降低的情況下將會(huì)出現(xiàn),TP變大、FN變小和FP變大的情況。根據(jù)查全率和查準(zhǔn)率的比值公式可知,二者的比值將會(huì)減小。這意味著,查準(zhǔn)率P減小了,而查全率R增大了,即二者并非同時(shí)變大或變小,而是一者增大則另一者減小。此即證明查準(zhǔn)率與查全率的矛盾所在。

(5) 高查準(zhǔn)率要求更嚴(yán)格的篩選,希望模型在預(yù)測(cè)正例時(shí)盡量準(zhǔn)確,需設(shè)置較高的分類閾值,如在病情診斷中,醫(yī)生傾向于更嚴(yán)格的判斷以避免誤診(高查準(zhǔn)率),但也可能遺漏部分真實(shí)患者(低查全率)。

(6) 高查全率需要放寬篩選,希望盡可能捕獲所有正例,需降低分類閾值,以將更多樣例標(biāo)記為正例,例如,在逃犯搜捕中,警方放寬篩選條件以“寧可錯(cuò)查一千”的策略(高查全率),但會(huì)誤傷大量無辜者(低查準(zhǔn)率)。

3.P-R曲線與平衡點(diǎn)

(1) P-R曲線可視化了不同分類閾值下查準(zhǔn)率與查全率的動(dòng)態(tài)關(guān)系,為解決二者的矛盾,為模型調(diào)優(yōu)、閾值選擇及場(chǎng)景適配提供了核心工具。

(2) 繪制P-R曲線

(a) 根據(jù)模型預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,排在前面的是模型認(rèn)為“最可能”是正例的樣本,排在后面的是模型認(rèn)為“最不可能”是正例的樣本。

(b) 按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè)(即從大到小將每個(gè)樣本的預(yù)測(cè)結(jié)果作為分類閾值),則每次可以計(jì)算出當(dāng)前的查全率和查準(zhǔn)率。

(c) 最后以查準(zhǔn)率為縱軸、查全率為橫軸作圖,即可得到查準(zhǔn)率-查全率曲線,簡(jiǎn)稱P-R曲線。

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(3) P-R曲線能直觀地顯示出模型在樣本總體上的查全率、查準(zhǔn)率。

(a) 若一個(gè)模型的P-R曲線被另一個(gè)模型的P-R曲線完全包裹,則可斷言后者的性能優(yōu)于前者。如上圖中的模型A的性能優(yōu)于模型C。

(b) 若兩個(gè)模型的P-R曲線發(fā)生交叉,如上圖中的A和B,則無法直接斷定兩者孰優(yōu)孰劣。一個(gè)比較合理的判斷依據(jù)則是比較P-R曲線下面積的大小,能在一定程度上表征模型在查準(zhǔn)率和查全率上取得相對(duì)“雙高”的比例,但這個(gè)值不容易估算。

(4) 為能綜合考慮查準(zhǔn)率、查全率的性能度量,設(shè)計(jì)了“平衡點(diǎn)”(Break-Event Point,BEP)這一度量。

(a) BEP是“查準(zhǔn)率=查全率”時(shí)的取值。如上圖中模型C的BEP是0.64。

(b) 故基于BEP的比較,可以認(rèn)為模型A的性能優(yōu)于模型B。

(c) 但BEP過于簡(jiǎn)化,在實(shí)際應(yīng)用中具有局限性。

4.F1度量

(1)為進(jìn)一步解決查準(zhǔn)率與查全率之間的矛盾,相對(duì)于簡(jiǎn)潔的BEP度量,F(xiàn)1度量更為常用。F1是基于查準(zhǔn)率和查全率的調(diào)和平均定義的。

(2) 調(diào)和平均數(shù)?

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

    (c) 相對(duì)于一般的算術(shù)平均,調(diào)和平均對(duì)較小值更為敏感。例如,若P=0.8,R=0.2,此時(shí),調(diào)和平均值為0.32,遠(yuǎn)低于算術(shù)平均值0.5,更能反映模型性能的真實(shí)短板。

(3) 根據(jù)調(diào)和平均的定義,可得到對(duì)于查準(zhǔn)率和查全率的F1度量的標(biāo)準(zhǔn)形式:

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

(4) F1度量的一般形式分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)能夠體現(xiàn)對(duì)查準(zhǔn)率/查全率的不同偏好,定義為:

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

分類模型性能度量:錯(cuò)誤率與精度、查準(zhǔn)率與查全率、P-R曲線與平衡點(diǎn)及F1度量的聯(lián)系與區(qū)別-AI.x社區(qū)

本文轉(zhuǎn)載自????南夏的算法驛站??,作者:趙南夏


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦