推荐系统(2)—— 评估指标
1、PNR(Positive Negative Rate)
正逆序比 = 正序數(shù) / 逆序數(shù);
2、TGI(Target Group Index)
TGI:即Target Group Index(目標(biāo)群體指數(shù))
TGI指數(shù)= [目標(biāo)群體中具有某一特征的群體所占比例/總體中具有相同特征的群體所占比例]*標(biāo)準(zhǔn)數(shù)100。
TGI指數(shù)表征:不同特征用戶關(guān)注問題的差異情況,其中TGI指數(shù)等于100表示平均水平,高于100,代表該類用戶對某類問題的關(guān)注程度高于整體水平。
3、COPC(Click over Predicted Click)
copc = 實際的點擊率/模型預(yù)測的點擊率,主要衡量model整體預(yù)估的偏高和偏低,同樣越接近1越好,一般情況下在1附近波動。這個指標(biāo)在展示廣告上應(yīng)用多一些。
4、pCTR(Predict Click-Through Rate)
廣告點擊率預(yù)測,pCTR要解決的問題是預(yù)測特定用戶在特定廣告位對特定廣告當(dāng)特定環(huán)境下的點擊概率。
5、RMSE(Root Mean Square Error)
計算:是觀測值與真值偏差的平方和與觀測次數(shù)m比值的平方根。
均方根誤差:用來衡量觀測值同真值之間的偏差;
平均絕對誤差:是絕對誤差的平均值,能更好地反映預(yù)測值誤差的實際情況。
RMSE與MAE對比:RMSE相當(dāng)于L2范數(shù),MAE相當(dāng)于L1范數(shù)。次數(shù)越高,計算結(jié)果就越與較大的值有關(guān),而忽略較小的值,所以這就是為什么RMSE針對異常值更敏感的原因(即有一個預(yù)測值與真實值相差很大,那么RMSE就會很大)。
6、SD(Standard Deviation)
計算:是方差的算數(shù)平方根,是用來衡量一組數(shù)自身的離散程度。
RMSE與標(biāo)準(zhǔn)差對比:標(biāo)準(zhǔn)差是用來衡量一組數(shù)自身的離散程度,而均方根誤差是用來衡量觀測值同真值之間的偏差,它們的研究對象和研究目的不同,但是計算過程類似。
7、AUC(Area Under Curve)
ROC(Receiver Operating Characteristic)曲線與AUC(Area Under Curve)
ROC曲線:
橫坐標(biāo):假正率(False positive rate, FPR),F(xiàn)PR = FP / [ FP + TN] ,代表所有負(fù)樣本中錯誤預(yù)測為正樣本的概率,假警報率;
縱坐標(biāo):真正率(True positive rate, TPR),TPR = TP / [ TP + FN] ,代表所有正樣本中預(yù)測正確的概率,命中率。
對角線對應(yīng)于隨機(jī)猜測模型,而(0,1)對應(yīng)于所有整理排在所有反例之前的理想模型。曲線越接近左上角,分類器的性能越好。
ROC曲線有個很好的特性:當(dāng)測試集中的正負(fù)樣本的分布變化的時候,ROC曲線能夠保持不變。在實際的數(shù)據(jù)集中經(jīng)常會出現(xiàn)類不平衡(class imbalance)現(xiàn)象,即負(fù)樣本比正樣本多很多(或者相反),而且測試數(shù)據(jù)中的正負(fù)樣本的分布也可能隨著時間變化。
ROC曲線繪制:
(1)根據(jù)每個測試樣本屬于正樣本的概率值從大到小排序;
(2)從高到低,依次將“Score”值作為閾值threshold,當(dāng)測試樣本屬于正樣本的概率大于或等于這個threshold時,我們認(rèn)為它為正樣本,否則為負(fù)樣本;
(3)每次選取一個不同的threshold,我們就可以得到一組FPR和TPR,即ROC曲線上的一點。
當(dāng)我們將threshold設(shè)置為1和0時,分別可以得到ROC曲線上的(0,0)和(1,1)兩個點。將這些(FPR,TPR)對連接起來,就得到了ROC曲線。當(dāng)threshold取值越多,ROC曲線越平滑。
AUC(Area Under Curve)即為ROC曲線下的面積。AUC越接近于1,分類器性能越好。
物理意義:首先AUC值是一個概率值,當(dāng)你隨機(jī)挑選一個正樣本以及一個負(fù)樣本,當(dāng)前的分類算法根據(jù)計算得到的Score值將這個正樣本排在負(fù)樣本前面的概率就是AUC值。當(dāng)然,AUC值越大,當(dāng)前的分類算法越有可能將正樣本排在負(fù)樣本前面,即能夠更好的分類。
計算公式:就是求曲線下矩形面積。
8、PR曲線和ROC曲線比較
ROC曲線特點:
(1)優(yōu)點:當(dāng)測試集中的正負(fù)樣本的分布變化的時候,ROC曲線能夠保持不變。因為TPR聚焦于正例,F(xiàn)PR聚焦于與負(fù)例,使其成為一個比較均衡的評估方法。
在實際的數(shù)據(jù)集中經(jīng)常會出現(xiàn)類不平衡(class imbalance)現(xiàn)象,即負(fù)樣本比正樣本多很多(或者相反),而且測試數(shù)據(jù)中的正負(fù)樣本的分布也可能隨著時間變化。
(2)缺點:上文提到ROC曲線的優(yōu)點是不會隨著類別分布的改變而改變,但這在某種程度上也是其缺點。因為負(fù)例N增加了很多,而曲線卻沒變,這等于產(chǎn)生了大量FP。像信息檢索中如果主要關(guān)心正例的預(yù)測準(zhǔn)確性的話,這就不可接受了。在類別不平衡的背景下,負(fù)例的數(shù)目眾多致使FPR的增長不明顯,導(dǎo)致ROC曲線呈現(xiàn)一個過分樂觀的效果估計。ROC曲線的橫軸采用FPR,根據(jù)FPR,當(dāng)負(fù)例N的數(shù)量遠(yuǎn)超正例P時,F(xiàn)P的大幅增長只能換來FPR的微小改變。結(jié)果是雖然大量負(fù)例被錯判成正例,在ROC曲線上卻無法直觀地看出來。(當(dāng)然也可以只分析ROC曲線左邊一小段)
PR曲線:
(1)PR曲線使用了Precision,因此PR曲線的兩個指標(biāo)都聚焦于正例。類別不平衡問題中由于主要關(guān)心正例,所以在此情況下PR曲線被廣泛認(rèn)為優(yōu)于ROC曲線。
使用場景:
ROC曲線由于兼顧正例與負(fù)例,所以適用于評估分類器的整體性能,相比而言PR曲線完全聚焦于正例。
如果有多份數(shù)據(jù)且存在不同的類別分布,比如信用卡欺詐問題中每個月正例和負(fù)例的比例可能都不相同,這時候如果只想單純地比較分類器的性能且剔除類別分布改變的影響,則ROC曲線比較適合,因為類別分布改變可能使得PR曲線發(fā)生變化時好時壞,這種時候難以進(jìn)行模型比較;反之,如果想測試不同類別分布下對分類器的性能的影響,則PR曲線比較適合。
如果想要評估在相同的類別分布下正例的預(yù)測情況,則宜選PR曲線。
類別不平衡問題中,ROC曲線通常會給出一個樂觀的效果估計,所以大部分時候還是PR曲線更好。
最后可以根據(jù)具體的應(yīng)用,在曲線上找到最優(yōu)的點,得到相對應(yīng)的precision,recall,f1 score等指標(biāo),去調(diào)整模型的閾值,從而得到一個符合具體應(yīng)用的模型。
總結(jié)
以上是生活随笔為你收集整理的推荐系统(2)—— 评估指标的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 抗DDOS,我选Cloudflare,免
- 下一篇: wnmp配置(windows+nginx