當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授

發(fā)布時(shí)間：2025/4/5 pytorch 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.2 正交化

回到目錄

1.4 滿足和優(yōu)化指標(biāo)

單一數(shù)字評估指標(biāo) (Single Number Evaluation Metric)

無論你是調(diào)整超參數(shù)，或者是嘗試不同的學(xué)習(xí)算法，或者在搭建機(jī)器學(xué)習(xí)系統(tǒng)時(shí)嘗試不同手段，你會(huì)發(fā)現(xiàn)，如果你有一個(gè)單實(shí)數(shù)評估指標(biāo)，你的進(jìn)展會(huì)快得多，它可以快速告訴你，新嘗試的手段比之前的手段好還是差。所以當(dāng)團(tuán)隊(duì)開始進(jìn)行機(jī)器學(xué)習(xí)項(xiàng)目時(shí)，我經(jīng)常推薦他們?yōu)閱栴}設(shè)置一個(gè)單實(shí)數(shù)評估指標(biāo)。

我們來看一個(gè)例子，你之前聽過我說過，應(yīng)用機(jī)器學(xué)習(xí)是一個(gè)非常經(jīng)驗(yàn)性的過程，我們通常有一個(gè)想法，編程序，跑實(shí)驗(yàn)，看看效果如何，然后使用這些實(shí)驗(yàn)結(jié)果來改善你的想法，然后繼續(xù)走這個(gè)循環(huán)，不斷改進(jìn)你的算法。

比如說對于你的貓分類器，之前你搭建了某個(gè)分類器 $A$ ，通過改變超參數(shù)，還有改變訓(xùn)練集等手段，你現(xiàn)在訓(xùn)練出來了一個(gè)新的分類器B，所以評估你的分類器的一個(gè)合理方式是觀察它的查準(zhǔn)率（precision）和查全率（recall）。

查準(zhǔn)率和查全率的確切細(xì)節(jié)對于這個(gè)例子來說不太重要。但簡而言之，查準(zhǔn)率的定義是在你的分類器標(biāo)記為貓的例子中，有多少真的是貓。所以如果分類器 $A$ 有95%的查準(zhǔn)率，這意味著你的分類器說這圖有貓的時(shí)候，有95%的機(jī)會(huì)真的是貓。

查全率就是，對于所有真貓的圖片，你的分類器正確識(shí)別出了多少百分比。實(shí)際為貓的圖片中，有多少被系統(tǒng)識(shí)別出來？如果分類器 $A$ 查全率是90%，這意味著對于所有的圖像，比如說你的開發(fā)集都是真的貓圖，分類器 $A$ 準(zhǔn)確地分辨出了其中的90%。

所以關(guān)于查準(zhǔn)率和查全率的定義，不用想太多。事實(shí)證明，查準(zhǔn)率和查全率之間往往需要折衷，兩個(gè)指標(biāo)都要顧及到。你希望得到的效果是，當(dāng)你的分類器說某個(gè)東西是貓的時(shí)候，有很大的機(jī)會(huì)它真的是一只貓，但對于所有是貓的圖片，你也希望系統(tǒng)能夠?qū)⒋蟛糠址诸悶樨?#xff0c;所以用查準(zhǔn)率和查全率來評估分類器是比較合理的。

但使用查準(zhǔn)率和查全率作為評估指標(biāo)的時(shí)候，有個(gè)問題，如果分類器 $A$ 在查全率上表現(xiàn)更好，分類器 $B$ 在查準(zhǔn)率上表現(xiàn)更好，你就無法判斷哪個(gè)分類器更好。如果你嘗試了很多不同想法，很多不同的超參數(shù)，你希望能夠快速試驗(yàn)不僅僅是兩個(gè)分類器，也許是十幾個(gè)分類器，快速選出“最好的”那個(gè)，這樣你可以從那里出發(fā)再迭代。如果有兩個(gè)評估指標(biāo)，就很難去快速地二中選一或者十中選一，所以我并不推薦使用兩個(gè)評估指標(biāo)，查準(zhǔn)率和查全率來選擇一個(gè)分類器。你只需要找到一個(gè)新的評估指標(biāo)，能夠結(jié)合查準(zhǔn)率和查全率。

在機(jī)器學(xué)習(xí)文獻(xiàn)中，結(jié)合查準(zhǔn)率和查全率的標(biāo)準(zhǔn)方法是所謂的 $F_1$ 分?jǐn)?shù)， $F_1$ 分?jǐn)?shù)的細(xì)節(jié)并不重要。但非正式的，你可以認(rèn)為這是查準(zhǔn)率 $P$ 和查全率 $R$ 的平均值。正式來看， $F_1$ 分?jǐn)?shù)的定義是這個(gè)公式： $21P+1R\frac2{\frac1P+\frac1R}$

在數(shù)學(xué)中，這個(gè)函數(shù)叫做查準(zhǔn)率 $P$ 和查全率 $R$ 的調(diào)和平均數(shù)。但非正式來說，你可以將它看成是某種查準(zhǔn)率和查全率的平均值，只不過你算的不是直接的算術(shù)平均，而是用這個(gè)公式定義的調(diào)和平均。這個(gè)指標(biāo)在權(quán)衡查準(zhǔn)率和查全率時(shí)有一些優(yōu)勢。

但在這個(gè)例子中，你可以馬上看出，分類器 $A$ 的 $F_1$ 分?jǐn)?shù)更高。假設(shè)分?jǐn)?shù)是結(jié)合查準(zhǔn)率和查全率的合理方式，你可以快速選出分類器 $A$ ，淘汰分類器 $B$ 。

我發(fā)現(xiàn)很多機(jī)器學(xué)習(xí)團(tuán)隊(duì)就是這樣，有一個(gè)定義明確的開發(fā)集用來測量查準(zhǔn)率和查全率，再加上這樣一個(gè)單一數(shù)值評估指標(biāo)，有時(shí)我叫單實(shí)數(shù)評估指標(biāo)，能讓你快速判斷分類器 $A$ 或者分類器 $B$ 更好。所以有這樣一個(gè)開發(fā)集，加上單實(shí)數(shù)評估指標(biāo)，你的迭代速度肯定會(huì)很快，它可以加速改進(jìn)您的機(jī)器學(xué)習(xí)算法的迭代過程。

我們來看另一個(gè)例子，假設(shè)你在開發(fā)一個(gè)貓應(yīng)用來服務(wù)四個(gè)地理大區(qū)的愛貓人士，美國、中國、印度還有世界其他地區(qū)。我們假設(shè)你的兩個(gè)分類器在來自四個(gè)地理大區(qū)的數(shù)據(jù)中得到了不同的錯(cuò)誤率，比如算法 $A$ 在美國用戶上傳的圖片中達(dá)到了3%錯(cuò)誤率，等等。

所以跟蹤一下，你的分類器在不同市場和地理大區(qū)中的表現(xiàn)應(yīng)該是有用的，但是通過跟蹤四個(gè)數(shù)字，很難掃一眼這些數(shù)值就快速判斷算法 $A$ 或算法 $B$ 哪個(gè)更好。如果你測試很多不同的分類器，那么看著那么多數(shù)字，然后快速選一個(gè)最優(yōu)是很難的。所以在這個(gè)例子中，我建議，除了跟蹤分類器在四個(gè)不同的地理大區(qū)的表現(xiàn)，也要算算平均值。假設(shè)平均表現(xiàn)是一個(gè)合理的單實(shí)數(shù)評估指標(biāo)，通過計(jì)算平均值，你就可以快速判斷。

看起來算法 $C$ 的平均錯(cuò)誤率最低，然后你可以繼續(xù)用那個(gè)算法。你必須選擇一個(gè)算法，然后不斷迭代，所以你的機(jī)器學(xué)習(xí)的工作流程往往是你有一個(gè)想法，你嘗試實(shí)現(xiàn)它，看看這個(gè)想法好不好。

所以本視頻介紹的是，有一個(gè)單實(shí)數(shù)評估指標(biāo)真的可以提高你的效率，或者提高你的團(tuán)隊(duì)做出這些決策的效率?，F(xiàn)在我們還沒有完整討論如何有效地建立評估指標(biāo)。在下一個(gè)視頻中，我會(huì)教你們?nèi)绾卧O(shè)置優(yōu)化以及滿足指標(biāo)，我們來看下一段視頻。

課程PPT

1.2 正交化

回到目錄

1.4 滿足和優(yōu)化指標(biāo)

總結(jié)

以上是生活随笔為你收集整理的1.3 单一数字评估指标-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： 1.2 正交化-深度学习第三课《结构化机
下一篇： 1.4 满足和优化指标-深度学习第三课《