日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

4.5 偏斜类-机器学习笔记-斯坦福吴恩达教授

發布時間:2025/4/5 编程问答 15 豆豆
生活随笔 收集整理的這篇文章主要介紹了 4.5 偏斜类-机器学习笔记-斯坦福吴恩达教授 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

偏斜類(Skewed Classes)

引子

假定我們通過邏輯回歸來預測病人是否患有癌癥:
y={0,病人未患癌癥1,病人患有癌癥y=\begin{cases}0,\quad病人未患癌癥\\1,\quad病人患有癌癥\end{cases}y={01?

并且,令人欣喜的是,測試集的錯誤率只有 1%。別著急高興,假如我們的測試樣本中只有 0.5% 患有癌癥,那么我們何不直接讓預測函數為:
hθ(x)=0h_θ(x)=0hθ?(x)=0

即,我們永遠預測病人不患病,那么準確率會高達 95%。但這可不是一件好事兒,我們追求高準確率犧牲的是病人的利益。引起這個問題的原因是樣本中出現了偏斜類(Skewed Classes),偏斜即傾斜,大量樣本傾斜向了某一類型。

查準率(Precision)與召回率(Recall)

從上面的例子我們知道,單純地使用誤差(Error)并不能完善地評價模型好壞,現在引入兩個重要的評價指標:(1)查準率(Precision);(2)召回率(Recall),并定義:

  • 陽性(Positive):表示正樣本。當預測和實際都為正樣本時,表示真陽性(True Positive);如果預測為正樣本,而實際為負樣本,則表示假陽性(False Positive)。
  • 陰性(Negative):表示負樣本。當預測和實際都為負樣本時,表示真陰性(True Negative);如果預測為負樣本,而實際為正樣本,則表示假陰性(False Negative)。

    則:
  • 查準率(Precision):
    Precision=TruePosPredicatedPos=TruePosTruePos+FalsePosPrecision=\frac{TruePos}{PredicatedPos}=\frac{TruePos}{TruePos+FalsePos}Precision=PredicatedPosTruePos?=TruePos+FalsePosTruePos?

在上例中,查準率就描述了:在我們預測患癌的病人中,確實患了癌癥的病人的比例。從公式中我們也可以得出,要想得到提高查準率,我們就要降低假陽性的出現的頻次,即,我們只有在擁有十足的把握是,才預測一個樣本為正樣本。

  • 召回率(Recall):
    Recall=TruePosActualPos=TruePosTruePos+FalseNegRecall=\frac{TruePos}{ActualPos}=\frac{TruePos}{TruePos+FalseNeg}Recall=ActualPosTruePos?=TruePos+FalseNegTruePos?

在上例中,召回率就描述了:在患癌的病人中,有多少病人被我們預測到了。從公式中我們也可以得出,要想提高召回率,我們就要降低假陰性出現的頻次,即,盡可能不放過任何可能為正樣本的樣本。

查準率和召回率的權衡

理想狀況下,我們希望假設函數能夠同時具備高準確率(High Precision)及高召回率(High Recall)。但是往往魚和熊掌不可兼得。回到預測病人患癌的例子中,假定我們的預測函數為:
y={1,hθ(x)≥0.50,otherwisey=\begin{cases}1,\quad h_\theta(x)≥0.5\\0,\quad otherwise\end{cases}y={1,hθ?(x)0.50,otherwise?

即,我們設定的預測閾值為 0.5 。這么做似乎風險不小,很多沒有患癌的病人被我們認為患有癌癥而接受了不必要的治療,因此,我們調高我們的閾值為 0.7 :
y={1,hθ(x)≥0.70,otherwisey=\begin{cases}1,\quad h_\theta(x)≥0.7\\0,\quad otherwise\end{cases}y={1,hθ?(x)0.70,otherwise?

此時,必須有較高的把握,我們才會預測一個患有癌癥,避免非癌癥患者接受到了不必要的治療,假陽性樣本少,此時我們也獲得了高查準率。然而,這么預測的代價是,有些癌癥病患體征不明顯,就被我們認為沒有患癌,從而得不到治療,假陰性樣本多,即我們的召回率偏低。

當我們嘗試構建了不同的算法模型,并且獲得了不同的查準率和召回率:

那么選擇哪個算法是最好的呢,假定我們使用平均值來權衡查準率和召回率:
Average=P+R2Average=\frac{P+R}2Average=2P+R?

按照平均值,我們會選擇算法 3,但是這并不是一個好的算法,因為其查準率太低了,我們希望有一個指標能選出查準率和召回率都高的算法,為此,引入了 F1Score :
F1Score=2PRP+RF_1Score=2\frac{PR}{P+R}F1?Score=2P+RPR?

從公式中也可以看到,分子是查準率和召回率的乘積,只有二者都較高時, F1ScoreF_1ScoreF1?Score 才會較高,特別地:
F1Score=0,ifP=0orR=0F_1Score=0,if\ P=0\ \ or\ \ R=0F1?Score=0,if?P=0??or??R=0F1Score=1,ifP=1andR=1F_1Score=1,if\ P=1\ and\ R=1F1?Score=1,if?P=1?and?R=1


F1ScoreF_1ScoreF1?Score 幫我們選出了算法1,事實也確實如此,算法1的查準率和召回率都較高。

總結

以上是生活随笔為你收集整理的4.5 偏斜类-机器学习笔记-斯坦福吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲视频精选 | 污站在线观看 | 龚玥菲三级露全乳视频 | 国产精品91久久久 | 韩日一区二区 | 成人不卡视频 | 免费观看毛片网站 | 日本a级免费| 插少妇视频 | 高清一区二区 | javxxx| 秋霞影院午夜老牛影院 | 日本黄色播放器 | 色久月| 欧美福利视频在线观看 | 中国少妇毛片 | 日本大片黄 | 国产传媒视频在线 | 拔插拔插华人 | 红桃视频国产 | 国产一在线观看 | 人体裸体bbb欣赏 | 天堂999 | 久久国产柳州莫菁门 | 天天看天天色 | 一区二区三区国产精品视频 | 狠狠爱夜夜操 | 亚洲资源av | 幸福宝在线观看 | 噼里啪啦国语版在线观看 | 免费av看片 | 91直接看 | 亚洲天堂一区二区三区四区 | 精品国产99久久久久久宅男i | 性生生活大片又黄又 | 美梦视频大全在线观看高清 | 丁香四月婷婷 | 亚洲成人高清在线观看 | 在线观看视频99 | 成年人免费在线视频 | 夜夜爽夜夜叫夜夜高潮漏水 | 伊人国产视频 | 亚洲一区二区三区黄色 | 中文字幕不卡在线观看 | 欧美色图日韩 | 亚洲男女啪啪 | 一道本久在线中文字幕 | 久久这里精品 | 综合婷婷 | 亚洲欧美日韩免费 | 黄色伊人 | 天天躁日日躁狠狠躁喷水 | 欧美亚洲第一页 | 在线啪| 亚洲精品视频观看 | 亚洲图色av | 校园春色亚洲色图 | 日韩视频h| 女生和男生一起插插插 | 欧美r级在线观看 | 美女久久精品 | 久久亚洲成人av | 欧美视频一区二区三区四区在线观看 | 日产精品久久久久 | 国产精品久久久久久久久久久久午夜片 | 黄色日韩视频 | 91免费高清 | 男人的天堂视频网站 | 国产精品资源站 | 国产无码精品在线观看 | 中文字幕日韩专区 | 内射一区二区 | 韩日午夜在线资源一区二区 | 欧美精品aaa | 黄色一级毛片 | 亚洲欧美成人一区 | 国产精品伦子伦免费视频 | 伊人色影院 | 一区二区三区啪啪啪 | 欧美视频精品 | 亚洲av无码一区二区三区观看 | 极品销魂美女少妇尤物 | 夜夜躁很很躁日日躁麻豆 | 国产精品高潮呻吟久久av野狼 | 成人av在线网 | 亚洲网址在线观看 | 四川黄色一级片 | 黄色美女大片 | 久久久久久美女 | 国产91精品欧美 | 黄色免费在线播放 | 韩国av毛片 | 欧美午夜激情影院 | 欧美日韩久久久久 | 亚洲精品99 | 国产一级免费看 | 中文成人在线 | jizz免费在线观看 | 亚洲自拍偷拍视频 |