日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授

發(fā)布時(shí)間:2025/4/5 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)–垃圾郵件分類

假定我們現(xiàn)有一封郵件,其內(nèi)容如下:

From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subject: Buy now!Deal of the week!Buy now! Rolex w4ches - $100 Med1cine (any kind) - $50 Also low cost M0rgages available.

充斥著各種誘人的促銷信息,很有可能是一封垃圾郵件(Spam)。假定我們有一個(gè)垃圾郵件的數(shù)據(jù)集,想通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)學(xué)會(huì)鑒定郵件是否是垃圾郵件,通過(guò)這個(gè)范例,我們也將學(xué)習(xí)到機(jī)器學(xué)習(xí)的系統(tǒng)設(shè)計(jì)。

模型設(shè)計(jì)

我們令向量 x 表示垃圾郵件的特征向量,該向量包含了 100 個(gè)按字母序排序的單詞特征,這些單詞通常為垃圾郵件常出現(xiàn)的詞匯:discount,deal,now 等等:
xj={1第j個(gè)單詞出現(xiàn)0未出現(xiàn)x_j=\begin{cases}1\quad第j個(gè)單詞出現(xiàn)\\0\quad未出現(xiàn)\end{cases}xj?={1j個(gè)現(xiàn)0現(xiàn)?

令 y 標(biāo)簽表示該郵件是否是垃圾郵件:
y={1x是垃圾郵件0x不是垃圾郵件y=\begin{cases}1\quad x是垃圾郵件\\0\quad x不是垃圾郵件\end{cases}y={1x0x?

那么垃圾郵件分類就是一個(gè) 0/1 分類問(wèn)題,可以用邏輯回歸完成,這里不再重復(fù)介紹邏輯回歸的過(guò)程了,我們考慮如何降低分類錯(cuò)誤率:

  • 盡可能的擴(kuò)大數(shù)據(jù)樣本:Honypot 做了這樣一件事,把自己包裝成一個(gè)對(duì)黑客極具吸引力的機(jī)器,來(lái)誘使黑客進(jìn)行攻擊,就像蜜罐(honey pot)吸引密封那樣,從而記錄攻擊行為和手段。
  • 添加更多特征:例如我們可以增加郵件的發(fā)送者郵箱作為特征,可以增加標(biāo)點(diǎn)符號(hào)作為特征(垃圾郵件總會(huì)充斥了?,!等吸引眼球的標(biāo)點(diǎn))。
  • 預(yù)處理樣本:正如我們?cè)诶]件看到的,道高一尺,魔高一丈,垃圾郵件的制造者也會(huì)升級(jí)自己的攻擊手段,如在單詞拼寫上做手腳來(lái)防止郵件內(nèi)容被看出問(wèn)題,例如把 medicine 拼寫為 med1cinie 等。因此,我們就要有手段來(lái)識(shí)別這些錯(cuò)誤拼寫,從而優(yōu)化我們輸入到邏輯回歸中的樣本。

錯(cuò)誤分析

對(duì)于機(jī)器學(xué)習(xí)問(wèn)題,吳恩達(dá)給出了一些 tips:

  • 在一開始,盡量不要將問(wèn)題復(fù)雜化(不要提前優(yōu)化),先快速實(shí)現(xiàn)一個(gè)簡(jiǎn)單算法,然后通過(guò)交叉驗(yàn)證集評(píng)估模型。這就好比在軟件工程中,不會(huì)做提前優(yōu)化,而是先迭代功能。
  • 通過(guò)繪制學(xué)習(xí)曲線(learning curve),確定面臨的問(wèn)題是高偏差還是高方差,來(lái)決定是添加更多訓(xùn)練樣本,還是添加更多特征。
  • 甚至可以手動(dòng)檢查交叉驗(yàn)證集中誤差較大的樣本,確定錯(cuò)誤的來(lái)源和解決策略。

舉個(gè)例子,假定交叉驗(yàn)證集有 500 個(gè)樣本,即 mcvm_{cv}mcv?=500 ,我們的模型錯(cuò)分了其中 100 個(gè)樣本,那么我們會(huì)通過(guò)下述手段進(jìn)行錯(cuò)誤分析:

  • 需要知道哪些郵件被錯(cuò)分了,是假冒偽劣的推銷郵件?醫(yī)藥郵件?還是釣魚郵件?
  • 需要知道提供什么線索(特征)能幫助模型區(qū)分出這些郵件?
  • 例如,在這 100 個(gè)錯(cuò)分樣本中,我們發(fā)現(xiàn)有 53 個(gè)樣本是釣魚郵件,因此,我們就需要考慮為模型注入識(shí)別的釣魚郵件的能力。繼續(xù)觀察,我們發(fā)現(xiàn),在這 53 封釣魚郵件中,故意使用錯(cuò)誤拼寫的郵件有 5 封,來(lái)源可疑(發(fā)送人可疑)的郵件有 16 封,使用了大量煽動(dòng)性標(biāo)點(diǎn)符號(hào)的郵件有 32 封。因此,對(duì)于識(shí)別釣魚郵件來(lái)說(shuō),我們更適合將煽動(dòng)性標(biāo)點(diǎn)符號(hào)添加為特征,而不用再考慮去識(shí)別錯(cuò)誤拼寫。

    總結(jié)

    以上是生活随笔為你收集整理的4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。