當(dāng)前位置：首頁(yè) >

4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授

發(fā)布時(shí)間：2025/4/5 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)–垃圾郵件分類

假定我們現(xiàn)有一封郵件，其內(nèi)容如下：

From: cheapsales@buystufffromme.com To: ang@cs.stanford.edu Subject: Buy now!Deal of the week!Buy now! Rolex w4ches - $100 Med1cine (any kind) - $50 Also low cost M0rgages available.

充斥著各種誘人的促銷信息，很有可能是一封垃圾郵件（Spam）。假定我們有一個(gè)垃圾郵件的數(shù)據(jù)集，想通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)學(xué)會(huì)鑒定郵件是否是垃圾郵件，通過(guò)這個(gè)范例，我們也將學(xué)習(xí)到機(jī)器學(xué)習(xí)的系統(tǒng)設(shè)計(jì)。

模型設(shè)計(jì)

我們令向量 x 表示垃圾郵件的特征向量，該向量包含了 100 個(gè)按字母序排序的單詞特征，這些單詞通常為垃圾郵件常出現(xiàn)的詞匯：discount，deal，now 等等：
$xj={1第j個(gè)單詞出現(xiàn)0未出現(xiàn)x_j=\begin{cases}1\quad第j個(gè)單詞出現(xiàn)\\0\quad未出現(xiàn)\end{cases}$

令 y 標(biāo)簽表示該郵件是否是垃圾郵件：
$y={1x是垃圾郵件0x不是垃圾郵件y=\begin{cases}1\quad x是垃圾郵件\\0\quad x不是垃圾郵件\end{cases}$

那么垃圾郵件分類就是一個(gè) 0/1 分類問(wèn)題，可以用邏輯回歸完成，這里不再重復(fù)介紹邏輯回歸的過(guò)程了，我們考慮如何降低分類錯(cuò)誤率：

盡可能的擴(kuò)大數(shù)據(jù)樣本：Honypot 做了這樣一件事，把自己包裝成一個(gè)對(duì)黑客極具吸引力的機(jī)器，來(lái)誘使黑客進(jìn)行攻擊，就像蜜罐（honey pot）吸引密封那樣，從而記錄攻擊行為和手段。
添加更多特征：例如我們可以增加郵件的發(fā)送者郵箱作為特征，可以增加標(biāo)點(diǎn)符號(hào)作為特征（垃圾郵件總會(huì)充斥了？，！等吸引眼球的標(biāo)點(diǎn)）。
預(yù)處理樣本：正如我們?cè)诶]件看到的，道高一尺，魔高一丈，垃圾郵件的制造者也會(huì)升級(jí)自己的攻擊手段，如在單詞拼寫上做手腳來(lái)防止郵件內(nèi)容被看出問(wèn)題，例如把 medicine 拼寫為 med1cinie 等。因此，我們就要有手段來(lái)識(shí)別這些錯(cuò)誤拼寫，從而優(yōu)化我們輸入到邏輯回歸中的樣本。

錯(cuò)誤分析

對(duì)于機(jī)器學(xué)習(xí)問(wèn)題，吳恩達(dá)給出了一些 tips：

在一開始，盡量不要將問(wèn)題復(fù)雜化（不要提前優(yōu)化），先快速實(shí)現(xiàn)一個(gè)簡(jiǎn)單算法，然后通過(guò)交叉驗(yàn)證集評(píng)估模型。這就好比在軟件工程中，不會(huì)做提前優(yōu)化，而是先迭代功能。
通過(guò)繪制學(xué)習(xí)曲線（learning curve），確定面臨的問(wèn)題是高偏差還是高方差，來(lái)決定是添加更多訓(xùn)練樣本，還是添加更多特征。
甚至可以手動(dòng)檢查交叉驗(yàn)證集中誤差較大的樣本，確定錯(cuò)誤的來(lái)源和解決策略。

舉個(gè)例子，假定交叉驗(yàn)證集有 500 個(gè)樣本，即 $m_{cv}$ =500 ，我們的模型錯(cuò)分了其中 100 個(gè)樣本，那么我們會(huì)通過(guò)下述手段進(jìn)行錯(cuò)誤分析：

需要知道哪些郵件被錯(cuò)分了，是假冒偽劣的推銷郵件？醫(yī)藥郵件？還是釣魚郵件？

需要知道提供什么線索（特征）能幫助模型區(qū)分出這些郵件？

例如，在這 100 個(gè)錯(cuò)分樣本中，我們發(fā)現(xiàn)有 53 個(gè)樣本是釣魚郵件，因此，我們就需要考慮為模型注入識(shí)別的釣魚郵件的能力。繼續(xù)觀察，我們發(fā)現(xiàn)，在這 53 封釣魚郵件中，故意使用錯(cuò)誤拼寫的郵件有 5 封，來(lái)源可疑（發(fā)送人可疑）的郵件有 16 封，使用了大量煽動(dòng)性標(biāo)點(diǎn)符號(hào)的郵件有 32 封。因此，對(duì)于識(shí)別釣魚郵件來(lái)說(shuō)，我們更適合將煽動(dòng)性標(biāo)點(diǎn)符號(hào)添加為特征，而不用再考慮去識(shí)別錯(cuò)誤拼寫。

總結(jié)

以上是生活随笔為你收集整理的4.4 机器学习系统设计--垃圾邮件分类-机器学习笔记-斯坦福吴恩达教授的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。