日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Andrew Ng机器学习课程6

發(fā)布時間:2025/5/22 编程问答 21 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Andrew Ng机器学习课程6 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

Andrew Ng機器學習課程6


說明

  在前面跟隨者臺大機器學習基石課程和機器學習技法課程的設置,對機器學習所涉及到的大部分的知識有了一個較為全面的了解,但是對于沒有動手寫程序并加以使用的情況,基本上是不可能掌握好的。特別是我的學習進程是突擊式的,因此,會很快忘掉,心中只剩下一個基本的綱要,所以后面要通過講解更為詳細的Andrew Ng教授的機器學習課程進行回顧和總結,希望能夠抓住它的來龍去脈。所以總結的內(nèi)容主要是推導的思路,只要能夠把握住思路,就能保持長久的記憶。

主要內(nèi)容

樸素貝葉斯分類器

1. 垃圾郵件特征提取方法

  通過垃圾郵件的篩選,介紹了樸素貝葉斯分類器。對于垃圾郵件,建立一個垃圾郵件中經(jīng)常出現(xiàn)的詞的字典,用于將一封郵件通過這個字典轉換為特征向量,這個特征向量的長度等于字典中詞的個數(shù)N=5000,且其每一個位置上的值僅取“1”或“0”,表示對應位置上是否出現(xiàn)了垃圾詞。

2. 樸素貝葉斯假設與樸素貝葉斯分類器

  已經(jīng)得到了特征矢量,我們要構建一個generative model。這里先說明一下先驗概率與后驗概率的含義:

先驗概率是指基于先驗知識所得到某一件事情發(fā)生或出現(xiàn)的概率,通常采用大數(shù)據(jù)統(tǒng)計就可以得到先驗概率。比如罹患肝癌(y)的概率,通過統(tǒng)計醫(yī)院的資料,可以計算出先驗概率p(y)來。而后驗概率則是指當某一件事情已經(jīng)發(fā)生或出現(xiàn),回推導致這件事情發(fā)生的因素的概率。比如某人已經(jīng)查出罹患肝癌(y),而導致肝癌發(fā)生的因素有x={},即后驗概率就是指p(x|y)

  然后再說明一下機器學習中兩種不同的model:

discrimination modelgenerative model, 兩者的區(qū)別在于對概率密度的建模上:以二分類問題為例,樣本特征矢量為x,樣本標簽為yy{?1,+1}discrimination model是直接對p(y|x)進行建模,類似logistic regression,思路就是從已知的樣本集(x,y)中直接學習出給定x,輸出y為1的概率是多少。等于說是直接構建以x為輸入?yún)?shù)的y的概率模型。而generative model則是先分別對p(x|y=0)p(x|y=1)進行建模,然后再通過后驗概率公式(貝葉斯公式)計算得到:

p(y=1|x)=p(x|y=1)×p(y=1)p(x)p(y=0|x)=p(x|y=0)×p(y=0)p(x),這樣就考慮了樣本的產(chǎn)生模型p(y),同時除去分母是不影響判斷的,所以實際上generative model是對聯(lián)合概率密度進行的建模p(y,x)=p(x|y)×p(y)。而對于discrimination model則沒有考慮樣本的生成模型,或者說是認為樣本生成模型是均勻分布的。通常對于generative model要求樣本無窮大或盡可能大,而discrimination model則不需要。

  為了對p(x|y)進行建模,引入了一個非常強的假設,即假設給定y的情況下,xi是條件獨立的,即每個xi之間是沒有約束關系的。這個假設叫做樸素貝葉斯假設(Naive Bayes assumption),而這樣得到的學習算法就叫做樸素貝葉斯分類器。

3. 垃圾郵件的樸素貝葉斯分類器
  接著對垃圾郵件進行建模,有:

p(x1,...,x50000|y)=p(x1|y)p(x2|y,x1)p(x3|y,x1,x2)...p(x50000|y,x1,x2,...,x49999)=p(x1|y)p(x2|y)p(x3|y)...p(x50000|y)=i=1np(xi|y)
  很顯然,建立的模型的參數(shù)為p(xi|y)p(y)。聯(lián)合概率密度的似然函數(shù)為:
L(?y,?j|y=0,?j|y=1)=i=1mp(x(i),y(i))
  通過最大化聯(lián)合似然函數(shù),可以得到模型參數(shù)的最大似然估計,從而構建出如下模型:
p(y=1|x)=p(x|y=1)×p(y=1)p(x)=(ni=1p(xi|y=1))×p(y=1)p(x)p(y=0|x)=p(x|y=0)×p(y=0)p(x)=(ni=1p(xi|y=0))×p(y=0)p(x)
  選擇具有最高后驗概率的class作為判定依據(jù)。

Ng教授繪制了一種通常的情況用于說明通過典型的generative model :GDA(Gaussian Discrimination Analysis model)方法建立的兩類后驗概率,生成分類邊界實際上與logistic regression的邊界一樣。這說明了兩種模型實際上是有共通之處的,就是上面說過的如果忽略了樣本的產(chǎn)生模型p(y)兩者基本上是類似的。

拉普拉斯平滑

  在處理一些還沒有出現(xiàn)或發(fā)生過的事件A時,如果采用上面那種聯(lián)合似然函數(shù)估計出來的p(A)=0,這是不合理的,因為只是在有限的訓練集中沒有看到這個事件發(fā)生,并不代表它一定不發(fā)生,即p(A)=0。這個時候采用laplace smoothing會有更好的估計效果。以估計一個多項隨機變量z{1,2,...,k}的均值情況為例,多項分布的參數(shù)為?i=p(z=i),假定m個獨立的觀測值{z(1),...,z(m)},很簡單地得到最大似然估計為:

?i=mi+11{z(i)=j}m
  如前面所講,如果使用最大似然估計,很有可能一些?i=p(z=i)會是0。為了克服這個問題,使用laplace smoothing取代上面的估計:
?i=mi+11{z(i)=j}+1m+k
  laplace smoothing的效果就是使在觀測值中沒有出現(xiàn)的事件的概率估計保持一定的小概率出現(xiàn),而不是直接認定概率為0。

事件模型

  對于上面構建垃圾郵件分類器,實際上丟掉了一些信息,即沒有考慮文本的上下文。Naive Bayes采用multi-variable Bernoulli event model可以解決這樣的問題。認為郵件是這樣產(chǎn)生的:首先根據(jù)先驗概率p(y)隨機生成郵件或垃圾郵件,然后發(fā)送郵件的人遍歷這個垃圾郵件的字典,根據(jù)概率p(xi=1|y)=?i|y獨立決定是否包含第i個word。所以,這個message的概率為:

p(y)i=1np(xi|y)
  而multinomial event model是一個不同的模型,將具有n個words的email表示為(xi)(n),不同的郵件的words的長度n可以不同。xi表示的是這個email的第i個word是字典中的第x_i個word的索引index。所以message的概率為:
p(y)i=1np(xi|y)
  雖然multi-variable Bernoulli event model與multinomial event model得到的概率模型在公式上表現(xiàn)了相同,但是具體的含義卻差別很大,multinomial event model中的xi|y表示的是一個多項分布,而ulti-variable Bernoulli event model中的xi|y表示的是一個bernoulli分布。

神經(jīng)網(wǎng)絡模型

  Ng教授通過兩個視頻的例子說明了神經(jīng)網(wǎng)絡模型的力量,一個是手寫體的識別,另一個是模擬小孩說話聲音。都表現(xiàn)出了很好的性能。神經(jīng)網(wǎng)絡是在logistic regression的基礎上引入的,采用sigmoid函數(shù)作為激活函數(shù)。神經(jīng)網(wǎng)絡最大的缺點就是變量太多,導致很容易陷入局部最優(yōu)。神經(jīng)網(wǎng)絡的部分,可以參看我的其他博客文章神經(jīng)網(wǎng)絡模型的總結,有很深入的介紹。

支持向量機的開篇

  Ng教授對支撐向量機(support vector machine)是從線性可分問題入手的,介紹了怎樣的分類邊界是好的。對于logistic regression,當θTX遠大于0時,就有很大的confidence認為y=+1,而當θTX遠小于0時,就有很大的confidence認為y=?1。從而引入了兩個margin,一個是function margin,另一個是geometry margin。定義了點(xi,yi)到超平面(w,b)的距離作為function margin: function margin=y(i)(wTx+b),我們求取所有點到?jīng)Q策平面的距離中的最小值作為樣本到?jīng)Q策平面的距離。剩下要做的就是maximize 這個margin。樣本是固定的,而決策超平面是不定的,是由參數(shù)(w,b)決定的。我們所要做的就是調(diào)整(w,b),而如果參數(shù)同時放大時,這個margin也會放大,這樣最大化就沒意義了。所以,定義了geometric margins,約束||w||=1,從而得到了如下的公式化的優(yōu)化問題:

max(w,b){min y(i)(wTx+b)}, s.t.||w||=1


2015-8-23
藝少

轉載于:https://www.cnblogs.com/huty/p/8519223.html

總結

以上是生活随笔為你收集整理的Andrew Ng机器学习课程6的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲性生活网站 | 伊人免费在线观看高清版 | 亚洲区小说区图片区qvod | 色呦呦中文字幕 | 日本一区视频 | 天天天天操 | 国产99自拍| 亚洲精品一品 | 一区二区三区资源 | 一级免费观看视频 | 少妇被黑人到高潮喷出白浆 | 欧美成人国产精品一区二区 | 亚日韩一区 | 强睡邻居人妻中文字幕 | 国产精品无码永久免费不卡 | 久久久老熟女一区二区三区91 | 精国产品一区二区三区a片 国产精品第一 | 四虎影院免费视频 | 成人免费无码大片a毛片抽搐色欲 | 欧美日韩xxx | 性色视频在线观看 | 日日操日日爽 | 粉嫩一区二区三区 | 亚洲一区二区三区精品视频 | 欧美激情视频一区 | 鲁鲁久久 | 成人高潮片免费 | 国内自拍偷拍视频 | 日韩精品一区中文字幕 | 欧美日韩二三区 | 欧美视频久久 | 国产精品福利导航 | 久久大综合 | 在线观看中文字幕 | 伊人射 | 高清无码视频直接看 | 日韩久久精品视频 | 神马久久久久久久久久 | 中文字幕第七页 | 91女人18毛片水多国产 | 日本艳妇 | 91精品国产欧美一区二区成人 | 欧美中文字幕一区二区 | 成人拍拍视频 | 尹人综合| 国产又粗又猛又爽又黄无遮挡 | 爱爱视频免费网站 | 天天看夜夜操 | 亚洲视频一二 | 老司机午夜在线 | av天天射 | 成人精品一区二区三区在线 | 国产电影一区二区三区爱妃记 | 亚洲av无码一区二区三区性色 | 久草新在线 | 打开免费观看视频在线 | 亚洲欧美黄 | 欧美大屁股熟妇bbbbbb | 国产极品粉嫩 | 国产不卡在线 | 无套内谢的新婚少妇国语播放 | 国产成年人网站 | 日本一区二区高清视频 | 久草青青草| 综合天堂av久久久久久久 | 欧美影视一区二区 | 日韩精品一区在线视频 | 国产亚洲精品成人av在线 | 久久精品伦理 | 国产91精品露脸国语对白 | 超碰98| 一区二区三区久久久久 | 亚洲一区二区三区影院 | 天天插日日插 | 91传媒入口 | 妺妺窝人体色www聚色窝仙踪 | 成人h动漫精品一区二区下载 | 插吧插吧综合网 | 亚洲视频免费在线 | 国产一级免费看 | 国产1区2区在线观看 | 日韩电影在线观看一区 | 97在线国产 | 精品人妻一区二区三区蜜桃 | 天天夜夜啦啦啦 | 伊人伊人| 蜜芽在线视频 | 懂色av一区二区 | 午夜影院在线播放 | 大黑人交交护士xxxxhd | 亚洲一区视频 | www.国产区| 韩国妻子的朋友 | 欧美射图 | 国产男女猛烈无遮挡a片漫画 | 色片网站在线观看 | 亚洲三级在线免费观看 | 黄色99 | 日日爽夜夜爽 |