a*算法的优缺点_轻松理解机器学习算法-朴素贝叶斯
1、預(yù)備知識
貝葉斯定理(Bayes’ theorem)是概率論中的一個定理,它跟隨機變量的條件概率以及邊緣概率分布有關(guān)。通常事件A在事件B發(fā)生的條件下的概率,與事件B在事件A發(fā)生的條件下的概率是不一樣的;然而這兩種是有確定關(guān)系的,這種關(guān)系就是貝葉斯定理:
P(A|B) = ( P(A) * P(B|A) ) / P(B)
從公式來看,我們需要首先了解3個基本概念:
1)先驗概率
通常把P(A)稱為“先驗概率”(Prior probability),即在不知道B事件發(fā)生的前提下,對A事件發(fā)生概率的一個主觀判斷。
2)似然函數(shù)
P(B|A)/P(B)稱為“似然函數(shù)”(Likelyhood),即對新事件B的發(fā)生調(diào)整,作用是,使得先驗概率更接近真實概率。
- 如果“似然函數(shù)”P(B|A)/P(B)>1,意味著“先驗概率”被增強,事件A的發(fā)生的可能性變大;
- 如果“似然函數(shù)”P(B|A)/P(B)=1,意味著事件B無助于判斷事件A的可能性;
- 如果“似然函數(shù)”P(B|A)/P(B)<1,意味著“先驗概率”被削弱,事件A的可能性變小。
3)后驗概率
P(A|B)稱為“后驗概率”(Posterior probability),即在事件B發(fā)生之后,對事件A概率的重新評估。
因此,貝葉斯定理為:后驗概率=先驗概率*似然函數(shù)。
2、樸素貝葉斯算法
樸素貝葉斯算法是一種簡單但極為強大的預(yù)測建模算法。之所以稱為樸素貝葉斯,是因為它假設(shè)每一個輸入變量之間是獨立的。
樸素貝葉斯模型由兩種類型的概率組成:
- 每個類別的概率P(Cj)
- 每個屬性的條件概率P(Ai|Cj)
樸素貝葉斯的公式如下:
P(Cause,Effect1,Effect2,Effect3….Effectn)=P(Cause)∏nP(Effecti|Cause)
為了訓(xùn)練樸素貝葉斯模型,需要先給出訓(xùn)練數(shù)據(jù)以及這些數(shù)據(jù)對應(yīng)的分類。
3、貝葉斯原理、貝葉斯分類及樸素貝葉斯之間的關(guān)系
貝葉斯原理是最大的概念,它解決了概率論中“逆向概率”的問題,在這個理論基礎(chǔ)上,人們設(shè)計出了貝葉斯分類器。樸素貝葉斯分類是貝葉斯分類器中的一種,也是最簡單,最常用的分類器。樸素貝葉斯之所以樸素是因為它假設(shè)屬性是相互獨立的,因此對實際情況有所約束,如果屬性之間存在關(guān)聯(lián),分類準確率會降低。不過好在對于大部分情況下,樸素貝葉斯的分類效果都不錯。
4、樸素貝葉斯分類流程
樸素貝葉斯分類需要三個步驟:
- 準備階段
在這個階段需要確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分數(shù)據(jù)進行分類,形成訓(xùn)練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工參與的,其質(zhì)量對整個過程有重要影響,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。
- 訓(xùn)練階段
這個階段生成分類器,主要工作是計算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率。輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。
- 應(yīng)用階段
這個階段是使用分類器對新數(shù)據(jù)進行分類。輸入是分類器和新數(shù)據(jù),輸出是新數(shù)據(jù)的分類結(jié)果。
5、樸素貝葉斯算法的優(yōu)缺點
優(yōu)點:
- 算法基于古典數(shù)學(xué)理論,分類效率穩(wěn)定;
- 適用于小規(guī)模數(shù)據(jù),能夠處理多分類任務(wù);
- 算法簡單,對缺失數(shù)據(jù)不敏感。
缺點:
- 在屬性個數(shù)比較多或者屬性之間相關(guān)性較大時,分類效果不好。而在屬性相關(guān)性較小時,樸素貝葉斯性能最為良好;
- 需要知道先驗概率,且先驗概率很多時候取決于假設(shè),假設(shè)的模型可以有很多種,因此在某些時候會由于假設(shè)的先驗?zāi)P偷脑驅(qū)е骂A(yù)測效果不佳;
- 通常通過先驗和數(shù)據(jù)來決定后驗的概率從而決定分類,所以分類決策存在一定的錯誤率;
- 對輸入數(shù)據(jù)的表達形式很敏感。
(本文部分內(nèi)容來自https://ixyzero.com/blog/archives/4524.html和https://joshuaqyh.github.io/)
總結(jié)
以上是生活随笔為你收集整理的a*算法的优缺点_轻松理解机器学习算法-朴素贝叶斯的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: louvian算法 缺点 优化_机器学习
- 下一篇: 优秀logo设计解析_优秀Logo设计!