拉普拉斯平滑(Laplace Smoothing)
拉普拉斯平滑(Laplace Smoothing)又稱 加1平滑,常用平滑方法。解決零概率問題。
背景:為什么要做平滑處理?
零概率問題:在計(jì)算實(shí)例的概率時(shí),如果某個(gè)量x,在觀察樣本庫(訓(xùn)練集)中沒有出現(xiàn)過,會(huì)導(dǎo)致整個(gè)實(shí)例的概率結(jié)果是0。
在文本分類的問題中,當(dāng)一個(gè)詞語沒有在訓(xùn)練樣本中出現(xiàn),該詞語調(diào)概率為0,使用連乘計(jì)算文本出現(xiàn)概率時(shí)也為0。
這是不合理的,不能因?yàn)橐粋€(gè)事件沒有觀察到就武斷的認(rèn)為該事件的概率是0。
拉普拉斯的理論支撐
為了解決零概率的問題,法國(guó)數(shù)學(xué)家拉普拉斯最早提出用加1的方法估計(jì)沒有出現(xiàn)過的現(xiàn)象的概率,所以加法平滑也叫做拉普拉斯平滑。
假定訓(xùn)練樣本很大時(shí),每個(gè)分量x的計(jì)數(shù)加1造成的估計(jì)概率變化可以忽略不計(jì),但可以方便有效的避免零概率問題。
應(yīng)用舉例
假設(shè)在文本分類中,有3個(gè)類,C1、C2、C3,在指定的訓(xùn)練樣本中,某個(gè)詞語K1,在各個(gè)類中觀測(cè)計(jì)數(shù)分別為0,990,10,K1的概率為0,0.99,0.01,對(duì)這三個(gè)量使用拉普拉斯平滑的計(jì)算方法如下:
1/1003 = 0.001,991/1003=0.988,11/1003=0.011
在實(shí)際的使用中也經(jīng)常使用加 lambda(1≥lambda≥0)來代替簡(jiǎn)單加1。如果對(duì)N個(gè)計(jì)數(shù)都加上lambda,這時(shí)分母也要記得加上N*lambda。
https://www.cnblogs.com/bqtang/p/3693827.html
https://blog.csdn.net/zyq11223/article/details/90209782
總結(jié)
以上是生活随笔為你收集整理的拉普拉斯平滑(Laplace Smoothing)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 是可改写的随机存储器_关于存储器的一些基
- 下一篇: Excel两张表查重,返回True