日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

基于sklearn的朴素贝叶斯_Sklearn参数详解—贝叶斯

發(fā)布時(shí)間:2023/12/15 编程问答 38 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于sklearn的朴素贝叶斯_Sklearn参数详解—贝叶斯 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在開始學(xué)習(xí)具體的貝葉斯參數(shù)前,你可以先看看:樸素貝葉斯詳解?mp.weixin.qq.com

樸素貝葉斯一共有三種方法,分別是高斯樸素貝葉斯、多項(xiàng)式分布貝葉斯、伯努利樸素貝葉斯,在介紹不同方法的具體參數(shù)前,我們先看看這三種方法有什么區(qū)別。

這三種分類方法其實(shí)就是對(duì)應(yīng)三種不同的數(shù)據(jù)分布類型。

高斯分布又叫正太分布,我們把一個(gè)隨機(jī)變量X服從數(shù)學(xué)期望為μ、方差為σ^2的數(shù)據(jù)分布稱為正太分布,當(dāng)數(shù)學(xué)期望μ=0,方差σ=1時(shí)稱為標(biāo)準(zhǔn)正態(tài)分布。

正太分布概率圖

伯努利分布又稱“零一分布”、“兩點(diǎn)分布”(即結(jié)果要么是0要么是1),是二項(xiàng)分布的特殊情況,之所以是特殊的二項(xiàng)分布,是因?yàn)槎?xiàng)分布是多重伯努利實(shí)驗(yàn)的概率分布。舉個(gè)例子就是,伯努利分布是只扔一次硬幣正面反面的概率,而二項(xiàng)分布是扔多次硬幣以后得到正面反面的概率。

多項(xiàng)式分布(Multinomial Distribution)是二項(xiàng)式分布的推廣,二項(xiàng)分布是隨機(jī)結(jié)果值只有兩個(gè)(投硬幣的結(jié)果),多項(xiàng)式分布是指隨機(jī)結(jié)果值有多個(gè)(搖骰子的結(jié)果)。

多項(xiàng)式模型樸素貝葉斯和伯努利模型樸素貝葉斯常用在文本分類問(wèn)題中,高斯分布的樸素貝葉斯主要用于連續(xù)變量中,且假設(shè)連續(xù)變量是服從正太分布的。

高斯樸素貝葉斯

高斯樸素貝葉斯算法是假設(shè)特征的可能性(即概率)為高斯分布。

class sklearn.naive_bayes.GaussianNB(priors=None)

priors:先驗(yàn)概率大小,如果沒有給定,模型則根據(jù)樣本數(shù)據(jù)自己計(jì)算(利用極大似然法)。

對(duì)象

class_prior_:每個(gè)樣本的概率

class_count:每個(gè)類別的樣本數(shù)量

theta_:每個(gè)類別中每個(gè)特征的均值

sigma_:每個(gè)類別中每個(gè)特征的方差

多項(xiàng)式分布貝葉斯

適用于服從多項(xiàng)分布的特征數(shù)據(jù)。

class sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)

alpha:先驗(yàn)平滑因子,默認(rèn)等于1,當(dāng)?shù)扔?時(shí)表示拉普拉斯平滑。

fit_prior:是否去學(xué)習(xí)類的先驗(yàn)概率,默認(rèn)是True

class_prior:各個(gè)類別的先驗(yàn)概率,如果沒有指定,則模型會(huì)根據(jù)數(shù)據(jù)自動(dòng)學(xué)習(xí), 每個(gè)類別的先驗(yàn)概率相同,等于類標(biāo)記總個(gè)數(shù)N分之一。

對(duì)象

class_log_prior_:每個(gè)類別平滑后的先驗(yàn)概率

intercept_:是樸素貝葉斯對(duì)應(yīng)的線性模型,其值和class_log_prior_相同feature_log_prob_:給定特征類別的對(duì)數(shù)概率(條件概率)。 特征的條件概率=(指定類下指定特征出現(xiàn)的次數(shù)+alpha)/(指定類下所有特征出現(xiàn)次數(shù)之和+類的可能取值個(gè)數(shù)*alpha)coef_: 是樸素貝葉斯對(duì)應(yīng)的線性模型,其值和feature_log_prob相同

class_count_: 訓(xùn)練樣本中各類別對(duì)應(yīng)的樣本數(shù)

feature_count_: 每個(gè)類別中各個(gè)特征出現(xiàn)的次數(shù)

伯努利樸素貝葉斯

用于多重伯努利分布的數(shù)據(jù),即有多個(gè)特征,但每個(gè)特征都假設(shè)是一個(gè)二元 (Bernoulli, boolean) 變量。

class sklearn.naive_bayes.BernoulliNB(alpha=1.0, binarize=0.0, fit_prior=True, class_prior=None)

alpha:平滑因子,與多項(xiàng)式中的alpha一致。

binarize:樣本特征二值化的閾值,默認(rèn)是0。如果不輸入,則模型會(huì)認(rèn)為所有特征都已經(jīng)是二值化形式了;如果輸入具體的值,則模型會(huì)把大于該值的部分歸為一類,小于的歸為另一類。

fit_prior:是否去學(xué)習(xí)類的先驗(yàn)概率,默認(rèn)是True

class_prior:各個(gè)類別的先驗(yàn)概率,如果沒有指定,則模型會(huì)根據(jù)數(shù)據(jù)自動(dòng)學(xué)習(xí), 每個(gè)類別的先驗(yàn)概率相同,等于類標(biāo)記總個(gè)數(shù)N分之一。

對(duì)象

class_log_prior_:每個(gè)類別平滑后的先驗(yàn)對(duì)數(shù)概率。

feature_log_prob_:給定特征類別的經(jīng)驗(yàn)對(duì)數(shù)概率。

class_count_:擬合過(guò)程中每個(gè)樣本的數(shù)量。

feature_count_:擬合過(guò)程中每個(gè)特征的數(shù)量。

方法

貝葉斯的方法和其他模型的方法一致。

fit(X,Y):在數(shù)據(jù)集(X,Y)上擬合模型。

get_params():獲取模型參數(shù)。

predict(X):對(duì)數(shù)據(jù)集X進(jìn)行預(yù)測(cè)。

predict_log_proba(X):對(duì)數(shù)據(jù)集X預(yù)測(cè),得到每個(gè)類別的概率對(duì)數(shù)值。predict_proba(X):對(duì)數(shù)據(jù)集X預(yù)測(cè),得到每個(gè)類別的概率。

score(X,Y):得到模型在數(shù)據(jù)集(X,Y)的得分情況。

總結(jié)

以上是生活随笔為你收集整理的基于sklearn的朴素贝叶斯_Sklearn参数详解—贝叶斯的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。