日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[机器学习]信息熵信息增益

發布時間:2025/5/22 编程问答 18 豆豆
生活随笔 收集整理的這篇文章主要介紹了 [机器学习]信息熵信息增益 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

關于對信息、熵、信息增益是信息論里的概念,是對數據處理的量化,這幾個概念主要是在決策樹里用到的概念,因為在利用特征來分類的時候會對特征選取順序的選擇,這幾個概念比較抽象,我也花了好長時間去理解(自己認為的理解),廢話不多說,接下來開始對這幾個概念解釋,防止自己忘記的同時,望對其他人有個借鑒的作用,如有錯誤還請指出。

1、信息

這個是熵和信息增益的基礎概念,我覺得對于這個概念的理解更應該把他認為是一用名稱,就比如‘雞‘(加引號意思是說這個是名稱)是用來修飾雞(沒加引號是說存在的動物即雞),‘狗’是用來修飾狗的,但是假如在雞還未被命名為'雞'的時候,雞被命名為‘狗’,狗未被命名為‘狗’的時候,狗被命名為'雞',那么現在我們看到狗就會稱其為‘雞’,見到雞的話會稱其為‘雞’,同理,信息應該是對一個抽象事物的命名,無論用不用‘信息’來命名這種抽象事物,或者用其他名稱來命名這種抽象事物,這種抽象事物是客觀存在的。

引用香農的話,信息是用來消除隨機不確定性的東西,當然這句話雖然經典,但是還是很難去搞明白這種東西到底是個什么樣,可能在不同的地方來說,指的東西又不一樣,從數學的角度來說可能更加清楚一些,數學本來就是建造在懸崖之上的一種理論,一種抽象的理論,利用抽象來解釋抽象可能更加恰當,同時也是在機器學習決策樹中用的定義,如果帶分類的事物集合可以劃分為多個類別當中,則某個類(xi)的信息定義如下:

???                       

I(x)用來表示隨機變量的信息,p(xi)指是當xi發生時的概率,這里說一下隨機變量的概念,隨機變量時概率論中的概念,是從樣本空間到實數集的一個映射,樣本空間是指所有隨機事件發生的結果的并集,比如當你拋硬幣的時候,會發生兩個結果,正面或反面,而隨機事件在這里可以是,硬幣是正面;硬幣是反面;兩個隨機事件,而{正面,反面}這個集合便是樣本空間,但是在數學中不會說用‘正面’、‘反面’這樣的詞語來作為數學運算的介質,而是用0表示反面,用1表示正面,而“正面->1”,"反面->0"這樣的映射便為隨機變量,即類似一個數學函數。

2、熵

既然信息已經說完,熵說起來就不會那么的抽象,更多的可能是概率論的定義,熵是約翰.馮.諾依曼建議使用的命名(當然是英文),最初原因是因為大家都不知道它是什么意思,在信息論和概率論中熵是對隨機變量不確定性的度量,與上邊聯系起來,熵便是信息的期望值,可以記作:

                          

熵只依賴X的分布,和X的取值沒有關系,熵是用來度量不確定性,當熵越大,概率說X=xi的不確定性越大,反之越小,在機器學期中分類中說,熵越大即這個類別的不確定性更大,反之越小,當隨機變量的取值為兩個時,熵隨概率的變化曲線如下圖:

                    

當p=0或p=1時,H(p)=0,隨機變量完全沒有不確定性,當p=0.5時,H(p)=1,此時隨機變量的不確定性最大

條件熵

條件熵是用來解釋信息增益而引入的概念,概率定義:隨機變量X在給定條件下隨機變量Y的條件熵,對定義描述為:X給定條件下Y的條件干率分布的熵對X的數學期望,在機器學習中為選定某個特征后的熵,公式如下:

                

這里可能會有疑惑,這個公式是對條件概率熵求期望,但是上邊說是選定某個特征的熵,沒錯,是選定某個特征的熵,因為一個特征可以將待分類的事物集合分為多類,即一個特征對應著多個類別,因此在此的多個分類即為X的取值。

3、信息增益

信息增益在決策樹算法中是用來選擇特征的指標,信息增益越大,則這個特征的選擇性越好,在概率中定義為:待分類的集合的熵和選定某個特征的條件熵之差(這里只的是經驗熵或經驗條件熵,由于真正的熵并不知道,是根據樣本計算出來的),公式如下:

                

注意:這里不要理解偏差,因為上邊說了熵是類別的,但是在這里又說是集合的熵,沒區別,因為在計算熵的時候是根據各個類別對應的值求期望來等到熵

4、信息增益算法(舉例,摘自統計學習算法)

訓練數據集合D,|D|為樣本容量,即樣本的個數(D中元素個數),設有K個類Ck來表示,|Ck|為Ci的樣本個數,|Ck|之和為|D|,k=1,2.....,根據特征A將D劃分為n個子集D1,D2.....Dn,|Di|為Di的樣本個數,|Di|之和為|D|,i=1,2,....,記Di中屬于Ck的樣本集合為Dik,即交集,|Dik|為Dik的樣本個數,算法如下:

輸入:D,A

輸出:信息增益g(D,A)

(1)D的經驗熵H(D)

        

?

此處的概率計算是根據古典概率計算,由于訓練數據集總個數為|D|,某個分類的個數為|Ck|,在某個分類的概率,或說隨機變量取某值的概率為:|Ck|/|D|

(2)選定A的經驗條件熵H(D|A)

        

?

此處的概率計算同上,由于|Di|是選定特征的某個分類的樣本個數,則|Di|/|D|,可以說為在選定特征某個分類的概率,后邊的求和可以理解為在選定特征的某個類別下的條件概率的熵,即訓練集為Di,交集Dik可以理解在Di條件下某個分類的樣本個數,即k為某個分類,就是縮小訓練集為Di的熵

(3)信息增益

        

?

轉載于:https://www.cnblogs.com/fantasy01/p/4581803.html

總結

以上是生活随笔為你收集整理的[机器学习]信息熵信息增益的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 国产精品视频在 | 精品一区二区三区免费视频 | 亚洲卡一| 人人妻人人澡人人爽精品欧美一区 | 精品69| 国产日韩高清在线 | 涩涩视频软件 | 日本美女黄色一级片 | jizz在线看 | 欧美精品aaa | 亚洲精品字幕在线观看 | 三级免费| 在线观看黄色av | 欧美另类激情 | 亚洲黄色大全 | 九九视频免费在线观看 | 国产美女免费视频 | 99久久久无码国产精品免费麻豆 | 少妇一级片 | 日韩性xx | va在线 | 欧美激情欧美激情在线五月 | 亚洲偷自| 加勒比伊人 | 岛国二区三区 | 麻豆观看| 成年午夜视频 | 国产综合久久久 | 色爱综合 | 国产女人高潮视频 | 91大神久久 | 91亚洲精品久久久蜜桃网站 | av国产一区| 毛片毛片毛片毛片 | 极品毛片 | 黄色avav | 9999免费视频 | 国产激情网 | 国产黄色片在线 | 欧洲一区二区三区在线 | 福利视频三区 | 四虎影视8848hh | 伊人成人22 | 2025韩国大尺度电影 | 高清国产在线 | 国产人妻777人伦精品hd | 欧美性受xxxxxx黑人xyx性爽 | 色偷偷免费| 亚洲国产一区在线观看 | 无码国产69精品久久久久同性 | 四虎4hu永久免费网站影院 | 日本一区二区三区免费看 | 亚洲拍拍 | 日韩高清在线观看一区 | 男生舔女生的屁股 | 中文字幕av一区二区三区人妻少妇 | 毛片毛片毛片毛片毛片毛片毛片毛片 | 婷久久 | 欧美三级不卡 | 中文字幕亚洲一区 | 精品国产96亚洲一区二区三区 | 草草影院第一页 | 青青草免费看 | 久久青 | 国模小丫大尺度啪啪人体 | 日韩av免费一区 | 日日骚av一区二区 | 羞羞成人 | 琪琪电影午夜理论片八戒八戒 | 亚洲伦理自拍 | 男女扒开双腿猛进入爽爽免费 | 91九色在线播放 | 日本在线国产 | 亚洲乱码少妇 | 狠狠干狠狠干狠狠干 | 色哥网| 99re久久精品国产 | 国产精品怡红院 | 成人午夜网址 | 国精产品一区一区三区mba下载 | 日韩少妇一区二区 | 永久免费看片在线播放 | 午夜伦视频 | 欧美黑人狂野猛交老妇 | 成人禁污污啪啪入口 | 性高湖久久久久久久久免费 | 114国产精品久久免费观看 | 一本久道在线 | 男女做爰猛烈高潮描写 | 国产日韩中文字幕 | 四虎精品成人免费网站 | 美女网站免费观看 | 亚洲AV无码乱码国产精品色欲 | 亚洲av无码久久精品色欲 | 国产午夜精品在线观看 | 亚洲天堂第一页 | 鲁大师私人影院在线观看 | 欧美日韩中文国产一区发布 | 亚洲天堂av免费在线观看 |