日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型选择与特征选择

發布時間:2025/3/15 编程问答 12 豆豆
生活随笔 收集整理的這篇文章主要介紹了 模型选择与特征选择 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1 問題

???? 模型選擇問題:對于一個學習問題,可以有多種模型選擇。比如要擬合一組樣本點,可以使用線性回歸,也可以用多項式回歸。那么使用哪種模型好呢(能夠在偏差和方差之間達到平衡最優)?

???? 還有一類參數選擇問題:如果我們想使用帶權值的回歸模型,那么怎么選擇權重w公式里的參數?

形式化定義:假設可選的模型集合是,比如我們想分類,那么SVM、logistic回歸、神經網絡等模型都包含在M中。

2 交叉驗證(Cross validation)

???? 我們的第一個任務就是要從M中選擇最好的模型。

???? 假設訓練集使用S來表示

???? 如果我們想使用經驗風險最小化來度量模型的好壞,那么我們可以這樣來選擇模型:

1、 使用S來訓練每一個,訓練出參數后,也就可以得到假設函數。(比如,線性模型中得到后,也就得到了假設函數)

2、 選擇錯誤率最小的假設函數。

???? 遺憾的是這個算法不可行,比如我們需要擬合一些樣本點,使用高階的多項式回歸肯定比線性回歸錯誤率要小,偏差小,但是方差卻很大,會過度擬合。因此,我們改進算法如下:

1、 從全部的訓練數據S中隨機選擇70%的樣例作為訓練集,剩余的30%作為測試集。

2、 在上訓練每一個,得到假設函數。

3、 在上測試每一個,得到相應的經驗錯誤。

4、 選擇具有最小經驗錯誤的作為最佳模型。

???? 這種方法稱為hold-out cross validation或者稱為簡單交叉驗證。

???? 由于測試集是和訓練集中是兩個世界的,因此我們可以認為這里的經驗錯誤接近于泛化錯誤(generalization error)。這里測試集的比例一般占全部數據的1/4-1/3。30%是典型值。

???? 還可以對模型作改進,當選出最佳的模型后,再在全部數據S上做一次訓練,顯然訓練數據越多,模型參數越準確。

???? 簡單交叉驗證方法的弱點在于得到的最佳模型是在70%的訓練數據上選出來的,不代表在全部訓練數據上是最佳的。還有當訓練數據本來就很少時,再分出測試集后,訓練數據就太少了。

???? 我們對簡單交叉驗證方法再做一次改進,如下:

1、 將全部訓練集S分成k個不相交的子集,假設S中的訓練樣例個數為m,那么每一個子集有m/k個訓練樣例,相應的子集稱作{}。

2、 每次從模型集合M中拿出來一個,然后在訓練子集中選擇出k-1個

{}(也就是每次只留下一個),使用這k-1個子集訓練后,得到假設函數。最后使用剩下的一份作測試,得到經驗錯誤。

3、 由于我們每次留下一個(j從1到k),因此會得到k個經驗錯誤,那么對于一個,它的經驗錯誤是這k個經驗錯誤的平均。

4、 選出平均經驗錯誤率最小的,然后使用全部的S再做一次訓練,得到最后的。

???? 這個方法稱為k-fold cross validation(k-折疊交叉驗證)。說白了,這個方法就是將簡單交叉驗證的測試集改為1/k,每個模型訓練k次,測試k次,錯誤率為k次的平均。一般講k取值為10。這樣數據稀疏時基本上也能進行。顯然,缺點就是訓練和測試次數過多。

???? 極端情況下,k可以取值為m,意味著每次留一個樣例做測試,這個稱為leave-one-out cross validation。

如果我們發明了一種新的學習模型或者算法,那么可以使用交叉驗證來對模型進行評價。比如在NLP中,我們將訓練集中分出一部分訓練,一部分做測試。

3 特征選擇(Feature selection)

???? 特征選擇嚴格來說也是模型選擇中的一種。這里不去辨析他們的關系,重點說明問題。假設我們想對維度為n的樣本點進行回歸,然而,n可能大多以至于遠遠大于訓練樣例數m。但是我們感覺很多特征對于結果是無用的,想剔除n中的無用特征。n個特征就有種去除情況(每個特征去或者保留),如果我們枚舉這些情況,然后利用交叉驗證逐一考察在該情況下模型的錯誤率,太不現實。因此需要一些啟發式搜索方法。

第一種,前向搜索:

1、 初始化特征集F為空。

2、 掃描i從1到n,

如果第i個特征不在F中,那么將特征i和F放在一起作為(即)

在只使用中特征的情況下,利用交叉驗證來得到的錯誤率。

3、 從上步中得到的n個中選出錯誤率最小的,更新F為。

如果F中的特征數達到了n或者預設定的閾值(如果有的話),那么輸出整個搜索過程中最好的F,沒達到轉到2

???? 前向搜索屬于wrapper model feature selection。Wrapper這里指不斷地使用不同的特征集來測試學習算法。前向搜索說白了就是每次增量地從剩余未選中的特征選出一個加入特征集中,待達到閾值或者n時,從所有的F中選出錯誤率最小的。

???? 既然有增量加,那么也會有增量減,后者稱為后向搜索。先將F設置為{1,2,..,n},然后每次刪除一個特征,并評價,直到達到閾值或者為空,然后選擇最佳的F。

???? 這兩種算法都可以工作,但是計算復雜度比較大。時間復雜度為。

第二種,過濾特征選擇(Filter feature selection):

???? 過濾特征選擇方法的想法是針對每一個特征,i從1到n,計算相對于類別標簽的信息量,得到n個結果,然后將n個按照從大到小排名,輸出前k個特征。顯然,這樣復雜度大大降低,為O(n)。

???? 那么關鍵問題就是使用什么樣的方法來度量,我們的目標是選取與y關聯最密切的一些。而y和都是有概率分布的。因此我們想到使用互信息來度量,對于是離散值的情況更適用,不是離散值,將其轉變為離散值,方法在第一篇《回歸認識》中已經提到。

???? 互信息(Mutual information)公式:

???? 當是0/1離散值的時候,這個公式如上。很容易推廣到是多個離散值的情況。

???? 這里的,和都是從訓練集上得到的。

???? 若問這個MI公式如何得來,請看它的KL距離(Kullback-Leibler)表述:

???? 也就是說,MI衡量的是和y的獨立性。如果它倆獨立(),那么KL距離值為0,也就是說和y不相關了,可以去除。相反,如果兩者密切相關,那么MI值會很大。在對MI進行排名后,最后剩余的問題就是如何選擇k值(前k個)。我們繼續使用交叉驗證的方法,將k從1掃描到n,取最大的F。不過這次復雜度是線性的了。比如,在使用樸素貝葉斯分類文本的時候,詞表長度n很大。使用filter特征選擇方法,能夠增加分類器的精度。

4 貝葉斯統計和規則化(Bayesian statistics and regularization)

???? 題目有點繞,說白了就是要找更好的估計方法來減少過度擬合情況的發生。

???? 回顧一下,線性回歸中使用的估計方法是最小二乘法,logistic回歸是條件概率的最大似然估計,樸素貝葉斯是聯合概率的最大似然估計,SVM是二次規劃。

???? 以前我們使用的估計方法是最大似然估計(比如在logistic回歸中使用的):

?????

?????注意這里的最大似然估計與維基百科中的表述

?????? http://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87

???? 有些出入,是因為維基百科只是將樣本(觀察數據)記為X,然后求P(X)的最大概率。然而,對于我們這里的樣本而言,分為特征x和類標簽y。我們需要具體計算P(X)。在判別模型(如logistic回歸)中,我們看待P(X)=P(x,y)=P(y|x)P(x),而P(x)與獨立無關,因此最后的argmax P(X)由argmaxP(y|x)決定,也就是上式。嚴格來講并不等于樣本X的概率,只是P(X)決定于最大化時P(X)也最大化。在生成模型,如樸素貝葉斯中,我們看待P(X)=P(y)P(x|y),也就是在某個類標簽y下出現特征x的概率與先驗概率之積。而P(x|y)在x各個分量是條件獨立情況下可以以概率相乘方式計算出,這里根本沒有參數。因此最大似然估計直接估計P(x,y)即可,變成了聯合分布概率。

???? 在該上式中,我們視參數為未知的常數向量。我們的任務就是估計出未知的。

???? 從大范圍上說,最大似然估計看待的視角稱為頻率學派(frequentist statistics),認為不是隨機變量,只是一個未知的常量,因此我們沒有把寫成。

???? 另一種視角稱為貝葉斯學派(Bayesian),他們看待為隨機變量,值未知。既然為隨機變量,那么不同的值就有了不同的概率(稱為先驗概率),代表我們對特定的的相信度。我們將訓練集表示成,i從1到m。我們首先需要求出的后驗概率:

?????這個公式的推導其實比較蹊蹺。第一步無可厚非,第二步中先看分子,分子中最完整的表達方式是。由于在分母中也會出現,所以會被約掉。當然作者壓根就沒有考慮,因為他看待P(S)的觀點就是x->y,而不是(x,y)。再來看分母,分母寫成這種形式后,意思是對所有的可能值做積分。括號里面的意思是,然后將其展開成分母的模樣,從宏觀上理解,就是在求每個樣例的概率時,先以一定的概率確定,然后在的作用下再確定的概率。而如果讓我推導這個公式,我可能會這樣寫分母,這樣推導出的結果是。我不知道自己的想法對不對,分歧在于如何看待,作者是為每個樣例都重新選定,而我是對總體樣本選擇一個

?

?????在不同的模型下計算方式不同。比如在貝葉斯logistic回歸中,

?????

???? 其中,p的表現形式也就是伯努利分布了。

???? 在是隨機變量的情況下,如果新來一個樣例特征為x,那么為了預測y。我們可以使用下面的公式:

?????

?????由前面的公式得到。假若我們要求期望值的話,那么套用求期望的公式即可:

?????

???? 大多數時候我們只需求得中最大的y即可(在y是離散值的情況下)。

???? 這次求解與之前的方式不同,以前是先求,然后直接預測,這次是對所有可能的作積分。

?????再總結一下兩者的區別,最大似然估計沒有將視作y的估計參數,認為是一個常數,只是未知其值而已,比如我們經常使用常數c作為y=2x+c的后綴一樣。但是的計算公式中含有未知數。所以再對極大似然估計求導后,可以求出

???? 而貝葉斯估計將視為隨機變量,的值滿足一定的分布,不是固定值,我們無法通過計算獲得其值,只能在預測時計算積分。

???? 然而在上述貝葉斯估計方法中,雖然公式合理優美,但后驗概率很難計算,看其公式知道計算分母時需要在所有的上作積分,然而對于一個高維的來說,枚舉其所有的可能性太難了。

為了解決這個問題,我們需要改變思路。看公式中的分母,分母其實就是P(S),而我們就是要讓P(S)在各種參數的影響下能夠最大(這里只有參數)。因此我們只需求出隨機變量中最可能的取值,這樣求出后,可將視為固定值,那么預測時就不用積分了,而是直接像最大似然估計中求出后一樣進行預測,這樣就變成了點估計。這種方法稱為最大后驗概率估計(Maximum a posteriori)方法

?????估計公式為

?????

?????與一樣表示的是P(S),意義是在從隨機變量分布中以一定概率選定好后,在給定樣本特征上出現的概率積。

???? 但是如果讓我推導這個公式的時候,我會這么做,考慮后驗概率,我們的目標是求出最有可能的。而對于的所有值來說,分母是一樣的,只有分子是不同的。因此。也就是的推導式。但這個公式與上面的有些不同,同樣還是看待每個樣本一個,還是總體樣本一個的問題。

???? 與最大似然估計對比發現,MAP只是將移進了條件概率中,并且多了一項。一般情況下我們認為,實際上,貝葉斯最大后驗概率估計相對于最大似然估計來說更容易克服過度擬合問題。我想原因是這樣的,過度擬合一般是極大化造成的。而在此公式中多了一個參數,整個公式由兩項組成,極大化時,不代表此時也能最大化。相反,是多值高斯分布,極大化時,概率反而可能比較小。因此,要達到最大化需要在兩者之間達到平衡,也就靠近了偏差和方差線的交叉點。這個跟機器翻譯里的噪聲信道模型比較類似,由兩個概率決定比有一個概率決定更靠譜。作者聲稱利用貝葉斯logistic回歸(使用的logistic回歸)應用于文本分類時,即使特征個數n遠遠大于樣例個數m,也很有效。

總結

以上是生活随笔為你收集整理的模型选择与特征选择的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美成人国产va精品日本一级 | 蜜臀av一区二区三区有限公司 | 免费观看美女裸体网站 | 蜜桃成人无码区免费视频网站 | 亚洲黄色av网站 | 热久久精品免费视频 | 麻豆视频网站 | 免费一区二区三区视频在线 | 精品成人无码久久久久久 | 黄色一级片免费在线观看 | 蜜桃免费av | 亚洲激情久久 | 国产精品欧美综合 | 岛国精品在线观看 | 欧美不卡二区 | 日本少妇xxxx | 天天躁日日躁狠狠很躁 | 亚洲欧美国产高清 | 精品视频久久久久久 | 少妇熟女视频一区二区三区 | 在线观看911视频 | 成人av电影在线播放 | 黄瓜视频污在线观看 | 欧美aⅴ视频 | 口爆吞精一区二区三区 | 高清18麻豆| 欧美a视频在线观看 | 九九九九精品 | 囯产精品一品二区三区 | 一区二区三区久久久 | 伊人365影院| 淫人网 | 日韩美女中文字幕 | 亚洲精品久久久久中文字幕二区 | 青青草99 | 精品一区二区三区蜜桃 | 91黄色免费看 | 黄色一级片免费 | 天天干夜夜拍 | 五月婷婷导航 | 国产伦精品免费视频 | 国产乱码精品1区2区3区 | 亚洲一级网 | 打美女屁股网站 | 人妻一区二区在线 | 国产小视频在线观看 | 对白超刺激精彩粗话av | 日韩va| 日韩欧美综合视频 | 午夜影院在线观看 | 性爱免费在线视频 | 成人人伦一区二区三区 | 69堂免费视频 | 亚洲AV无码成人精品国产一区 | 已满18岁免费观看电视连续剧 | 成人欧美一区二区三区在线观看 | 自拍偷拍视频网 | 成人福利一区二区 | 色欧美在线| melody在线高清免费观看 | 国产99久久 | 男生看的污网站 | 美女扒开尿口给男人看 | 夜夜激情网 | 夜夜嗨一区二区三区 | 人人91 | 欧美一级免费看 | 国产精品美女久久久久久久久 | 三级性生活片 | 欧美性生活一区二区三区 | 精品一区二区在线看 | 亚洲爽爆 | aaa级黄色片| av在线播放不卡 | 熟妇高潮喷沈阳45熟妇高潮喷 | 大屁股白浆一区二区三区 | 九一在线观看免费高清视频 | 一区二区三区在线免费视频 | 欧美在线免费 | 国产一级免费片 | 久久伊人成人网 | 国产精品一区二区免费看 | 久久精品视频中文字幕 | 天天干天天爽 | 香蕉久久精品 | 在线射| 91精品国产高清91久久久久久 | 91精品国产自产精品男人的天堂 | 色狗网站| 免费69视频| 久久一区国产 | 黄色一区二区视频 | 国产真实乱人偷精品视频 | 欧美色图亚洲天堂 | 欧美日韩三级 | 少妇真人直播免费视频 | 青青草55| 免费婷婷 | 久久青青 |