日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

逻辑回归、决策树和支持向量机(I)

發(fā)布時間:2025/3/21 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 逻辑回归、决策树和支持向量机(I) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

邏輯回歸、決策樹和支持向量機(jī)(I)

發(fā)表于12小時前| 1115次閱讀| 來源Edvancer| 1 條評論| 作者Lalit Sachan

機(jī)器學(xué)習(xí)可視化特征空間邏輯回歸決策邊界SVM決策樹 width="22" height="16" src="http://hits.sinajs.cn/A1/weiboshare.html?url=http%3A%2F%2Fwww.csdn.net%2Farticle%2F2015-11-26%2F2826332&type=3&count=&appkey=&title=%E5%88%86%E7%B1%BB%E9%97%AE%E9%A2%98%E6%98%AF%E5%95%86%E4%B8%9A%E4%B8%9A%E5%8A%A1%E4%B8%AD%E9%81%87%E5%88%B0%E7%9A%84%E4%B8%BB%E8%A6%81%E9%97%AE%E9%A2%98%E4%B9%8B%E4%B8%80%E3%80%82%E6%9C%AC%E6%96%87%E5%AF%B9%E4%B8%89%E7%A7%8D%E4%B8%BB%E8%A6%81%E6%8A%80%E6%9C%AF%E5%B1%95%E5%BC%80%E8%AE%A8%E8%AE%BA%EF%BC%8C%E9%80%BB%E8%BE%91%E5%9B%9E%E5%BD%92%EF%BC%88Logistic%20Regression%EF%BC%89%E3%80%81%E5%86%B3%E7%AD%96%E6%A0%91%EF%BC%88Decision%20Trees%EF%BC%89%E5%92%8C%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA%EF%BC%88Support%20Vector%20Machine%EF%BC%8CSVM%EF%BC%89%E3%80%82&pic=&ralateUid=&language=zh_cn&rnd=1449060972245" frameborder="0" scrolling="no" allowtransparency="true">摘要:分類問題是商業(yè)業(yè)務(wù)中遇到的主要問題之一。本文對三種主要技術(shù)展開討論,邏輯回歸(Logistic Regression)、決策樹(Decision Trees)和支持向量機(jī)(Support Vector Machine,SVM)。

分類問題是我們在各個行業(yè)的商業(yè)業(yè)務(wù)中遇到的主要問題之一。在本文中,我們將從眾多技術(shù)中挑選出三種主要技術(shù)展開討論,邏輯回歸(Logistic?Regression)、決策樹(Decision?Trees)和支持向量機(jī)(Support?Vector?Machine,SVM)。

上面列出的算法都是用來解決分類問題(SVM和DT也被用于回歸,但這不在我們的討論范圍之內(nèi))。我多次看到有人提問,對于他的問題應(yīng)該選擇哪一種方法。經(jīng)典的也是最正確的回答是“看情況而定!”,這樣的回答卻不能讓提問者滿意。確實讓人很費神。因此,我決定談一談究竟是看什么情況而定。

這個解釋是基于非常簡化的二維問題,但足以借此來理解讀者棘手的更高維度數(shù)據(jù)。

我將從最重要的問題開始討論:在分類問題中我們究竟要做什么?顯然,我們是要做分類。(這是個嚴(yán)肅的問題?真的嗎?)我再來復(fù)述一遍吧。為了做分類,我們試圖尋找決策邊界線或是一條曲線(不必是直線),在特征空間里區(qū)分兩個類別。

特征空間這個詞聽起來非常高大上,容易讓很多新人犯迷糊。我給你展示一個例子來解釋吧。我有一個樣本,它包含三個變量:x1,?x2和target。target有0和1兩種值,取決于預(yù)測變量x1和x2的值。我將數(shù)據(jù)繪制在坐標(biāo)軸上。

這就是特征空間,觀測值分布于其中。這里因為我們只有兩個預(yù)測變量/特征,所有特征空間是二維的。你會發(fā)現(xiàn)兩個類別的樣本用不同顏色的點做了標(biāo)記。我希望我們的算法能計算出一條直線/曲線來分離這個類別。

通過目測可知,理想的決策邊界(分割曲線)是一個圓。實際決策邊界形狀的差異則是由于邏輯回歸、決策樹和支持向量機(jī)算法的差異引起的。

先說邏輯回歸。很多人對邏輯回歸的決策邊界都有誤解。這種誤解是由于大多數(shù)時候提到邏輯回歸,人們就見到那條著名的S型曲線。

上圖所示的藍(lán)色曲線并不是決策邊界。它是邏輯回歸模型的二元響應(yīng)的一種變形。邏輯回歸的決策邊界總是一條直線(或者一個平面,在更高維度上是超平面)。讓你信服的最好方法,就是展示出大家都熟知的邏輯回歸方程式。

我們做一個簡單的假設(shè),F是所有預(yù)測變量的線性組合。

上面的等式也可以寫作:

當(dāng)你進(jìn)行預(yù)測的時候,對概率值做一個分?jǐn)?shù)截斷,高于截斷值的概率為1,否則為0。假設(shè)截斷值用c表示,那么決策過程就變成了這樣:

Y=1?if?p>c,?否則0。最后給出的決策邊界是F>常數(shù)。

F>常數(shù),無非就是一個線性決策邊界。我們樣本數(shù)據(jù)用邏輯回歸得到的結(jié)果將會是這樣。

你會發(fā)現(xiàn)效果并不好。因為無論你怎么做,邏輯回歸方法得到的決策邊界總是線性的,并不能得到這里需要的環(huán)狀邊界。因此,邏輯回歸適用于處理接近線性可分的分類問題。(雖然可以對變量做變換得到線性可分的結(jié)果,但我們在此不討論這類情況。)

接著我們來看決策樹如何處理這類問題。我們都知道決策樹是按照層次結(jié)構(gòu)的規(guī)則生成的。以我們的數(shù)據(jù)為例。

如果你仔細(xì)思考,這些決策規(guī)則x2?|</>|?const?OR?x1?|</>|?const?只是用平行于軸線的直線將特征空間切分,如下圖所示。

我們可以通過增加樹的大小使它生長得更復(fù)雜,用越來越多的分區(qū)來模擬環(huán)狀邊界。

哈哈!趨向于環(huán)狀了,很不錯。如果你繼續(xù)增加樹的尺寸,你會注意到?jīng)Q策邊界會不斷地用平行線圍成一個環(huán)狀區(qū)域。因此,如果邊界是非線性的,并且能通過不斷將特征空間切分為矩形來模擬,那么決策樹是比邏輯回歸更好的選擇

然后我們再來看看SVM的結(jié)果。SVM通過把你的特征空間映射到核空間,使得各個類別線性可分。這個過程更簡單的解釋就是SVM給特征空間又額外增加了一個維度,使得類別線性可分。這個決策邊界映射回原特征空間后得到的是非線性決策邊界。下圖比我的解釋更清楚。

你可以看到,一旦樣本數(shù)據(jù)以某種方式增加了一個維度,我們就能用一個平面來分割數(shù)據(jù)(線性分類器),這個平面映射回原來的二維特征空間,就能得到一個環(huán)狀的決策邊界。

SVM在我們數(shù)據(jù)集上的效果多棒啊:

注:決策邊界并不是這么標(biāo)準(zhǔn)的圓形,但是非常接近了(可能是多邊形)。我們?yōu)榱瞬僮骱啽?#xff0c;就用圓環(huán)代替了。

現(xiàn)在清楚各種區(qū)別了吧,但是還有一個問題。也就是說,在處理多維數(shù)據(jù)時,什么時候該選擇何種算法?這個問題很重要,因為若是數(shù)據(jù)維度大于三,你就找不到簡單的方法來可視化地呈現(xiàn)數(shù)據(jù)。我們將在第二部分討論這么問題,敬請關(guān)注。

總結(jié)

以上是生活随笔為你收集整理的逻辑回归、决策树和支持向量机(I)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。