监督分类空白处也被分类了_监督学习(2)|本质是分类的“逻辑回归”
機器學習,繞不開預測問題,預測繞不開回歸和分類。本篇介紹最常用的二分類算法:邏輯回歸(Logistics Regression),當然隨著算法的發展,它也可用于多分類問題。每一個算法都是許許多多數學家的努力鑄就,理論篇希望自己可以盡量將算法發展過程敘述的平滑一些,可以即保留理論基礎,又讓讀者感覺舒服。下面,就讓我們一起來領教一下這處理問題的偉大邏輯。
2. 回歸到分類的過渡
邏輯回歸,顧名思義,分為兩部分:邏輯和回歸。
首先讓我們回憶一下上一篇線性回歸的內容。
我們希望透過樣本得到數據背后的本質映射關系
。為了簡潔,我們假設這種關系是線性的 。然后催生了線性回歸算法的配套理論。但是,考慮這樣一個問題,當因變量不是連續變量,而是分類變量,比如大或者小,黑或者白時,線性回歸模型又應該如何應用?數學的魅力在于將現象數字化,或者稱為模型化。所以處理這個問題的第一步,我們需要用數學來表示大或者小,黑或者白。
考慮類別之間相對的關系,我們可以用概率來表示這個問題,例如大的概率大于小的概率,我們將預測為大。那么我們知道線性回歸的因變量的數值位于
之間。如果我們再定義一個映射關系,將 之間的數值映射成概率值,即 之間,就可以解決線性回歸到分類問題的過渡。3. 什么是邏輯
下面我們介紹幾個可以完成上述映射的函數,
sigmod公式(1)稱為邏輯函數(或者稱為Sigmoid、S型函數),其將
之間的數值映射到 之間,也是邏輯回歸中使用的映射形式,即線性回歸接邏輯函數映射得邏輯回歸模型;arctantanh公式(2)和公式(3)分別是反正切函數和雙曲正切函數,它們分別將
之間的數值映射到 和 之間,只需做簡單的平移和伸縮變換,即可映射至 之間。實際應用中,在求解問題時,需要應用映射函數的梯度信息,邏輯函數梯度較為容易計算,公式(4)給出它們的梯度公式 。
在邏輯回歸的實際應用中,通常情況下,我們應用邏輯函數的映射形式,但是具體哪種函數的形式更好,需要進一步考證。
4. 理想的最優模型
4.1 概率預測
我們成功的將線性回歸過渡到邏輯回歸的分類形式,總結一下現階段的成果,我們構造了從自變量映射到因變量概率的函數關系,具體形式如公式(5)。
為了清晰描述二分類問題,我們不妨將兩個類別分別標記為1和0,一般情況下,當
時,預測結果為1;當 時,預測結果為0,如式(6) 所示,即 為預測為類別1的概率, 為預測為類別0的概率。4.2 損失函數
此時,亟待解決就是求解邏輯回歸模型中參數
,使其最貼近樣本數據,還記得線性回歸我們應用最小二乘法,定義的損失函數是預測值與真實值之間的誤差平方和,同樣的,我們仍沿用這個原理,可以得到誤差函數 如公式(7)所示:遺憾的是,公式(7)形式的損失函數并不是凸函數,優化過程中存在困難。
所以數學家們考慮定義了一種新的損失函數來處理分類問題,損失函數需要滿足的條件是可以衡量模型與真實數據之間的擬合程度,或者稱之為距離。
為了清晰描述二分類問題,我們將兩個類別分別標記為1和0,對于已經標記為1的數據,我們希望模型給出1的概率越大越好,反之,對于已經標記為0的數據,我們希望模型給出1的概率越小越好,那么基于這個原理,給出交叉熵損失函數,如公式(8):
觀察公式(8)中交叉熵損失函數,當
時,求和號第一項生效,該值越大模型效果越好;當 時,求和號第二項生效,同樣該值越大模型效果越好。在前面加上一個負號,我們通過求解交叉熵損失函數的最小值即可求得最優的參數 。關于交叉熵損失函數,其由來可由兩個方面說明:
一是信息論角度,熵用來衡量信息量的多少,有興趣同學可以查看一下信息熵,相對熵,交叉熵的概念。解釋大致含義與我上面的解釋類似;
另一個方面是從似然函數的角度解釋,對于上面定義的二分類問題,
取值為0和1,對于每一次取樣,在參數 已知的情況下,其樣本服從伯努利分布(二點分布、零一分布):那么對于n個獨立樣本,其對數似然函數:
將對數似然函數取平均,加負號,與交叉熵損失函數形式一致,求似然函數最大化與求交叉熵損失函數最小化是等價的。求解過程一般使用梯度下降方法,當然基于梯度下降方法有許多進化算法,AdaGrad,RMSProp,Adam等。這里不詳細介紹,后續再提煉一篇基于梯度下降的算法總結。
5. 多分類的擴展應用
對于邏輯回歸,到這里我們已經將基本的框架搭好了。值得說明的一點是,線性回歸中容易過擬合的問題,在邏輯回歸中仍然存在,所以,有必要在損失函數上添加正則項,正則項的添加已經在線性回歸中介紹,這里不再重復。
最后將二分類的邏輯回歸擴展到多分類(N個類別),主要有兩種方法:一種方法是One VS One,每個類別兩兩配對訓練,共訓練
個模型,最后結果由投票的方式給出;另一種方法One VS Rest,將每一類別與其他所有類別配成一對訓練,共訓練 個模型,最后結果由概率最大的類別勝出。6.結束語
邏輯回歸是線性回歸分析的擴展,其通過邏輯函數將回歸值映射為概率值,實現了對分類問題的處理。下一篇作者將介紹邏輯回歸的好伙伴支持向量機,并詳細介紹它們之間的區別與聯系,有興趣的可以繼續關注噢。
上一篇:
監督學習(1)|一文搞懂線性回歸,lasso回歸,嶺回歸?zhuanlan.zhihu.com下一篇:
監督學習(3)|支持向量機?zhuanlan.zhihu.com總結
以上是生活随笔為你收集整理的监督分类空白处也被分类了_监督学习(2)|本质是分类的“逻辑回归”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: redis版本_全球首发|阿里云正式推出
- 下一篇: rnn按时间展开_双向RNN的理解