降维后输入分类器分类时报错_逻辑回归解决多分类方法及其优缺点分析
眾所周知,邏輯回歸常用于解決二分類任務(wù),但是在工作/學(xué)習(xí)/項目中,我們也經(jīng)常要解決多分類問題。本文總結(jié)了 3 種邏輯回歸解決多分類的方法,并分析了他們的優(yōu)缺點。
一、One-Vs-Rest
假設(shè)我們要解決一個分類問題,該分類問題有三個類別,分別用▲,■ 和 × 表示,每個實例(Entity)有兩個屬性(Attribute),如果把屬性 1 作為 X 軸,屬性 2 作為 Y 軸,訓(xùn)練集(Training Dataset)的分布可以表示為下圖:
One-Vs-Rest 的思想是把一個多分類的問題變成多個二分類的問題。轉(zhuǎn)變的思路是選擇其中一個類別為正類(Positive),使其他所有類別為負(fù)類(Negative)。
比如第一步,我們將 ▲ 所代表的實例全部視為正類,其他實例全部視為負(fù)類,得到的分類器:
同理第二步,我們把 x 視為正類,其他視為負(fù)類,可以得到第二個分類器:
最后第三步,第三個分類器是把 ■ 視為正類,其余視為負(fù)類:
對于一個三分類問題,我們最終得到 3 個二元分類器。在預(yù)測階段,每個分類器可以根據(jù)測試樣本,得到當(dāng)前正類的概率,即 P(y = i | x; θ),i = 1, 2, 3。選擇計算概率結(jié)果最高的分類器,其正類就可以作為預(yù)測結(jié)果。
【優(yōu)點】普適性比較廣,可以應(yīng)用于能輸出值或者概率的分類器,同時效率相對較好,有多少個類別就訓(xùn)練多少個分類器。
【缺點】很容易造成訓(xùn)練集樣本數(shù)量的不平衡(Unbalance),尤其在類別較多的情況下,經(jīng)常容易出現(xiàn)正類樣本的數(shù)量遠(yuǎn)遠(yuǎn)不及負(fù)類樣本的數(shù)量,這樣就會造成分類器的偏向性。
二、One-VS-One
相比于 One-Vs-Rest 由于樣本數(shù)量可能的偏向性帶來的不穩(wěn)定性,One-Vs-One 是一種相對穩(wěn)健的擴(kuò)展方法。對于同樣的三分類問題,我們讓不同類別的數(shù)據(jù)兩兩組合訓(xùn)練分類器,可以得到 3 個二元分類器。
它們分別是 ▲ 與 x 訓(xùn)練得出的分類器:
▲ 與 ■ 訓(xùn)練的出的分類器:
以及 ■ 與 x 訓(xùn)練得出的分類器:
假如我們要預(yù)測的一個數(shù)據(jù)在圖中紅色圓圈的位置,那么第一個分類器會認(rèn)為它是 x,第二個分類器會認(rèn)為它偏向▲,第三個分類器會認(rèn)為它是 x,經(jīng)過三個分類器的投票之后,可以預(yù)測紅色圓圈所代表的數(shù)據(jù)的類別為 x。
【優(yōu)點】在一定程度上規(guī)避了數(shù)據(jù)集 unbalance 的情況,性能相對穩(wěn)定,并且需要訓(xùn)練的模型數(shù)雖然增多,但是每次訓(xùn)練時訓(xùn)練集的數(shù)量都降低很多,其訓(xùn)練效率會提高。
【缺點】訓(xùn)練出更多的 Classifier,會影響預(yù)測時間。如果有 k 個不同的類別,對于 One-Vs-All 來說,一共只需要訓(xùn)練 k 個分類器,而 One-Vs-One 則需訓(xùn)練 C(k, 2) 個分類器,只是因為在本例種,k = 3 時恰好兩個值相等,一旦 k 值增多,One-Vs-One 需要訓(xùn)練的分類器數(shù)量會大大增多。
三、Softmax 函數(shù)
該模型將邏輯回歸推廣到分類問題,其中類標(biāo)簽 y 可以采用兩個以上的可能值。這對于諸如MNIST數(shù)字分類之類的問題將是有用的,其中目標(biāo)是區(qū)分10個不同的數(shù)字。
在softmax回歸中,我們對多類分類感興趣(而不是僅對二元分類),所以y可以取k個不同的取值。因此,在我們的訓(xùn)練集
,其中 。給定測試輸入 x ,我們希望模型估計每個類別的概率。因此,模型將輸出k維向量(其元素總和為1),給出 k 個類別的估計概率。具體地說,我們的假設(shè)
采用以下形式:其中,
是模型的參數(shù),而 是歸一化項。為方便起見,用向量法來表示模型的所有參數(shù)。當(dāng)實現(xiàn) softmax 回歸時,將θ表示為通過堆疊
成行獲得的 的矩陣通常很方便,這樣損失函數(shù):
求導(dǎo)后,可得
更新參數(shù):
【注】 One-vs-Rest V.S. Softmax
假設(shè)正在處理音樂分類應(yīng)用程序,并且正在嘗試識別 k 種類型的音樂。您應(yīng)該使用softmax分類器,還是使用邏輯回歸構(gòu)建k個單獨的二元分類器呢?這取決于這四個類是否相互排斥。如果類別之間是互斥的,softmax 會比較合適,如果類別之間不是互斥的,用 OvR 比較合適。
例如,如果四個類是經(jīng)典,鄉(xiāng)村,搖滾和爵士樂,每個訓(xùn)練樣例都標(biāo)有這四個類別標(biāo)簽中的一個,那么您應(yīng)該構(gòu)建一個 k = 4 的 softmax 分類器,因為這些標(biāo)簽都是互斥的。但是,如果類別是舞蹈,配樂,流行音樂,那這些并不相互排斥,因為可以有一段來自音軌的流行音樂,另外還有人聲。在這種情況下,構(gòu)建 4 個二元邏輯回歸分類器更合適。這樣,對于每個新的音樂作品,算法可以單獨決定它是否屬于四個類別中的每一個。
總結(jié),如果類別之間是互斥的,那么用 softmax 會比較合適,如果類別之間不是互斥的,用 OvR 比較合適。
參考:
[1]
力扣(LeetCode):3 種方法實現(xiàn)邏輯回歸多分類?zhuanlan.zhihu.com[2]
飛魚Talk:邏輯回歸 - 4 邏輯回歸與多分類?zhuanlan.zhihu.com總結(jié)
以上是生活随笔為你收集整理的降维后输入分类器分类时报错_逻辑回归解决多分类方法及其优缺点分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 王传君 现状(王传君被封杀)
- 下一篇: 关于mmdetection上手的几点说明