应用监督式学习
監督學習
定義:監督式學習算法接受已知的輸入數據集合(訓練集)和已知的對數據的響應(輸出),然后訓練一個模型,為新輸入數據的響應生成合理的預測。監督學習技術可分成分類或者回歸的形式。
分類:技術預測離散的響應。例如,電子郵件是真正郵件還是垃圾郵件,腫瘤是小塊、中等還是大塊。分類模型經過訓練后,將數據劃分成類別。應用軟件包括醫學成像、語音識別和信用評分。分類問題分為:
- 二元分類問題,單個訓練或測試項目(實例)只能分成兩類。例如,如果您想確定電子郵件是真正郵件,還是垃圾郵件。
多類分類問題,可以分成多個類。例如,如果您想訓練一個模型,將圖像分類為狗、貓或其它動物。
多類分類問題一般更具挑戰性,因為需要比較復雜的模型。
回歸:預測連續的響應。例如,電力需求中溫度或波動的變化。應用軟件包括預測股價、筆跡識別和聲信號處理。
分類算法
邏輯回歸
工作原理:適合可以預測屬于一個類或另一個類的二元響應概率的模型。因為邏輯回歸比較簡單,所以常用作二分類問題的起點。
適用場景:
- 當數據能由一個線性邊界清晰劃分時
- 作為評估更復雜分類方法的基準
示意圖:
k最近鄰(kNN)
工作原理:kNN 根據數據集內類的最近鄰關系劃分對象的類別。kNN預測假定相互靠近的對象是相似的。距離量度(如歐氏距離、絕對值距離、夾角余弦和 Chebychev 距離)用來查找最近鄰。
適用場景:當您需要簡單算法來設立基準學習規則時
- 當無需太關注 訓練模型的內存使用時
- 當無需太關注 訓練模型的預測速度時
支持向量機 (SVM)
工作原理:通過搜索能將全部數據點分割開的判別邊界(超平面)對數據進行分類。當數據為線性可分離時,SVM 的最佳超平面是在兩個類之間具有最大邊距的超平面。如果數據不是線性可分離,則使用損失函數對處于超平面錯誤一邊的點進行懲罰。SVM 有時使用核變換,將非線性可分離的數據變換為可找到線性判定邊界的更高維度。
適用場景:
- 適用于正好有兩個類的數據(借助所謂的糾錯輸出碼技術,也可以將其用于多類分類)
- 適用于高維、非線性可分離的數據
- 當您需要一個簡單、易于解釋、準確的分類器時
神經網絡
工作原理:受人腦的啟發,神經網絡由高度互連的神經元網絡組成,這些神經元將輸入與所需輸出相關聯。通過反復修改聯系的強度,對網絡進行訓練,使給定的輸入映射到正確的響應。
適用場景:
- 適用于高度非線性系統建模
- 當數據逐漸增多,而您希望不斷更新模型時
- 當您的輸入數據可能有意外變動時
- 當模型可解釋性不是主要考慮因素時
樸素貝葉斯
工作原理:樸素貝葉斯分類器假設類中某一具體特征的存在與任何其他特征的存在不相關。根據數據屬于某個特定類的最高概率對新數據進行分類。
適用場景:
- 適用于包含許多參數的小數據集
- 當您需要易于解釋的分類器時
- 當模型會遇到不在訓練數據中的情形時,許多金融和醫學應用就屬于這種情況
示意圖
判別分析
工作原理:判別分析通過發現特征的線性組合來對數據分類。判別分析假定不同的類根據高斯分布生成數據。訓練判別分析模型涉及查找每個類的高斯分布的參數。分布參數用來計算邊界,邊界可能為線性函數或二次函數。這些邊界用來確定新數據的類。
適用場景:
- 當需要易于解釋的簡單模型時
- 當訓練過程中的內存使用是需要關注的問題時
- 當您需要快速預測的模型時
決策樹
工作原理:利用決策樹預測對數據響應的方法是,按照樹中根節點(起始)到葉節點的順序自上而下地決策。樹由分支條件組成,在這些條件中,預測元的值與訓練的權重進行比較。分支的數量和權重的值在訓練過程中確定。附加修改或剪枝可用來簡化模型。
適用場景:
- 當需要易于解釋和快速擬合的算法時
- 最小化內存使用
- 當不要求很高的預測準確性時
Bagged和Boosted決策樹
工作原理:在這些集成方法中,幾個“較弱”的決策樹組合成一個“較強”的整體。
- 袋裝決策樹由根據從輸入數據中自舉的數據進行獨立訓練的樹組成。
- 促進決策樹涉及創建一個強學習器,具體方法是,迭代地添加“弱”
學習器并調節每個弱學習器的權重,從而將重點放在錯誤分類的
樣本
適用場景:
- 當預測元為無序類別(離散)或表現非線性時
- 當無需太關注訓練一個模型所用時間時
回歸算法
線性回歸
工作原理:線性回歸是一項統計建模技術,用來描述作為一個或多個預測元變量的線性函數的連續應變量。因為線性回歸模型解釋簡單,易于訓練,所以通常是第一個要與新數據集擬合的模型。
適用場景:
- 當需要易于解釋和快速擬合的算法時
- 作為評估其他更復雜回歸模型的基準
非線性回歸
- 工作原理:非線性回歸是一種有助于描述實驗數據中非線性關系的統計建模技術。通常將非線性回歸模型假設為參數模型,將該模型稱為非線性方程。“非線性”是指一個擬合函數,它是多個參數的非線性函數。例如,如果擬合參數為b0、b1和b2:方程式y = b0+b1x+b2x2是擬合參數的線性函數,而 y = (b0xb1)/(x+b2) 是擬合參數的非線性函數。
- 適用場景:
- 當數據有很強的非線性趨勢,不容易轉化成線性空間時
- 適用于自定義模型與數據擬合
高斯過程回歸模型
- 工作原理:高斯過程回歸 (GPR) 模型是非參數模型,用于預測連續應變量的值。這些模型廣泛用于對存在不確定情況下的插值進行空間分析的領域。 GPR 也稱為克里格法 (Kriging)。
- 適用場景:
- 適用于對空間數據插值,如針對地下水分布水文地質學數據
- 作為有助于優化汽車發動機等復雜設計的替代模型
SVM 回歸
- 工作原理:SVM 回歸算法類似于 SVM 分類算法,但經過改良,能夠預測連續響應。不同于查找一個分離數據的超平面, SVM 回歸算法查找一個偏離測量數據的模型,偏離的值不大于一個小數額,采用盡可能小的參數值(使對誤差的敏感度最小)。
- 適用場景:適用于高維數據(將會有大量的預測元變量)
廣義線性回歸
- 工作原理:廣義線性模型是使用線性方法的非線性模型的一種特殊情況。它涉及輸入的線性組合與輸出的非線性函數(連接函數)擬合。
- 適用場景:當應變量有非正態分布時,比如始終預期為正值的應變量
回歸樹
- 工作原理:回歸的決策樹類似于分類的決策樹,但經過改良,能夠預測連續響應。
- 適用場景:當預測元為無序類別(離散)或表現非線性時
總結
- 上一篇: 2023-01-24 | 苹果 iOS
- 下一篇: Liveness 探测 - 每天5分钟玩