當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

吐血整理：关于机器学习不可不知的15个概念

發(fā)布時(shí)間：2025/3/15 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了吐血整理：关于机器学习不可不知的15个概念小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

導(dǎo)讀：本文介紹不同類型的機(jī)器學(xué)習(xí)方法，以及模型評(píng)估的相關(guān)概念。

作者：布奇·昆托（Butch Quinto）

來源：大數(shù)據(jù)DT（ID：hzdashuju）

01 有監(jiān)督學(xué)習(xí)

有監(jiān)督學(xué)習(xí)是利用訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)測(cè)的機(jī)器學(xué)習(xí)任務(wù)。有監(jiān)督學(xué)習(xí)可以分為分類和回歸。回歸用于預(yù)測(cè)“價(jià)格”“溫度”或“距離”等連續(xù)值，而分類用于預(yù)測(cè)“是”或“否”、“垃圾郵件”或“非垃圾郵件”、“惡性”或“良性”等類別。

分類包含三種類型的分類任務(wù)：二元分類、多類別分類和多標(biāo)簽分類。回歸中包含線性回歸和生存回歸。

02 無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)是一種機(jī)器學(xué)習(xí)任務(wù)，它在不需要標(biāo)記響應(yīng)的情況下發(fā)現(xiàn)數(shù)據(jù)集中隱藏的模式和結(jié)構(gòu)。當(dāng)你只能訪問輸入數(shù)據(jù)，而訓(xùn)練數(shù)據(jù)不可用或難以獲取時(shí)，無監(jiān)督學(xué)習(xí)是理想的選擇。常用的方法包括聚類、主題建模、異常檢測(cè)、推薦和主成分分析。

03 半監(jiān)督學(xué)習(xí)

在某些情況下，獲取標(biāo)記數(shù)據(jù)是昂貴且耗時(shí)的。在響應(yīng)標(biāo)記很少的情況下，半監(jiān)督學(xué)習(xí)結(jié)合有監(jiān)督和無監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行預(yù)測(cè)。在半監(jiān)督學(xué)習(xí)中，利用未標(biāo)記數(shù)據(jù)對(duì)標(biāo)記數(shù)據(jù)進(jìn)行擴(kuò)充以提高模型準(zhǔn)確率。

04 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)試圖通過不斷從嘗試的過程和錯(cuò)誤的結(jié)果來進(jìn)行學(xué)習(xí)，確定哪種行為能帶來最大的回報(bào)。強(qiáng)化學(xué)習(xí)有三個(gè)組成部分：智能體（決策者或?qū)W習(xí)者）、環(huán)境（智能體與之交互的內(nèi)容）和行為（智能體可以執(zhí)行的內(nèi)容）。這類學(xué)習(xí)通常用于游戲、導(dǎo)航和機(jī)器人技術(shù)。

05 深度學(xué)習(xí)

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)和人工智能的一個(gè)分支，它使用深度的、多層的人工神經(jīng)網(wǎng)絡(luò)。最近人工智能領(lǐng)域的許多突破都?xì)w功于深度學(xué)習(xí)。

06 神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是一類類似于人腦中相互連接的神經(jīng)元的算法。一個(gè)神經(jīng)網(wǎng)絡(luò)包含多層結(jié)構(gòu)，每一層由相互連接的節(jié)點(diǎn)組成。通常有一個(gè)輸入層、一個(gè)或多個(gè)隱藏層和一個(gè)輸出層。

07 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（convnet或CNN）是一種特別擅長(zhǎng)分析圖的神經(jīng)網(wǎng)絡(luò)（盡管它們也可以應(yīng)用于音頻和文本數(shù)據(jù)）。卷積神經(jīng)網(wǎng)絡(luò)各層中的神經(jīng)元按高度、寬度和深度三個(gè)維度排列。我將在第7章更詳細(xì)地介紹深度學(xué)習(xí)和深度卷積神經(jīng)網(wǎng)絡(luò)。

08 模型評(píng)估

在分類中，每個(gè)數(shù)據(jù)點(diǎn)都有一個(gè)已知的標(biāo)簽和一個(gè)模型生成的預(yù)測(cè)類別。通過比較已知的標(biāo)簽和預(yù)測(cè)類別為每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行劃分，結(jié)果可以分為四個(gè)類別：

真陽(yáng)性（TP），預(yù)測(cè)類別和標(biāo)簽均為陽(yáng)性；
真陰性（TN），預(yù)測(cè)類別和標(biāo)簽均為陰性；
假陽(yáng)性（FP），預(yù)測(cè)類別為陽(yáng)性但標(biāo)簽為陰性；
假陰性（FN），預(yù)測(cè)類別為陰性但標(biāo)簽為陽(yáng)性。

這四個(gè)值構(gòu)成了大多數(shù)分類任務(wù)評(píng)估指標(biāo)的基礎(chǔ)。它們通常在一個(gè)叫作混淆矩陣的表格中呈現(xiàn)（如表1-1）。

▼表1-1 混淆矩陣

09 準(zhǔn)確率

準(zhǔn)確率是分類模型的一個(gè)評(píng)估指標(biāo)。它定義為正確預(yù)測(cè)數(shù)除以預(yù)測(cè)總數(shù)。

在數(shù)據(jù)集不平衡的情況下，準(zhǔn)確率不是理想的指標(biāo)。舉例說明，假設(shè)一個(gè)分類任務(wù)有90個(gè)陰性和10個(gè)陽(yáng)性樣本；將所有樣本分類為陰性會(huì)得到0.90的準(zhǔn)確率分?jǐn)?shù)。精度和召回率是評(píng)估用例不平衡數(shù)據(jù)的訓(xùn)練模型的較好指標(biāo)。

10 精度

精度定義為真陽(yáng)性數(shù)除以真陽(yáng)性數(shù)加上假陽(yáng)性數(shù)的和。精度表明當(dāng)模型的預(yù)測(cè)為陽(yáng)性時(shí)，模型正確的概率。例如，如果你的模型預(yù)測(cè)了100個(gè)癌癥的發(fā)生，但是其中10個(gè)是錯(cuò)誤的預(yù)測(cè)，那么你的模型的精度是90%。在假陽(yáng)性較高的情況下，精度是一個(gè)很好的指標(biāo)。

11 召回率

召回率是一個(gè)很好的指標(biāo)，可用于假陰性較高的情況。召回率的定義是真陽(yáng)性數(shù)除以真陽(yáng)性數(shù)加上假陰性數(shù)的和。

12 F1度量

F1度量或F1分?jǐn)?shù)是精度和召回率的調(diào)和平均值或加權(quán)平均值。它是評(píng)估多類別分類器的常用性能指標(biāo)。在類別分布不均的情況下，這也是一個(gè)很好的度量。最好的F1分?jǐn)?shù)是1，而最差的分?jǐn)?shù)是0。一個(gè)好的F1度量意味著你有較低的假陰性和較低的假陽(yáng)性。F1度量定義如下：

13 AUROC

接收者操作特征曲線下面積（AUROC）是評(píng)估二元分類器性能的常用指標(biāo)。接收者操作特征曲線（ROC）是依據(jù)真陽(yáng)性率與假陽(yáng)性率繪制的圖。曲線下面積（AUC）是ROC曲線下的面積。

在對(duì)隨機(jī)陽(yáng)性樣本和隨機(jī)陰性樣本進(jìn)行預(yù)測(cè)時(shí)，將陽(yáng)性樣本預(yù)測(cè)為陽(yáng)性的概率假設(shè)為P0，將陰性樣本預(yù)測(cè)為陽(yáng)性的概率假設(shè)為P1，AUC就是P0大于P1的概率。曲線下的面積越大（AUROC越接近1.0），模型的性能越好。AUROC為0.5的模型是無用的，因?yàn)樗念A(yù)測(cè)準(zhǔn)確率和隨機(jī)猜測(cè)的準(zhǔn)確率一樣。

14 過擬合與欠擬合

模型性能差是由過擬合或欠擬合引起的。

過擬合是指一個(gè)模型太適合訓(xùn)練數(shù)據(jù)。過擬合的模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好，但在新的、看不見的數(shù)據(jù)上表現(xiàn)較差。

過擬合的反面是欠擬合。由于擬合不足，模型過于簡(jiǎn)單，沒有學(xué)習(xí)訓(xùn)練數(shù)據(jù)集中的相關(guān)模式，這可能是因?yàn)槟Ｐ捅贿^度規(guī)范化或需要更長(zhǎng)時(shí)間的訓(xùn)練。

模型能夠很好地適應(yīng)新的、看不見的數(shù)據(jù)，這種能力被稱為泛化。這是每個(gè)模型優(yōu)化練習(xí)的目標(biāo)。

防止過擬合的幾種方法包括使用更多的數(shù)據(jù)或特征子集、交叉驗(yàn)證、刪除、修剪、提前停止和正則化。對(duì)于深度學(xué)習(xí)，數(shù)據(jù)增強(qiáng)是一種常見的正則化形式。

為了減少欠擬合，建議選擇添加更多相關(guān)的特征。對(duì)于深度學(xué)習(xí)，考慮在一個(gè)層中添加更多的節(jié)點(diǎn)或在神經(jīng)網(wǎng)絡(luò)中添加更多的層，以增加模型的容量。

15 模型選擇

模型選擇包括評(píng)估擬合的機(jī)器學(xué)習(xí)模型，并嘗試用用戶指定的超參數(shù)組合來擬合底層估計(jì)器，再輸出最佳模型。通過使用Spark MLlib，模型選擇由CrossValidator和TrainValidationSplit估計(jì)器執(zhí)行。

CrossValidator對(duì)超參數(shù)調(diào)整和模型選擇執(zhí)行k-fold交叉驗(yàn)證和網(wǎng)格搜索。它將數(shù)據(jù)集分割成一組隨機(jī)的、不重疊的分區(qū)，作為訓(xùn)練和測(cè)試數(shù)據(jù)集。例如，如果k=3，k-fold交叉驗(yàn)證將生成3對(duì)訓(xùn)練和測(cè)試數(shù)據(jù)集（每一對(duì)僅用作一次測(cè)試數(shù)據(jù)集），其中每一對(duì)使用2/3作為訓(xùn)練數(shù)據(jù)，1/3用于測(cè)試。

TrainValidationSplit是用于超參數(shù)組合的另一種估計(jì)器。與k-fold交叉驗(yàn)證（這是一個(gè)昂貴的操作）相反，TrainValidationSplit只對(duì)每個(gè)參數(shù)組合求值一次，而不是k次。

關(guān)于作者：布奇·昆托（Butch Quinto），在銀行與金融、電信、政府部門、公共事業(yè)、交通運(yùn)輸、電子商務(wù)、零售業(yè)、制造業(yè)和生物信息學(xué)等多個(gè)行業(yè)擁有20多年的技術(shù)和領(lǐng)導(dǎo)經(jīng)驗(yàn)。他是Next-Generation Big Data（Apress，2018）的作者，也是人工智能促進(jìn)協(xié)會(huì)（AAAI）和美國(guó)科學(xué)促進(jìn)會(huì)（AAAS）的成員。

本文摘編自《基于Spark的下一代機(jī)器學(xué)習(xí)》，經(jīng)出版方授權(quán)發(fā)布。

延伸閱讀《基于Spark的下一代機(jī)器學(xué)習(xí)》

點(diǎn)擊上圖了解及購(gòu)買

轉(zhuǎn)載請(qǐng)聯(lián)系微信：DoctorData

推薦語(yǔ)：本書先簡(jiǎn)單介紹了Spark和Spark MLlib，然后介紹標(biāo)準(zhǔn)Spark MLlib庫(kù)之外的更強(qiáng)大的第三方機(jī)器學(xué)習(xí)算法和庫(kù)。通過閱讀本書，你將能夠通過幾十個(gè)實(shí)際的例子和深刻的解釋，將所學(xué)到的知識(shí)應(yīng)用到真實(shí)世界的用例。

劃重點(diǎn)????

干貨直達(dá)????

最新！全球?qū)W術(shù)排名出爐：22所中國(guó)大學(xué)位居世界100強(qiáng)
制作PPT的7條黃金法則
手把手教你用ECharts畫散點(diǎn)圖和氣泡圖
任正非：芯片砸錢不行，得砸數(shù)學(xué)家！這些經(jīng)典教材你最需要！

更多精彩????

在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容！

PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作

AI?|?人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP

5G?|?中臺(tái)?|?用戶畫像?|?1024?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生

據(jù)統(tǒng)計(jì)，99%的大咖都關(guān)注了這個(gè)公眾號(hào)

????

總結(jié)

以上是生活随笔為你收集整理的吐血整理：关于机器学习不可不知的15个概念的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：刚刚！第七次人口普查出炉！男性比女性多3
下一篇：数学不好，能学好机器学习吗？