机器学习与深度学习基础概念
主要術(shù)語(基本)
主要包括標(biāo)簽、特征、樣本、訓(xùn)練、模型、回歸模型、分類模型、泛化、過擬合、預(yù)測、平穩(wěn)性、訓(xùn)練集、驗(yàn)證集、測試集。
標(biāo)簽(label)
標(biāo)簽是我們要預(yù)測的事物,在分類任務(wù)中的類別,比如是貓或狗;簡單線性回歸中的y變量;。標(biāo)簽可以是小麥未來的價(jià)格、圖片中顯示的動(dòng)物品種、音頻剪輯的含義或任何實(shí)物。
在監(jiān)督學(xué)習(xí)中,標(biāo)簽值是樣本的“答案”或“結(jié)果”部分。
特征(feture)
在進(jìn)行預(yù)測時(shí)使用的輸入變量。
特征是輸入變量,即簡單線性回歸中的x變量;在分類任務(wù)中的輸入圖像特征。
簡單的機(jī)器學(xué)習(xí)項(xiàng)目可能會(huì)使用單個(gè)特征,而比較復(fù)雜的機(jī)器學(xué)習(xí)項(xiàng)目可能會(huì)使用數(shù)百萬個(gè)特征,按如下方式制定:?
在垃圾郵箱檢測器示例中,特征可能包括:
- 電子郵件文件中的字詞
- 發(fā)件人的地址
- 發(fā)送電子郵件的時(shí)段
- 電子郵箱包含“一些敏感詞”
樣本(example)
數(shù)據(jù)集的一行。在監(jiān)督學(xué)習(xí)的樣本中,一個(gè)樣本既有特征,也有標(biāo)簽。在無監(jiān)督學(xué)習(xí)的樣本中,一個(gè)樣本只有特征。
樣本是指數(shù)據(jù)的特定示例:x。(x表示一個(gè)矢量)將樣本分為以下兩類:
- 有標(biāo)簽樣本
- 無標(biāo)簽樣本
有標(biāo)簽樣本同時(shí)包含特征的標(biāo)簽,即:
labeled examples: {features, label}: (x, y)我們使用有標(biāo)簽樣本訓(xùn)練模型;在垃圾郵件檢測器示例中,有標(biāo)簽樣本是用戶明確標(biāo)記為“垃圾郵件”或“非垃圾郵件”的各個(gè)電子郵件。
例如,下表顯示了從包含加利福尼亞房價(jià)信息的數(shù)據(jù)集中抽取的5個(gè)有標(biāo)簽樣本:
| 15 | 5612 | 1283 | 66900 |
| 19 | 7650 | 1901 | 80100 |
| 17 | 720 | 174 | 85700 |
| 14 | 1501 | 337 | 73400 |
| 20 | 1454 | 326 | 65500 |
無標(biāo)簽樣本包含特征,但不包含標(biāo)簽,即:
unlabeled examples: {features, ?}: (x, ?)以下是取自同一住房數(shù)據(jù)集的3個(gè)無標(biāo)簽樣本,其中不包含medianHoustonValue:
| 42 | 1686 | 361 |
| 34 | 1226 | 180 |
| 33 | 1077 | 271 |
在使用有標(biāo)簽樣本訓(xùn)練模型之后,我們會(huì)使用該模型預(yù)測無標(biāo)簽樣本的標(biāo)簽。在垃圾郵件檢測器示例中,無標(biāo)簽樣本是用戶尚未添加標(biāo)簽的新電子郵件。
模型(model)
模型定義了特征與標(biāo)簽之間的關(guān)系。比如,垃圾郵件檢測模型可能會(huì)將某些特征與“垃圾郵件”緊密聯(lián)系起來。模型生命周期的兩個(gè)階段:
- 訓(xùn)練是指創(chuàng)建或?qū)W習(xí)模型。即:向模型展示有標(biāo)簽樣本,讓模型逐漸學(xué)習(xí)特征與標(biāo)簽之間的關(guān)系。
- 推斷是指將訓(xùn)練后的模型應(yīng)用于無標(biāo)簽樣本。即:使用經(jīng)過訓(xùn)練的模型做出有用的預(yù)測?.在推斷期間,可以針對新的無標(biāo)簽樣本預(yù)測medianHouseValue。
回歸模型(regression model)
一種模型,能夠輸出連續(xù)值(通常為浮點(diǎn)值)。
回歸模型可預(yù)測連續(xù)值。例如,回歸模型做出的預(yù)測可回答如下問題:
- xxx地方的一棟房產(chǎn)的價(jià)值是多少?
- 用戶點(diǎn)擊此廣告的概率是多少?
分類模型(classification model)
用于區(qū)分兩種或多種離散類別。
分類模型可預(yù)測離散值。例如,分類模型做出的預(yù)測可回答如下問題:
- 某個(gè)指定電子郵件是垃圾郵件還是非垃圾郵件?
- 這是一張狗或是貓的圖像?
訓(xùn)練(training)
構(gòu)成模型中理想?yún)?shù)的過程;訓(xùn)練一個(gè)好的模型,主要是得到模型中的參數(shù),包括權(quán)重?和偏置?等。
泛化(generalization)
是指模型依據(jù)訓(xùn)練時(shí)采用的模型,針對未見過的新數(shù)據(jù)做出爭取預(yù)測的能力。
過擬合(overfitting)
創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)過于匹配,以至于模型無法根據(jù)新數(shù)據(jù)做出正確的預(yù)測。
預(yù)測(perdition)
模型在收到數(shù)據(jù)樣本后的輸出。
平穩(wěn)性(stationarit)
數(shù)據(jù)集中數(shù)據(jù)的一種屬性,表示數(shù)據(jù)分布在一個(gè)或多個(gè)維度保持不變。這種維度最常見的是時(shí)間,即:表明平穩(wěn)性的數(shù)據(jù)不隨時(shí)間而變化。
訓(xùn)練集(training set)
數(shù)據(jù)集的子集,用于訓(xùn)練模型。與驗(yàn)證集和測試集相對。
驗(yàn)證集(validation set)
數(shù)據(jù)集的一個(gè)子集,從訓(xùn)練集分離而來,用于調(diào)整超參數(shù)。與訓(xùn)練集和測試集相對。
測試集(test set)
數(shù)據(jù)集的子集,用于在模型經(jīng)過驗(yàn)證集的初步驗(yàn)證后,進(jìn)行測試模型。與訓(xùn)練集和驗(yàn)證集相對。
主要術(shù)語(進(jìn)階版1)
主要包括類別、分類模型、回歸模型、收斂、準(zhǔn)確率、精確率、召回率、凸集、凸函數(shù)、凸優(yōu)化、激活函數(shù)、反向傳播算法、批次、批次大小。
類別(class)
類別是標(biāo)簽枚舉的一組目標(biāo)值中的一個(gè)。比如:在二分類中,標(biāo)簽組一共有兩個(gè),分別為貓、狗;其中“貓”是一個(gè)類別;“狗”也是一個(gè)類別。
分類模型(classification model)
用于區(qū)分兩種或多種離散類別。
比如,在貓狗識別中,模型要區(qū)分這個(gè)輸入的圖像是“貓”,還是“狗”,這是一個(gè)典型的二分類模型。
在語言分類中,模型需要區(qū)分輸入的是中文、英語、法語、俄語,還是其他語言;這是一個(gè)多分類模型。
回歸模型(regression model)
用于預(yù)測輸出連續(xù)值,比如浮點(diǎn)值。
比如:在放假預(yù)測中,輸入一些與房價(jià)有關(guān)的數(shù)據(jù),銷售日期、銷售價(jià)格、臥室數(shù)、浴室數(shù)、房屋面積、停車面積、房屋評分、建筑面積等等;通過模型來預(yù)測房子的價(jià)格,比如輸出56.78萬元。
收斂(convergence)
是指在訓(xùn)練期間達(dá)到的一種狀態(tài),模型達(dá)到穩(wěn)定狀態(tài),即經(jīng)過一定次數(shù)的迭代之后,訓(xùn)練損失和驗(yàn)證損失在每次迭代中的變換都非常小或根本沒有變化。
準(zhǔn)確率(accuracy)
通常用于分類模型,表示分類模型的正確預(yù)測所占的比例。在多分類中,定義:
?
acc是指準(zhǔn)確率;n是指正確分類的個(gè)數(shù);sum是指總樣本數(shù)。
比如:一共有100個(gè)數(shù)據(jù)樣本,模型正確預(yù)測出98個(gè),有2個(gè)預(yù)測錯(cuò)誤了,那么該模型的準(zhǔn)確率為:acc = 98 / 100 = 0.98 ,即:98%
精確率(precision)
一種分類模型的指標(biāo),是指模型正確預(yù)測正類別的頻率,即:
?
pre是指精確率;TP(正例)是指實(shí)際為正,預(yù)測為正;FP(假正例)是指實(shí)際為負(fù),預(yù)測為正。
精確率針對的是正類別,一共預(yù)測了若干個(gè)正類別(正例 + 假正例),其中有多少個(gè)是預(yù)測正確的。
準(zhǔn)確率針對的是整體數(shù)據(jù),包括正類別、負(fù)類別(正例 + 負(fù)類 +假正例 + 假負(fù)例),在整體數(shù)據(jù)中有多少是預(yù)測正確的。
召回率(recall)
一種分類模型指標(biāo),是指在所有可能的正類別標(biāo)簽中,
凸集(convex set)
歐幾里得空間的一個(gè)子集,其中任意兩點(diǎn)之間的連線仍完成落在該子集內(nèi)。
比如,下面的兩個(gè)圖像都是凸集:
?
相反,下面的兩個(gè)圖形都不是凸集:
?
凸函數(shù)(convex function)
函數(shù)圖像以上的區(qū)域?yàn)橥辜?#xff0c;典型凸函數(shù)的形狀類似于字母U,以下是幾種凸函數(shù):
?
相反,以下函數(shù)則不是凸函數(shù),請注意圖像上方的區(qū)域不是凸集:
?
嚴(yán)格凸函數(shù)只有一個(gè)局部最低點(diǎn),改點(diǎn)也是全局最低點(diǎn)。
常見的函數(shù)都是凸函數(shù):
- L2損失函數(shù)
- 對數(shù)損失函數(shù)
- L1正則化
- L2正則化
梯度下降法的很多變體都一定能找到一個(gè)接近嚴(yán)格圖函數(shù)最小值的點(diǎn)。
隨機(jī)梯度下降法的很多變體都很高可能(并非一定能找到)接近嚴(yán)格凸函數(shù)最小值的點(diǎn)。
兩個(gè)凸函數(shù)的和也是凸函數(shù),比如L2損失函數(shù)+L1正則化。
深度模型絕不會(huì)是凸函數(shù)。但專門針對凸優(yōu)化設(shè)計(jì)的算法往往總能在深度網(wǎng)絡(luò)上找到非常好的解決方案,雖然這些解決方案并不一定對應(yīng)全局最小值。
凸優(yōu)化(convex optimization)
使用數(shù)學(xué)方法尋找凸函數(shù)最小值的過程。
機(jī)器學(xué)習(xí)方面的大量研究都是專注于如何通過公式將各種問題表示為凸優(yōu)化問題,以及如何高效解決這些問題。
激活函數(shù)(activation function)
本質(zhì)是一種函數(shù),通常把輸入值映射為另一個(gè)值,映射的方式有:線性映射、非線性映射;
比如:在線性映射中,假設(shè)激活函數(shù)為??,即 y?= 2x,輸入值x, 映射后的輸出值y;當(dāng)輸入值為3,經(jīng)過激活函數(shù)映射后,輸出值為6。
在非線性映射中,假設(shè)激活函數(shù)為???,輸入值x, 映射后的輸出值y;輸入值為0時(shí),經(jīng)過激活函數(shù)映射后,輸出值為0.5。
其實(shí)這個(gè)非線性映射的激活函數(shù)是比較常見的Sigmoid函數(shù),看看它的圖像:
?
反向傳播算法(backpropagation)
該算法會(huì)先按前向傳播方式計(jì)算(并緩存)每個(gè)節(jié)點(diǎn)的輸出值,然后再按反向傳播遍歷圖的方式計(jì)算損失函數(shù)值相對于每個(gè)參數(shù)的偏導(dǎo)數(shù)。
批次(batch)
模型訓(xùn)練的一次迭代(一次梯度更新)中使用的樣本集。
批次大小(batch size)
一個(gè)批次中的樣本數(shù)。比如,在隨機(jī)梯度下降SGD算法中,批次大小為1;在梯度下降算法中,批次大小為整個(gè)訓(xùn)練集;
批量梯度下降算中,批次大小可以自定義的,通常取值范圍是10到1000之間。比如:訓(xùn)練集為40000個(gè)樣本,設(shè)置批次大小為32,訓(xùn)練一次模型,使用到32個(gè)樣本。
深度學(xué)習(xí)主要術(shù)語
主要術(shù)語,包括偏差、推斷、線性回歸、權(quán)重、經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化、均方誤差、平方損失函數(shù)、損失、梯度下降法、隨機(jī)梯度下降、批量梯度下降法、參數(shù)、超參數(shù)、學(xué)習(xí)率、特征工程、離散特征、獨(dú)熱編碼、表示法、特征組合、合成特征、
偏差(bias)
距離原點(diǎn)的截距或偏移。偏差(也稱為偏差項(xiàng))在機(jī)器學(xué)習(xí)模型中用b或?表示。例如,在下面的公式中,偏差為b:?
推斷(inference)
在機(jī)器學(xué)習(xí)中,推斷通常指以下過程:通過將訓(xùn)練過的模型應(yīng)用于無標(biāo)簽樣本來做出雨雪。在統(tǒng)計(jì)學(xué)中,推斷是指在某些觀察數(shù)據(jù)條件下擬合分布參數(shù)的過程。(請參閱維基百科中有關(guān)統(tǒng)計(jì)學(xué)推斷的文章。)
線性回歸(linear regression)
一種回歸模型,通過將輸入特征進(jìn)行線性組合輸出連續(xù)值。
權(quán)重(weight)
模型中特征的系數(shù),或深度網(wǎng)絡(luò)中的邊。訓(xùn)練模型的目標(biāo)是確定每個(gè)特征的理想權(quán)重。如果權(quán)重為0,則相應(yīng)的特征對模型來說沒有任何影響。
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM,empirical risk minimization)
用于選擇函數(shù),選擇基于訓(xùn)練集的損失降至最低的函數(shù)。與結(jié)構(gòu)風(fēng)險(xiǎn)最小化相對。
均方誤差(MSE,Mean Squared Error)
每個(gè)樣本的平均平方損失。MSE的計(jì)算方法是平方損失除以樣本數(shù)。
平方損失函數(shù)(squared loss)
在線性回歸中使用的損失函數(shù)(也稱為L2損失函數(shù))。改行可計(jì)算模型為有標(biāo)簽樣本預(yù)測的值,和標(biāo)簽的真實(shí)值之差的平方。? ?由于取平方值,該損失函數(shù)會(huì)放大不佳預(yù)測的影響。與L1損失函數(shù)相對,平方損失函數(shù)對離群值的反應(yīng)更強(qiáng)烈。
損失(Loss)
一種衡量指標(biāo),用于衡量模型的預(yù)測偏離其標(biāo)簽程度。要確定此值,模型需要定義損失函數(shù)。例如:線性回歸模型參與均方誤差MAS損失函數(shù),分類模型采用交叉熵?fù)p失函數(shù)。
梯度下降法(gradient descent)
一種通過計(jì)算梯度,并且將損失將至最低的技術(shù),它以訓(xùn)練數(shù)據(jù)位條件,來計(jì)算損失相對于模型參數(shù)的梯度。梯度下降法以迭代方式調(diào)整參數(shù),逐漸找到權(quán)重和偏差的最佳組合,從而將損失降至最低。
隨機(jī)梯度下降(SGD)
梯度下降法在大數(shù)據(jù)集,會(huì)出現(xiàn)費(fèi)時(shí)、價(jià)值不高等情況。如果我們可以通過更少的計(jì)算量得出正確的平均梯度,效果更好。通過從數(shù)據(jù)集中隨機(jī)選擇樣本,來估算出較大的平均值。
原理? 它每次迭代只使用一個(gè)樣本(批量大小為1)。
如果進(jìn)行足夠的迭代,SGD也可以發(fā)揮作用,但過程會(huì)非常雜亂。“隨機(jī)”這一術(shù)語表示構(gòu)成各個(gè)批量的一個(gè)樣本都是隨機(jī)選擇的。
批量梯度下降法(BGD)
它是介于全批量迭代與隨機(jī)選擇一個(gè)迭代的折中方案。全批量迭代(梯度下降法);隨機(jī)選擇一個(gè)迭代(隨機(jī)梯度下降)。
原理? 它從數(shù)據(jù)集隨機(jī)選取一部分樣本,形成小批量樣本,進(jìn)行迭代。小批量通常包含10-1000個(gè)隨機(jī)選擇的樣本。BGD可以減少SGD中的雜亂樣本數(shù)量,但仍然波全批量更高效。
參數(shù)(parameter)
機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型變量。例如,權(quán)重。它們的值是機(jī)器學(xué)習(xí)系統(tǒng)通過連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的;與超參數(shù)相對。
超參數(shù)(hyperparameter)
在模型訓(xùn)練的連續(xù)過程中,需要人工指定和調(diào)整的;例如學(xué)習(xí)率;與參數(shù)相對。
學(xué)習(xí)率(learning rate)
在訓(xùn)練模型時(shí)用于梯度下降的一個(gè)標(biāo)量。在每次迭代期間,梯度下降法都會(huì)將學(xué)習(xí)速率與梯度相乘;得出的乘積稱為梯度步長。
特征工程(feature engineering)
是指確定哪些特征可能在訓(xùn)練模型方面非常有用,然后將日志文件及其他來源的原始數(shù)據(jù)轉(zhuǎn)換為所需的特征。特征工程有時(shí)稱為特征提取。
離散特征(discrete feature)
一種特征,包含有限個(gè)可能值。例如,某個(gè)值只能是“動(dòng)物”、或“蔬菜”的特征,這是都能將類別列舉出來的。與連續(xù)特征相對。
獨(dú)熱編碼(one-hot-encoding)
一種稀疏二元向量,其中:
- 一個(gè)元素設(shè)為1.
- 其他所有元素均設(shè)為0 。
獨(dú)熱編碼常用語表示擁有 有限個(gè)可能值的字符串或標(biāo)識符。
表示法(representation)
將數(shù)據(jù)映射到實(shí)用特征的過程。
合成特征(synthetic feature)
一種特征,不在輸入特征之列,而是從一個(gè)或多個(gè)輸入特征衍生而來。合成特征包括以下類型:
- 對連續(xù)特征進(jìn)行分桶,以分為多個(gè)區(qū)間分箱。
- 將一個(gè)特征值與其他特征值或本身相差(或相除)。
- 創(chuàng)建一個(gè)特征組合。
僅通過標(biāo)準(zhǔn)化或縮放創(chuàng)建的特征不屬于合成特征。
特征組合(feature cross)
通過將單獨(dú)的特征進(jìn)行組合(求笛卡爾積),形成的合成特征。特征組合有助于表達(dá)非線性關(guān)系。
L1正則化(L1 regularization)
一種正則化,根據(jù)權(quán)重的絕對值的總和,來懲罰權(quán)重。在以來稀疏特征的模型中,L1正則化有助于使不相關(guān)或幾乎不相關(guān)的特征的權(quán)重正好為0,從而將這些特征從模型中移除。與L2正則化相對。
L2正則化(L2?regularization)
一種正則化,根據(jù)權(quán)重的平方和,來懲罰權(quán)重。L2正則化有助于使離群值(具有較大正值或較小負(fù)責(zé))權(quán)重接近于0,但又不正好為0。在線性模型中,L2正則化始終可以進(jìn)行泛化。
其余術(shù)語參考:深度學(xué)習(xí)的57個(gè)術(shù)語_huacha__的博客-CSDN博客
總結(jié)
以上是生活随笔為你收集整理的机器学习与深度学习基础概念的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源视频处理工具Shotcut的用法:
- 下一篇: 从机器学习到深度学习