當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

机器学习问题总结（04）

發(fā)布時(shí)間：2023/12/13 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习问题总结（04）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

- 1、MLP的BP過(guò)程
- 2、maxpool層BP怎么做的
- - 2.1 **mean pooling**
  - 2.2 max pooling
- 3、opencv遍歷像素的方式，講兩種？
- 4、傳統(tǒng)圖像處理有了解過(guò)嗎，比如去噪特征提取
- 5、問(wèn)在linux下寫(xiě)過(guò)代碼嗎？問(wèn)用了什么軟件工具
- 6、LDA（狄利克雷分布）
- 7、PR曲線、ROC曲線
- - 7.1、查準(zhǔn)率、查全率、F1
  - 7.2、ROC和AUC
  - 7.3、偏差和方差
- 8、特征工程
- - 8.1、特征工程是什么？
- 9、數(shù)據(jù)預(yù)處理的方法
- 10、特征選擇的方法有哪些
- 11、寫(xiě)K-means、GMM的公式
- - 11.1 k-means
  - 11.2 GMM
- 12、CNN與RNN的區(qū)別
- 13、你所知道的距離度量方式、損失函數(shù)
- - 13.1 距離度量
  - 13.2 損失函數(shù)

1、MLP的BP過(guò)程

MLP(multilayer perceptron)多層神經(jīng)網(wǎng)絡(luò)
1、單層神經(jīng)網(wǎng)絡(luò)的BP算法
反向誤差傳播

delta就是誤差的反向傳播，用來(lái)更新網(wǎng)絡(luò)參數(shù)（w,b）
使得損失函數(shù)向最小值靠近
2、深層前向、后向

3、MLP(multilayer perceptron)的BP

無(wú)監(jiān)督預(yù)訓(xùn)練 RBM
有監(jiān)督微調(diào) BP

2、maxpool層BP怎么做的

2.1 mean pooling

mean pooling的前向傳播就是把一個(gè)patch中的值求取平均來(lái)做pooling，那么反向傳播的過(guò)程也就是把某個(gè)元素的梯度等分為n份分配給前一層，這樣就保證池化前后的梯度（殘差）之和保持不變，還是比較理解的

2.2 max pooling

max pooling也要滿足梯度之和不變的原則，max pooling的前向傳播是把patch中最大的值傳遞給后一層，而其他像素的值直接被舍棄掉。那么反向傳播也就是把梯度直接傳給前一層某一個(gè)像素，而其他像素不接受梯度，也就是為0。

Max Pooling比較有意思，forward的時(shí)候需要記錄每個(gè)窗口內(nèi)部最大元素的位置
然后bp的時(shí)候，對(duì)于窗口內(nèi)最大元素的gradient是1，否則是0。原理和ReLu是一樣的。

3、opencv遍歷像素的方式，講兩種？

(1). C操作符[] (指針?lè)绞皆L問(wèn))
(2). 迭代器iterator
(3). 動(dòng)態(tài)地址計(jì)算

像素遍歷方式在速度上不同，用C操作符[]是最快的訪問(wèn)方式

at()函數(shù)和行首指針

4、傳統(tǒng)圖像處理有了解過(guò)嗎，比如去噪特征提取

1、圖像去噪

圖像去噪是指減少數(shù)字圖像中噪聲的過(guò)程稱為圖像去噪。現(xiàn)實(shí)中的數(shù)字圖像在數(shù)字化和傳輸過(guò)程中常受到成像設(shè)備與外部環(huán)境噪聲干擾等影響，稱為含噪圖像或噪聲圖像。

噪聲是圖象干擾的重要原因。一幅圖象在實(shí)際應(yīng)用中可能存在各種各樣的噪聲,這些噪聲可能在傳輸中產(chǎn)生,也可能在量化等處理中產(chǎn)生。

去除圖像噪聲的方法簡(jiǎn)介

均值濾波器：采用鄰域平均法
自適應(yīng)維納濾波器
中值濾波器
小波去噪：(1)對(duì)圖象信號(hào)進(jìn)行小波分解 (2)對(duì)經(jīng)過(guò)層次分解后的高頻系數(shù)進(jìn)行閾值量化 (3)利用二維小波重構(gòu)圖象信號(hào)

2、圖像特征提取

HOG特征（方向梯度直方圖）
LBP特征（局部二值模式）（編碼：中心像素做閾值）
Haar-like特征

5、問(wèn)在linux下寫(xiě)過(guò)代碼嗎？問(wèn)用了什么軟件工具

寫(xiě)過(guò)

一般寫(xiě)Python，簡(jiǎn)單的C/C++程序用的是sublime，然后通過(guò)終端去運(yùn)行，調(diào)試
寫(xiě)Linux界面程序的話用QT軟件比較多
寫(xiě)Linux下的驅(qū)動(dòng)程序，用的是交差編譯的環(huán)境，是在win下面開(kāi)發(fā)，然后將工程通過(guò)網(wǎng)絡(luò)傳輸?shù)絃inux機(jī)子上去，然后通過(guò)終端運(yùn)行命令進(jìn)行編譯和執(zhí)行。驅(qū)動(dòng)程序編寫(xiě)使用VS（win）

6、LDA（狄利克雷分布）

Dirichlet Distribution（狄利克雷分布）的定義和性質(zhì)

隱含狄利克雷分布（Latent Dirichlet Allocation，簡(jiǎn)稱LDA）是由 David M. Blei、Andrew Y. Ng、Michael I. Jordan 在2003年提出的，是一種詞袋模型，它認(rèn)為文檔是一組詞構(gòu)成的集合，詞與詞之間是無(wú)序的。一篇文檔可以包含多個(gè)主題，文檔中的每個(gè)詞都是由某個(gè)主題生成的，LDA給出文檔屬于每個(gè)主題的概率分布，同時(shí)給出每個(gè)主題上詞的概率分布。LDA是一種無(wú)監(jiān)督學(xué)習(xí)，在文本主題識(shí)別、文本分類、文本相似度計(jì)算和文章相似推薦等方面都有應(yīng)用。

multinomial distribution（多項(xiàng)式分布）

LDA中，多項(xiàng)式分布，和狄利克雷分布的形式一致，所以稱為共軛

共軛分布：共軛先驗(yàn)分布，在貝葉斯統(tǒng)計(jì)中，如果后驗(yàn)分布與先驗(yàn)分布屬于同類，則先驗(yàn)分布與后驗(yàn)分布被稱為共軛分布，而先驗(yàn)分布被稱為似然函數(shù)的共軛先驗(yàn)。

7、PR曲線、ROC曲線

PR曲線、ROC曲線、AUC、Accuracy

7.1、查準(zhǔn)率、查全率、F1

對(duì)于二分類問(wèn)題，可將樣例根據(jù)其真實(shí)類別與學(xué)習(xí)器預(yù)測(cè)類別的組合劃分為真正例（TP），假反例（FN），假正例（FP），真反例（TN），具體分類結(jié)果如下

查準(zhǔn)率P和查全率R分別定義為：

查準(zhǔn)率關(guān)心的是”預(yù)測(cè)出正例的正確率”即從正反例子中挑選出正例的問(wèn)題。
查全率關(guān)心的是”預(yù)測(cè)出正例的保證性”即從正例中挑選出正例的問(wèn)題。

這兩者是一對(duì)矛盾的度量，查準(zhǔn)率可以認(rèn)為是”寧缺毋濫”，適合對(duì)準(zhǔn)確率要求高的應(yīng)用，例如商品推薦，網(wǎng)頁(yè)檢索等。
查全率可以認(rèn)為是”寧錯(cuò)殺一百，不放過(guò)1個(gè)”，適合類似于檢查走私、逃犯信息等。

下圖為查準(zhǔn)率-查全率曲線（P-R圖）

若一個(gè)學(xué)習(xí)器的P-R曲線被另一個(gè)學(xué)習(xí)器完全”包住”，則后者的性能優(yōu)于前者。當(dāng)存在交叉時(shí)，可以計(jì)算曲線圍住面積，但比較麻煩，平衡點(diǎn)（查準(zhǔn)率=查全率，BEP）是一種度量方式。

但BEP還是過(guò)于簡(jiǎn)化了些，更常用的是F1和Fp度量，它們分別是查準(zhǔn)率和查全率的調(diào)和平均和加權(quán)調(diào)和平均。定義如下

7.2、ROC和AUC

很多學(xué)習(xí)器是為測(cè)試樣本產(chǎn)生一個(gè)實(shí)值或概率預(yù)測(cè)，然后將這個(gè)預(yù)測(cè)值與一個(gè)分類閾值進(jìn)行比較，若大于閾值分為正類，否則為反類，因此分類過(guò)程可以看作選取一個(gè)截?cái)帱c(diǎn)。

不同任務(wù)中，可以選擇不同截?cái)帱c(diǎn)，若更注重”查準(zhǔn)率”，應(yīng)選擇排序中靠前位置進(jìn)行截?cái)?#xff0c;反之若注重”查全率”，則選擇靠后位置截?cái)唷Ｒ虼伺判虮旧碣|(zhì)量的好壞，可以直接導(dǎo)致學(xué)習(xí)器不同泛化性能好壞，ROC曲線則是從這個(gè)角度出發(fā)來(lái)研究學(xué)習(xí)器的工具。

曲線的坐標(biāo)分別為真正例率（TPR）和假正例率（FPR），定義如下

下圖為ROC曲線示意圖，因現(xiàn)實(shí)任務(wù)中通常利用有限個(gè)測(cè)試樣例來(lái)繪制ROC圖，因此應(yīng)為無(wú)法產(chǎn)生光滑曲線，如右圖所示。

計(jì)算曲線圍住的面積(AUC)來(lái)評(píng)價(jià)性能優(yōu)劣

7.3、偏差和方差

泛化誤差可以分解為偏差、方差與噪聲之和

偏差度量了學(xué)習(xí)算法的期望預(yù)測(cè)和真實(shí)結(jié)果偏離程度。

方差度量了同樣大小的訓(xùn)練集的變動(dòng)所導(dǎo)致的學(xué)習(xí)性能的變化，即刻畫(huà)了數(shù)據(jù)擾動(dòng)所造成的影響。

噪聲可以認(rèn)為數(shù)據(jù)自身的波動(dòng)性，表達(dá)了目前任何學(xué)習(xí)算法所能達(dá)到泛化誤差的下限。

偏差大說(shuō)明欠擬合，方差大說(shuō)明過(guò)擬合。

8、特征工程

8.1、特征工程是什么？

有這么一句話在業(yè)界廣泛流傳：數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個(gè)上限而已。那特征工程到底是什么呢？顧名思義，其本質(zhì)是一項(xiàng)工程活動(dòng)，目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。通過(guò)總結(jié)和歸納，人們認(rèn)為特征工程包括以下方面：

特征處理是特征工程的核心部分，sklearn提供了較為完整的特征處理方法，包括數(shù)據(jù)預(yù)處理，特征選擇，降維等。首次接觸到sklearn，通常會(huì)被其豐富且方便的算法模型庫(kù)吸引，但是這里介紹的特征處理庫(kù)也十分強(qiáng)大！

9、數(shù)據(jù)預(yù)處理的方法

我們使用sklearn中的preproccessing庫(kù)來(lái)進(jìn)行數(shù)據(jù)預(yù)處理

通過(guò)特征提取，我們能得到未經(jīng)處理的特征，這時(shí)的特征可能有以下問(wèn)題：

不屬于同一量綱
信息冗余
定性特征不能直接使用
存在缺失值
信息利用率低

10、特征選擇的方法有哪些

根據(jù)特征選擇的形式又可以將特征選擇方法分為3種：

Filter：過(guò)濾法，按照發(fā)散性或者相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分，設(shè)定閾值或者待選擇閾值的個(gè)數(shù)，選擇特征。
Wrapper：包裝法，根據(jù)目標(biāo)函數(shù)（通常是預(yù)測(cè)效果評(píng)分），每次選擇若干特征，或者排除若干特征。(每次增加或者減少一維特征，觀察模型的結(jié)果從而決定是否添加或刪除該特征)
Embedded：嵌入法，先使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練，得到各個(gè)特征的權(quán)值系數(shù)，根據(jù)系數(shù)從大到小選擇特征。類似于Filter方法，但是是通過(guò)訓(xùn)練來(lái)確定特征的優(yōu)劣。（通過(guò)最終訓(xùn)練好的模型的參數(shù)來(lái)選擇特征,LASSO回歸，RF模型等）

我們使用sklearn中的feature_selection庫(kù)來(lái)進(jìn)行特征選擇。

11、寫(xiě)K-means、GMM的公式

11.1 k-means

11.2 GMM

12、CNN與RNN的區(qū)別

在普通的全連接網(wǎng)絡(luò)或CNN中，每層神經(jīng)元的信號(hào)只能向上一層傳播，樣本的處理在各個(gè)時(shí)刻獨(dú)立，因此又被成為前向神經(jīng)網(wǎng)絡(luò)(Feed-forward Neural Networks)。而在RNN中，神經(jīng)元的輸出可以在下一個(gè)時(shí)間戳直接作用到自身，即第i層神經(jīng)元在m時(shí)刻的輸入，除了(i-1)層神經(jīng)元在該時(shí)刻的輸出外，還包括其自身在(m-1)時(shí)刻的輸出！表示成圖就是這樣的：

我們可以看到在隱含層節(jié)點(diǎn)之間增加了互連。為了分析方便，我們常將RNN在時(shí)間上進(jìn)行展開(kāi)，得到如圖6所示的結(jié)構(gòu)：

13、你所知道的距離度量方式、損失函數(shù)

13.1 距離度量

距離函數(shù)種類：歐式距離、曼哈頓距離、明式距離（閔可夫斯基距離）、馬氏距離、切比雪夫距離、標(biāo)準(zhǔn)化歐式距離、漢明距離、夾角余弦等
常用距離函數(shù)：歐式距離、馬氏距離、曼哈頓距離、明式距離

1.歐式距離
歐式距離是最容易直觀理解的距離度量方法，我們小學(xué)，中學(xué)，高中所接觸的兩個(gè)空間中的距離一般都是指的是歐式距離。

2.曼哈頓距離(Manhattan Distance)
兩個(gè)點(diǎn)在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距總和

3.切比雪夫距離
各坐標(biāo)數(shù)值差的最大值

4.閔可夫斯基距離
閔氏距離不是一種距離，而是一組距離的定義，是對(duì)多個(gè)距離度量公式的概括性的表述。

5.標(biāo)準(zhǔn)化歐氏距離
定義：標(biāo)準(zhǔn)化歐氏距離是針對(duì)歐氏距離的缺點(diǎn)而作的一種改進(jìn)。標(biāo)準(zhǔn)歐氏距離的思路：既然數(shù)據(jù)各維分量的分布不一樣，那先將各個(gè)分量都**“標(biāo)準(zhǔn)化”**到均值、方差相等。

6.馬氏距離
**概念：**馬氏距離是基于樣本分布的一種距離。物理意義就是在規(guī)范化的主成分空間中的歐氏距離。所謂規(guī)范化的主成分空間就是利用主成分分析對(duì)一些數(shù)據(jù)進(jìn)行主成分分解。再對(duì)所有主成分分解軸做歸一化，形成新的坐標(biāo)軸。由這些坐標(biāo)軸張成的空間就是規(guī)范化的主成分空間。

馬氏距離的優(yōu)點(diǎn)：與量綱無(wú)關(guān)，排除變量之間的相關(guān)性干擾

7.余弦距離

夾角余弦取值范圍為[-1,1]。余弦越大表示兩個(gè)向量的夾角越小，余弦越小表示兩向量的夾角越大。當(dāng)兩個(gè)向量的方向重合時(shí)余弦取最大值1，當(dāng)兩個(gè)向量的方向完全相反余弦取最小值-1。

8.漢明距離
定義：兩個(gè)等長(zhǎng)字符串s1與s2的漢明距離為：將其中一個(gè)變?yōu)榱硗庖粋€(gè)所需要作的最小字符替換次數(shù)。

9.信息熵
以上的距離度量方法度量的皆為兩個(gè)樣本（向量）之間的距離，而信息熵描述的是整個(gè)系統(tǒng)內(nèi)部樣本之間的一個(gè)距離，或者稱之為系統(tǒng)內(nèi)樣本分布的集中程度（一致程度）、分散程度、混亂程度（不一致程度）。系統(tǒng)內(nèi)樣本分布越分散(或者說(shuō)分布越平均)，信息熵就越大。分布越有序（或者說(shuō)分布越集中），信息熵就越小。

13.2 損失函數(shù)

log對(duì)數(shù) 損失函數(shù)（邏輯回歸）
平方損失函數(shù)（最小二乘法）
指數(shù)損失函數(shù)（AdaBoost）
Hinge損失函數(shù)（SVM）
0-1損失函數(shù)
絕對(duì)值損失函數(shù)

損失函數(shù)（loss function）是用來(lái)估量你模型的預(yù)測(cè)值f(x)與真實(shí)值Y的不一致程度，它是一個(gè)非負(fù)實(shí)值函數(shù),通常使用L(Y, f(x))來(lái)表示，損失函數(shù)越小，模型的魯棒性就越好。

損失函數(shù)是經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)的核心部分，也是結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)重要組成部分。模型的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)包括了經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)和正則項(xiàng)

1.log對(duì)數(shù) 損失函數(shù)
在邏輯回歸的推導(dǎo)中，它假設(shè)樣本服從伯努利分布（0-1分布），然后求得滿足該分布的似然函數(shù)。

log函數(shù)是單調(diào)遞增的，（凸函數(shù)避免局部最優(yōu)）

在使用梯度下降來(lái)求最優(yōu)解的時(shí)候，它的迭代式子與平方損失求導(dǎo)后的式子非常相似

2.平方損失函數(shù)（最小二乘法, Ordinary Least Squares）
最小二乘法是線性回歸的一種，OLS將問(wèn)題轉(zhuǎn)化成了一個(gè)凸優(yōu)化問(wèn)題。

在線性回歸中，它假設(shè)樣本和噪聲都服從高斯分布（為什么假設(shè)成高斯分布呢？其實(shí)這里隱藏了一個(gè)小知識(shí)點(diǎn)，就是中心極限定理），最后通過(guò)極大似然估計(jì)（MLE）可以推導(dǎo)出最小二乘式子。

為什么它會(huì)選擇使用歐式距離作為誤差度量呢（即Mean squared error， MSE），主要有以下幾個(gè)原因：

簡(jiǎn)單，計(jì)算方便；
歐氏距離是一種很好的相似性度量標(biāo)準(zhǔn)；
在不同的表示域變換后特征性質(zhì)不變

3.指數(shù)損失函數(shù)（AdaBoost）

4.hinge損失
在機(jī)器學(xué)習(xí)算法中，hinge損失函數(shù)和SVM是息息相關(guān)的。在線性支持向量機(jī)中，最優(yōu)化問(wèn)題可以等價(jià)于下列式子：

損失函數(shù)總結(jié)

總結(jié)

以上是生活随笔為你收集整理的机器学习问题总结（04）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

机器

上一篇： Python综合应用(1)--名片管理系
下一篇： MachineLearning(9)-最