當(dāng)前位置：首頁 >

AI人工智能

發(fā)布時(shí)間：2023/12/4 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 AI人工智能小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1，為什么要對特征做歸一化？
2，什么是組合特征？如何處理高維組合特征？
3，請比較歐式距離與曼哈頓距離？
4，為什么一些場景中使用余弦相似度而不是歐式距離？
5，One-hot的作用是什么？為什么不直接使用數(shù)字作為表示？
6，在模型評估過程中，過擬合和欠擬合具體指什么現(xiàn)象？
7，降低過擬合和欠擬合的方法？

深度學(xué)習(xí)

數(shù)據(jù)預(yù)處理中的重要技術(shù)–特征歸一化
數(shù)據(jù)預(yù)處理：

深度學(xué)習(xí)中的數(shù)據(jù)預(yù)處理有哪些方式
1.數(shù)據(jù)歸一化：包括高斯歸一化、最大最小值歸一化等
2.白化：許多深度學(xué)習(xí)算法都依賴于白化來獲得更好的特征。所謂的白化，以PCA白化來說，就是對PCA降維后的數(shù)據(jù)的每一列除以其特征值的根號
為什么需要對于數(shù)據(jù)進(jìn)行歸一化處理，歸一化的方式有哪些
1.為了后面處理數(shù)據(jù)方便，歸一化可以避免一些不必要的數(shù)值問題
2.為了程序運(yùn)行時(shí)收斂加快
3.同一量綱。樣本數(shù)據(jù)的評價(jià)標(biāo)準(zhǔn)不一樣，需要對其量綱化，統(tǒng)一評價(jià)標(biāo)準(zhǔn)。這算是應(yīng)用層面的需求
4.避免神經(jīng)元飽和。就是當(dāng)神經(jīng)元的激活在接近0或者1時(shí)會飽和，在這些區(qū)域，梯度幾乎為0，這樣，在反向傳播過程中，局部梯度就會接近0，這會有效地"殺死"梯度
5.保證輸出數(shù)據(jù)中數(shù)值小的不被吞食

歸一化的方式主要有：線性歸一化、標(biāo)準(zhǔn)差歸一化、非線性歸一化

什么是特征歸一化
數(shù)據(jù)的標(biāo)準(zhǔn)化是將數(shù)據(jù)按比例縮放，使之落入一個(gè)小的特定區(qū)間。在某些比較和評價(jià)的指標(biāo)處理中經(jīng)常會用到，去除數(shù)據(jù)的單位限制，將其轉(zhuǎn)化為無量綱的純數(shù)值，便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán)
其中最典型的就是數(shù)據(jù)的歸一化處理，即將數(shù)據(jù)統(tǒng)一映射到[0，1]區(qū)間上
為什么要進(jìn)行特征歸一化
1.對數(shù)值類型的特征做歸一化可以將所有的特征都統(tǒng)一到一個(gè)大致相同的數(shù)值區(qū)間內(nèi)
2.從經(jīng)驗(yàn)上說，歸一化是讓不同維度之間的特征在數(shù)值上有一定比較性，可以大大提高分類的準(zhǔn)確性

學(xué)習(xí)機(jī)器學(xué)習(xí)

什么是組合特征？如何處理高維組合特征
狹義的組合特征即將類別特征兩個(gè)或者多個(gè)特征組合（數(shù)學(xué)里面的組合概念）起來，構(gòu)成高階組合特征

為了提高復(fù)雜關(guān)系的擬合能力，在特征工程中經(jīng)常會把一屆離散特征兩兩組合，構(gòu)成高階組合特征

可以使用降維的方法處理高維組合特征：
矩陣分解、特征篩選：

特征降維其實(shí)從大的方面講有兩條路可走：
基于原有的特征進(jìn)行降維
基于原有的特征進(jìn)行篩選

歐式距離和曼哈頓距離的比較
歐式距離：歐幾里得度量是一個(gè)通常采用的距離定義，指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離

意義：歐式距離越小，兩個(gè)向量的相似度越大；歐式距離越大，兩個(gè)向量的相似度越小

缺點(diǎn)：對異常數(shù)據(jù)敏感
歐式距離將向量各個(gè)維度之間的差異等同對待，（實(shí)際情況中，樣本的不同屬性重要程度往往不同）

優(yōu)點(diǎn)：計(jì)算速度快

曼哈頓距離：歐式距離有一個(gè)局限是度量兩點(diǎn)之間的直線距離。但實(shí)際上，在現(xiàn)實(shí)世界中，我們從原點(diǎn)到目標(biāo)點(diǎn)，往往直走是不能到達(dá)的。曼哈頓距離加入了一些這方面的考慮

意義：曼哈頓距離也稱為城市街區(qū)距離。可以看出在曼哈頓距離中，考慮了更多的實(shí)際因素。總之，在曼哈頓距離的世界中，規(guī)則是我們只能沿著線畫出的格子行進(jìn)

缺點(diǎn)：對異常值敏感
曼哈頓距離將向量各個(gè)維度之間的差異等同對待

優(yōu)點(diǎn)：計(jì)算速度快

歐氏距離和曼哈頓距離的區(qū)別在于：它們對向量之間差異的計(jì)算過程中，各個(gè)維度差異的權(quán)值不同。向量各個(gè)屬性之間的差距越大，則曼哈頓距離越接近歐式距離

余弦距離
余弦相似度，就是計(jì)算兩個(gè)向量間夾角的余弦值

余弦距離就是用1減去這個(gè)獲得的余弦相似度

由上面余弦距離可知，余弦距離的取值范圍為[0，2]，滿足了非負(fù)性的性質(zhì)

當(dāng)向量的模長是經(jīng)過歸一化的，此時(shí)歐式距離與余弦距離有著單調(diào)的關(guān)系
在此場景下，如果選擇距離最小（相似度最大）的近鄰，那么使用余弦相似度和歐式距離的結(jié)果是相同的

什么時(shí)候用余弦距離，什么時(shí)候用歐式距離
總體來說，歐式距離體現(xiàn)在數(shù)值上的絕對差異，而余弦距離體現(xiàn)在方向上的相對差異

1）例如，統(tǒng)計(jì)兩部劇的用戶觀看行為，用戶A的觀看向量為（0，1），用戶B為（1，0）；此時(shí)二者的余弦距離很大，而歐式距離很小；我們分析兩個(gè)用戶對不同視頻的偏好，更關(guān)注相對差異，顯然應(yīng)當(dāng)使用余弦距離
2）而當(dāng)我們分析用戶活躍度，以登陸次數(shù)和平均觀看時(shí)長作為特征時(shí)，余弦距離會認(rèn)為（1，10）、（10，100）兩個(gè)用戶距離很近；但顯然這兩個(gè)用戶活躍度是有著極大差異的，此時(shí)我們更關(guān)注數(shù)值絕對差異，應(yīng)當(dāng)使用歐式距離

在日常使用中需要注意區(qū)分，余弦距離雖然不是一個(gè)嚴(yán)格意義上的距離度量公式，但是形容兩個(gè)特征向量之間的關(guān)系還是有很大用處的。比如人臉識別，推薦系統(tǒng)等

One-hot的作用是什么？為什么不直接使用數(shù)字作為表示？

One-hot主要用來編碼類別特征，即采用啞變量對類別進(jìn)行編碼。它的作用是避免因類別用數(shù)字作為表示而給函數(shù)帶來抖動

直接使用數(shù)字會給將人工誤差而導(dǎo)致的假設(shè)引入到類別特征中，比如類別之間的大小關(guān)系，以及差異關(guān)系等等

One-hot編碼，又稱為一位有效編碼，主要是采用N位狀態(tài)寄存器來對N個(gè)狀態(tài)進(jìn)行編碼，每個(gè)狀態(tài)都由他獨(dú)立的寄存器位，并且在任意時(shí)候只有一位有效

在實(shí)際的機(jī)器學(xué)習(xí)的應(yīng)用任務(wù)中，特征有時(shí)候并不總是連續(xù)值，有可能是一些分類值，如性別可分為“ male ”和“ female ”。在機(jī)器學(xué)習(xí)任務(wù)中，對于這樣的特征，通常我們需要對其進(jìn)行特征數(shù)字化，如下面的例子：

有如下三個(gè)特征屬性：
性別：[“male”，“female”]
地區(qū)：[“Europe”，“US”，“Asia”]
瀏覽器：[“Firefox”，“Chrome”，“Safari”，“Internet Explorer”]

對于某一個(gè)樣本，如[“male”，“US”，“Internet Explorer”]，我們需要將這個(gè)分類值的特征數(shù)字化，最直接的方法，我們可以采用序列化的方式：[0,1,3]。但是這樣的特征處理并不能直接放入機(jī)器學(xué)習(xí)算法中。

One-Hot Encoding的處理方法

對于上述的問題，性別的屬性是二維的，同理，地區(qū)是三維的，瀏覽器則是四維的，這樣，我們可以采用One-Hot編碼的方式對上述的樣本“[“male”，“US”，“Internet Explorer”]”編碼，“male”則對應(yīng)著[1，0]，同理“US”對應(yīng)著[0，1，0]，“Internet Explorer”對應(yīng)著[0,0,0,1]。則完整的特征數(shù)字化的結(jié)果為：[1,0,0,1,0,0,0,0,1]。這樣導(dǎo)致的一個(gè)結(jié)果就是數(shù)據(jù)會變得非常的稀疏。

使用one-hot編碼，將離散特征的取值擴(kuò)展到了歐式空間，離散特征的某個(gè)取值就對應(yīng)歐式空間的某個(gè)點(diǎn)

將離散特征映射到歐式空間，是因?yàn)?#xff0c;在回歸、分類、聚類等機(jī)器學(xué)習(xí)算法中，特征之間距離的計(jì)算或者相似度的計(jì)算是非常重要的，而我們常用的距離或者相似度的計(jì)算都是在歐式空間的相似度計(jì)算，計(jì)算余弦相似性，基于的就是歐式空間

在模型評估過程中，過擬合和欠擬合具體指什么現(xiàn)象？

過擬合是指模型對于訓(xùn)練數(shù)據(jù)擬合呈過當(dāng)?shù)那闆r，反映到評估指標(biāo)上，就是模型在訓(xùn)練集上的表現(xiàn)好，但是在測試集和新數(shù)據(jù)上的表現(xiàn)較差

欠擬合是指模型在訓(xùn)練和預(yù)測時(shí)都表現(xiàn)不好。用模型在數(shù)據(jù)上的偏差和方差指標(biāo)來表示就是，欠擬合的時(shí)候，偏差和方差都比較大，而過擬合時(shí)，偏差較小但方差較大

過擬合和欠擬合是導(dǎo)致模型泛化能力不高的兩種常見原因，都是模型學(xué)習(xí)能力與數(shù)據(jù)復(fù)雜度之間失配的結(jié)果

降低過擬合和欠擬合的方法

欠擬合：
1.增加新特征，可以考慮加入特征組合、高次特征，來增大假設(shè)空間
2.添加多項(xiàng)式特征，這個(gè)在機(jī)器學(xué)習(xí)算法中用的很普遍，例如將線性模型通過添加二次項(xiàng)或者三次項(xiàng)使模型泛化能力更強(qiáng)
3.減少正則化參數(shù)，正則化的目的是用來防止過擬合的，但是模型出現(xiàn)了欠擬合，則需要減少正則化參數(shù)
4.使用非線性模型，比如核SVM 、決策樹、深度學(xué)習(xí)等模型
5.調(diào)整模型的容量(capacity)，通俗地，模型的容量是指其擬合各種函數(shù)的能力
6.容量低的模型可能很難擬合訓(xùn)練集；使用集成學(xué)習(xí)方法，如Bagging ,將多個(gè)弱學(xué)習(xí)器Bagging

過擬合：
1.正則化（Regularization）（L1和L2）
2.數(shù)據(jù)擴(kuò)增，即增加訓(xùn)練數(shù)據(jù)樣本
3.Dropout
4.Early stopping

總結(jié)

以上是生活随笔為你收集整理的AI人工智能的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：减肥期间可以喝白酒吗
下一篇： ai进入轮廓模式怎么退出_详解AI中扩展

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

AI人工智能

深度學(xué)習(xí)

學(xué)習(xí)機(jī)器學(xué)習(xí)

總結(jié)