AI人工智能
1,為什么要對特征做歸一化?
2,什么是組合特征?如何處理高維組合特征?
3,請比較歐式距離與曼哈頓距離?
4,為什么一些場景中使用余弦相似度而不是歐式距離?
5,One-hot的作用是什么?為什么不直接使用數(shù)字作為表示?
6,在模型評估過程中,過擬合和欠擬合具體指什么現(xiàn)象?
7,降低過擬合和欠擬合的方法?
深度學(xué)習(xí)
數(shù)據(jù)預(yù)處理中的重要技術(shù)–特征歸一化
數(shù)據(jù)預(yù)處理:
深度學(xué)習(xí)中的數(shù)據(jù)預(yù)處理有哪些方式
1.數(shù)據(jù)歸一化:包括高斯歸一化、最大最小值歸一化等
2.白化:許多深度學(xué)習(xí)算法都依賴于白化來獲得更好的特征。所謂的白化,以PCA白化來說,就是對PCA降維后的數(shù)據(jù)的每一列除以其特征值的根號
為什么需要對于數(shù)據(jù)進(jìn)行歸一化處理,歸一化的方式有哪些
1.為了后面處理數(shù)據(jù)方便,歸一化可以避免一些不必要的數(shù)值問題
2.為了程序運(yùn)行時(shí)收斂加快
3.同一量綱。樣本數(shù)據(jù)的評價(jià)標(biāo)準(zhǔn)不一樣,需要對其量綱化,統(tǒng)一評價(jià)標(biāo)準(zhǔn)。這算是應(yīng)用層面的需求
4.避免神經(jīng)元飽和。就是當(dāng)神經(jīng)元的激活在接近0或者1時(shí)會飽和,在這些區(qū)域,梯度幾乎為0,這樣,在反向傳播過程中,局部梯度就會接近0,這會有效地"殺死"梯度
5.保證輸出數(shù)據(jù)中數(shù)值小的不被吞食
歸一化的方式主要有:線性歸一化、標(biāo)準(zhǔn)差歸一化、非線性歸一化
什么是特征歸一化
數(shù)據(jù)的標(biāo)準(zhǔn)化是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。在某些比較和評價(jià)的指標(biāo)處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán)
其中最典型的就是數(shù)據(jù)的歸一化處理,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上
為什么要進(jìn)行特征歸一化
1.對數(shù)值類型的特征做歸一化可以將所有的特征都統(tǒng)一到一個(gè)大致相同的數(shù)值區(qū)間內(nèi)
2.從經(jīng)驗(yàn)上說,歸一化是讓不同維度之間的特征在數(shù)值上有一定比較性,可以大大提高分類的準(zhǔn)確性
學(xué)習(xí)機(jī)器學(xué)習(xí)
什么是組合特征?如何處理高維組合特征
狹義的組合特征即將類別特征兩個(gè)或者多個(gè)特征組合(數(shù)學(xué)里面的組合概念)起來,構(gòu)成高階組合特征
為了提高復(fù)雜關(guān)系的擬合能力,在特征工程中經(jīng)常會把一屆離散特征兩兩組合,構(gòu)成高階組合特征
可以使用降維的方法處理高維組合特征:
矩陣分解、特征篩選:
特征降維其實(shí)從大的方面講有兩條路可走:
基于原有的特征進(jìn)行降維
基于原有的特征進(jìn)行篩選
歐式距離和曼哈頓距離的比較
歐式距離:歐幾里得度量是一個(gè)通常采用的距離定義,指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離
意義:歐式距離越小,兩個(gè)向量的相似度越大;歐式距離越大,兩個(gè)向量的相似度越小
缺點(diǎn):對異常數(shù)據(jù)敏感
歐式距離將向量各個(gè)維度之間的差異等同對待,(實(shí)際情況中,樣本的不同屬性重要程度往往不同)
優(yōu)點(diǎn):計(jì)算速度快
曼哈頓距離:歐式距離有一個(gè)局限是度量兩點(diǎn)之間的直線距離。但實(shí)際上,在現(xiàn)實(shí)世界中,我們從原點(diǎn)到目標(biāo)點(diǎn),往往直走是不能到達(dá)的。曼哈頓距離加入了一些這方面的考慮
意義:曼哈頓距離也稱為城市街區(qū)距離。可以看出在曼哈頓距離中,考慮了更多的實(shí)際因素。總之,在曼哈頓距離的世界中,規(guī)則是我們只能沿著線畫出的格子行進(jìn)
缺點(diǎn):對異常值敏感
曼哈頓距離將向量各個(gè)維度之間的差異等同對待
優(yōu)點(diǎn):計(jì)算速度快
歐氏距離和曼哈頓距離的區(qū)別在于:它們對向量之間差異的計(jì)算過程中,各個(gè)維度差異的權(quán)值不同。向量各個(gè)屬性之間的差距越大,則曼哈頓距離越接近歐式距離
余弦距離
余弦相似度,就是計(jì)算兩個(gè)向量間夾角的余弦值
余弦距離就是用1減去這個(gè)獲得的余弦相似度
由上面余弦距離可知,余弦距離的取值范圍為[0,2],滿足了非負(fù)性的性質(zhì)
當(dāng)向量的模長是經(jīng)過歸一化的,此時(shí)歐式距離與余弦距離有著單調(diào)的關(guān)系
在此場景下,如果選擇距離最小(相似度最大)的近鄰,那么使用余弦相似度和歐式距離的結(jié)果是相同的
什么時(shí)候用余弦距離,什么時(shí)候用歐式距離
總體來說,歐式距離體現(xiàn)在數(shù)值上的絕對差異,而余弦距離體現(xiàn)在方向上的相對差異
1)例如,統(tǒng)計(jì)兩部劇的用戶觀看行為,用戶A的觀看向量為(0,1),用戶B為(1,0);此時(shí)二者的余弦距離很大,而歐式距離很小;我們分析兩個(gè)用戶對不同視頻的偏好,更關(guān)注相對差異,顯然應(yīng)當(dāng)使用余弦距離
2)而當(dāng)我們分析用戶活躍度,以登陸次數(shù)和平均觀看時(shí)長作為特征時(shí),余弦距離會認(rèn)為(1,10)、(10,100)兩個(gè)用戶距離很近;但顯然這兩個(gè)用戶活躍度是有著極大差異的,此時(shí)我們更關(guān)注數(shù)值絕對差異,應(yīng)當(dāng)使用歐式距離
在日常使用中需要注意區(qū)分,余弦距離雖然不是一個(gè)嚴(yán)格意義上的距離度量公式,但是形容兩個(gè)特征向量之間的關(guān)系還是有很大用處的。比如人臉識別,推薦系統(tǒng)等
One-hot的作用是什么?為什么不直接使用數(shù)字作為表示?
One-hot主要用來編碼類別特征,即采用啞變量對類別進(jìn)行編碼。它的作用是避免因類別用數(shù)字作為表示而給函數(shù)帶來抖動
直接使用數(shù)字會給將人工誤差而導(dǎo)致的假設(shè)引入到類別特征中,比如類別之間的大小關(guān)系,以及差異關(guān)系等等
One-hot編碼,又稱為一位有效編碼,主要是采用N位狀態(tài)寄存器來對N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都由他獨(dú)立的寄存器位,并且在任意時(shí)候只有一位有效
在實(shí)際的機(jī)器學(xué)習(xí)的應(yīng)用任務(wù)中,特征有時(shí)候并不總是連續(xù)值,有可能是一些分類值,如性別可分為“ male ”和“ female ”。在機(jī)器學(xué)習(xí)任務(wù)中,對于這樣的特征,通常我們需要對其進(jìn)行特征數(shù)字化,如下面的例子:
有如下三個(gè)特征屬性:
性別:[“male”,“female”]
地區(qū):[“Europe”,“US”,“Asia”]
瀏覽器:[“Firefox”,“Chrome”,“Safari”,“Internet Explorer”]
對于某一個(gè)樣本,如[“male”,“US”,“Internet Explorer”],我們需要將這個(gè)分類值的特征數(shù)字化,最直接的方法,我們可以采用序列化的方式:[0,1,3]。但是這樣的特征處理并不能直接放入機(jī)器學(xué)習(xí)算法中。
One-Hot Encoding的處理方法
對于上述的問題,性別的屬性是二維的,同理,地區(qū)是三維的,瀏覽器則是四維的,這樣,我們可以采用One-Hot編碼的方式對上述的樣本“[“male”,“US”,“Internet Explorer”]”編碼,“male”則對應(yīng)著[1,0],同理“US”對應(yīng)著[0,1,0],“Internet Explorer”對應(yīng)著[0,0,0,1]。則完整的特征數(shù)字化的結(jié)果為:[1,0,0,1,0,0,0,0,1]。這樣導(dǎo)致的一個(gè)結(jié)果就是數(shù)據(jù)會變得非常的稀疏。
使用one-hot編碼,將離散特征的取值擴(kuò)展到了歐式空間,離散特征的某個(gè)取值就對應(yīng)歐式空間的某個(gè)點(diǎn)
將離散特征映射到歐式空間,是因?yàn)?#xff0c;在回歸、分類、聚類等機(jī)器學(xué)習(xí)算法中,特征之間距離的計(jì)算或者相似度的計(jì)算是非常重要的,而我們常用的距離或者相似度的計(jì)算都是在歐式空間的相似度計(jì)算,計(jì)算余弦相似性,基于的就是歐式空間
在模型評估過程中,過擬合和欠擬合具體指什么現(xiàn)象?
過擬合是指模型對于訓(xùn)練數(shù)據(jù)擬合呈過當(dāng)?shù)那闆r,反映到評估指標(biāo)上,就是模型在訓(xùn)練集上的表現(xiàn)好,但是在測試集和新數(shù)據(jù)上的表現(xiàn)較差
欠擬合是指模型在訓(xùn)練和預(yù)測時(shí)都表現(xiàn)不好。用模型在數(shù)據(jù)上的偏差和方差指標(biāo)來表示就是,欠擬合的時(shí)候,偏差和方差都比較大,而過擬合時(shí),偏差較小但方差較大
過擬合和欠擬合是導(dǎo)致模型泛化能力不高的兩種常見原因,都是模型學(xué)習(xí)能力與數(shù)據(jù)復(fù)雜度之間失配的結(jié)果
降低過擬合和欠擬合的方法
欠擬合:
1.增加新特征,可以考慮加入特征組合、高次特征,來增大假設(shè)空間
2.添加多項(xiàng)式特征,這個(gè)在機(jī)器學(xué)習(xí)算法中用的很普遍,例如將線性模型通過添加二次項(xiàng)或者三次項(xiàng)使模型泛化能力更強(qiáng)
3.減少正則化參數(shù),正則化的目的是用來防止過擬合的,但是模型出現(xiàn)了欠擬合,則需要減少正則化參數(shù)
4.使用非線性模型,比如核SVM 、決策樹、深度學(xué)習(xí)等模型
5.調(diào)整模型的容量(capacity),通俗地,模型的容量是指其擬合各種函數(shù)的能力
6.容量低的模型可能很難擬合訓(xùn)練集;使用集成學(xué)習(xí)方法,如Bagging ,將多個(gè)弱學(xué)習(xí)器Bagging
過擬合:
1.正則化(Regularization)(L1和L2)
2.數(shù)據(jù)擴(kuò)增,即增加訓(xùn)練數(shù)據(jù)樣本
3.Dropout
4.Early stopping
總結(jié)
- 上一篇: 减肥期间可以喝白酒吗
- 下一篇: ai进入轮廓模式怎么退出_详解AI中扩展