数据的规范化,归一化,标准化,正则化
? ??數(shù)據(jù)的規(guī)范化,歸一化,標準化,正則化,這幾個破詞整得我頭暈,首先這些詞就沒規(guī)范好,對數(shù)據(jù)做實驗更暈,網(wǎng)上狂搜一陣后,發(fā)現(xiàn)數(shù)據(jù)歸一化,標準化,正則化,還是有差別
數(shù)據(jù)規(guī)范化
??一種是針對數(shù)據(jù)庫的解釋?
??規(guī)范化理論把關系應滿足的規(guī)范要求分為幾級,滿足最低要求的一級叫做第一范式(1NF),在第一范式的基礎上提出了第二范式(2NF),在第二范式的基礎上又提出了第三范式(3NF),以后又提出了BCNF范式,4NF,5NF。范式的等級越高,應滿足的約束集條件也越嚴格。
? ? ???另一種是就是對數(shù)據(jù)而言,一直想把數(shù)據(jù)的規(guī)范化的概念與歸一化,標準化,正則化區(qū)分清楚。糾結一陣后個人認為,數(shù)據(jù)的規(guī)范化包含了歸一化,標準化,正則化,是一個統(tǒng)稱(也有人把標準化做為統(tǒng)稱,)。針對不同的問題作用也不同。
1 數(shù)據(jù)規(guī)范化
? ? 數(shù)據(jù)規(guī)范化是數(shù)據(jù)挖掘中數(shù)據(jù)變換的一種方式,數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。而數(shù)據(jù)規(guī)范化是指將被挖掘?qū)ο蟮膶傩詳?shù)據(jù)按比例縮放,使其落入一個小的特定區(qū)間(如[-1,1]或[0,1])。
? ?對屬性值進行規(guī)范化常用于涉及神經(jīng)網(wǎng)絡或距離度量的分類算法和聚類算法中。比如使用神經(jīng)網(wǎng)絡向后傳播算法進行分類挖掘時,對訓練元組中度量每個屬性的輸入值進行規(guī)范化有助于加快學習階段的速度。對于基于距離度量相異度的方法,數(shù)據(jù)規(guī)范化可以讓所有的屬性具有相同的權重。
???數(shù)據(jù)規(guī)范化的常用方法有三種:按小數(shù)定標規(guī)范化、最小-最大值規(guī)范化和z-score規(guī)范化。
(1) 最小-最大規(guī)范化對原始數(shù)據(jù)進行線性變換。
zi=xi-xmin/xmax-xmin
其中:zi為指標的標準分數(shù),xi為某鎮(zhèn)某指標的指標值,xmax為全部鎮(zhèn)中某指標的最大值,xmin為全部鎮(zhèn)中某指標的最小
(2) z-score規(guī)范化也稱零-均值規(guī)范化。屬性A的值是基于A的平均值與標準差規(guī)范化。
公式為:(x-mean(x))/std(x)
(3) 小數(shù)定標規(guī)范化
通過移動屬性值的小數(shù)點位置進行規(guī)范化,通俗的說就是將屬性值除以10的j次冪。
?如j=3,-986規(guī)范化后為-0.986,而917被規(guī)范化為0.917。達到了將屬性值縮到小的特定區(qū)間[-1,1]的目標。
2 歸一化(Normalization)
把數(shù)變?yōu)?#xff08;0,1)之間的小數(shù)
主要是為了數(shù)據(jù)處理方便提出來的,把數(shù)據(jù)映射到0~1范圍之內(nèi)處理,更加便捷快速,應該歸到數(shù)字信號處理范疇之內(nèi)。
一般方法是最小-最大規(guī)范的方法:??(x-min(x))/(max(x)-min(x)),
3 標準化(Standardization)
數(shù)據(jù)的標準化是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,標準化后的數(shù)據(jù)可正可負,但是一般絕對值不會太大。一般是z-score規(guī)范化方法:(x-mean(x))/std(x)
?
4 正則化(Regularization)
在求解最優(yōu)化問題中,調(diào)節(jié)擬合程度的,參數(shù)一般稱為正則項,越大表明欠擬合,越小表明過擬合,推薦中主要用在矩陣分
李航博士在《統(tǒng)計學習方法》中提到,統(tǒng)計學習的三要素是模型、策略和算法,在機器學習領域,這個“模型”就是我們要求解的概率分布或決策函數(shù)。
假設我們現(xiàn)在要求一個邏輯回歸問題,首先我們要做的是假設一個函數(shù),可以覆蓋所有的可能:y=wx,其中w為參數(shù)向量,x為已知樣本的向量,如果用yi表示第i個樣本的真實值,用f(xi)表示樣本的預測值,那么我們的損失函數(shù)可以定義為:
?
L(yi,f(xi))=yi?sigmoid(xi)?
這里可以不用關心這個函數(shù)是什么意思,就知道代表誤差就行了。對于該模型y=wx的所有樣本的損失平均值成為“經(jīng)驗風險”(empiricalrisk)或”經(jīng)驗損失”(empirical loss)。很顯然,經(jīng)驗風險最小化(empirical riskminimization,ERM)就是求解最優(yōu)模型的原則。為了達到這個目的,模型的設定會越來越復雜,最后造成該模型只適用于當前的樣本集(即over-fitting,過擬合)。
為了解決過擬合問題,通常有兩種辦法,第一是減少樣本的特征(即維度),第二就是我們這里要說的”正則化“(又稱為”懲罰“,penalty)。正則化的一般形式是在整個平均損失函數(shù)后增加一個正則項(L2范數(shù)正則化,也有其他形式的正則化,他們的作用也不同):
A=1N(∑iNL(yi,f(xi))+∑inλw2i)
?
后面的
∑inλw2i就是正則化項,其中λ越大表明懲罰粒度越大,等于0表示不做懲罰,N表示所有樣本的數(shù)量,n表示參數(shù)的個數(shù)。
從下面的圖中,可以很明顯的看出正則化函數(shù)的作用:
λ=0λ=0的情況,即沒有正則化
λ=1λ=1的情況,即合適的懲罰
λ=100,λ=100過度懲罰,出現(xiàn)欠擬合問題
總結
以上是生活随笔為你收集整理的数据的规范化,归一化,标准化,正则化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TensorFlow 自动文本摘要生成模
- 下一篇: InfluxDB 开源分布式时序、事件和