日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据的规范化,归一化,标准化,正则化

發(fā)布時間:2025/7/25 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据的规范化,归一化,标准化,正则化 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
原文地址:數(shù)據(jù)的規(guī)范化,歸一化,標準化,正則化作者:打濕井蓋

? ??數(shù)據(jù)的規(guī)范化,歸一化,標準化,正則化,這幾個破詞整得我頭暈,首先這些詞就沒規(guī)范好,對數(shù)據(jù)做實驗更暈,網(wǎng)上狂搜一陣后,發(fā)現(xiàn)數(shù)據(jù)歸一化,標準化,正則化,還是有差別

數(shù)據(jù)規(guī)范化

??一種是針對數(shù)據(jù)庫的解釋?

??規(guī)范化理論把關系應滿足的規(guī)范要求分為幾級,滿足最低要求的一級叫做第一范式(1NF),在第一范式的基礎上提出了第二范式(2NF),在第二范式的基礎上又提出了第三范式(3NF),以后又提出了BCNF范式,4NF,5NF。范式的等級越高,應滿足的約束集條件也越嚴格。

? ? ???另一種是就是對數(shù)據(jù)而言,一直想把數(shù)據(jù)的規(guī)范化的概念與歸一化,標準化,正則化區(qū)分清楚。糾結一陣后個人認為,數(shù)據(jù)的規(guī)范化包含了歸一化,標準化,正則化,是一個統(tǒng)稱(也有人把標準化做為統(tǒng)稱,)。針對不同的問題作用也不同。


1 數(shù)據(jù)規(guī)范化

? ? 數(shù)據(jù)規(guī)范化是數(shù)據(jù)挖掘中數(shù)據(jù)變換的一種方式,數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。而數(shù)據(jù)規(guī)范化是指將被挖掘?qū)ο蟮膶傩詳?shù)據(jù)按比例縮放,使其落入一個小的特定區(qū)間(如[-1,1]或[0,1])。

? ?對屬性值進行規(guī)范化常用于涉及神經(jīng)網(wǎng)絡或距離度量的分類算法和聚類算法中。比如使用神經(jīng)網(wǎng)絡向后傳播算法進行分類挖掘時,對訓練元組中度量每個屬性的輸入值進行規(guī)范化有助于加快學習階段的速度。對于基于距離度量相異度的方法,數(shù)據(jù)規(guī)范化可以讓所有的屬性具有相同的權重。

???數(shù)據(jù)規(guī)范化的常用方法有三種:按小數(shù)定標規(guī)范化、最小-最大值規(guī)范化和z-score規(guī)范化。

(1) 最小-最大規(guī)范化對原始數(shù)據(jù)進行線性變換。
zi=xi-xmin/xmax-xmin
其中:zi為指標的標準分數(shù),xi為某鎮(zhèn)某指標的指標值,xmax為全部鎮(zhèn)中某指標的最大值,xmin為全部鎮(zhèn)中某指標的最小

(2) z-score規(guī)范化也稱零-均值規(guī)范化。屬性A的值是基于A的平均值與標準差規(guī)范化。

公式為:(x-mean(x))/std(x)
(3) 小數(shù)定標規(guī)范化

通過移動屬性值的小數(shù)點位置進行規(guī)范化,通俗的說就是將屬性值除以10的j次冪。

?如j=3,-986規(guī)范化后為-0.986,而917被規(guī)范化為0.917。達到了將屬性值縮到小的特定區(qū)間[-1,1]的目標。


2 歸一化Normalization


把數(shù)變?yōu)?#xff08;0,1)之間的小數(shù)
主要是為了數(shù)據(jù)處理方便提出來的,把數(shù)據(jù)映射到0~1范圍之內(nèi)處理,更加便捷快速,應該歸到數(shù)字信號處理范疇之內(nèi)。

一般方法是最小-最大規(guī)范的方法:??(x-min(x))/(max(x)-min(x)),


3 標準化(Standardization

數(shù)據(jù)的標準化是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間,標準化后的數(shù)據(jù)可正可負,但是一般絕對值不會太大。一般是z-score規(guī)范化方法:(x-mean(x))/std(x)

?

4 正則化(Regularization

在求解最優(yōu)化問題中,調(diào)節(jié)擬合程度的,參數(shù)一般稱為正則項,越大表明欠擬合,越小表明過擬合,推薦中主要用在矩陣分

李航博士在《統(tǒng)計學習方法》中提到,統(tǒng)計學習的三要素是模型、策略和算法,在機器學習領域,這個“模型”就是我們要求解的概率分布或決策函數(shù)。

假設我們現(xiàn)在要求一個邏輯回歸問題,首先我們要做的是假設一個函數(shù),可以覆蓋所有的可能:y=wx,其中w為參數(shù)向量,x為已知樣本的向量,如果用yi表示第i個樣本的真實值,用f(xi)表示樣本的預測值,那么我們的損失函數(shù)可以定義為:

?

L(yi,f(xi))=yi?sigmoid(xi)

?

這里可以不用關心這個函數(shù)是什么意思,就知道代表誤差就行了。對于該模型y=wx的所有樣本的損失平均值成為“經(jīng)驗風險”(empiricalrisk)或”經(jīng)驗損失”(empirical loss)。很顯然,經(jīng)驗風險最小化(empirical riskminimization,ERM)就是求解最優(yōu)模型的原則。為了達到這個目的,模型的設定會越來越復雜,最后造成該模型只適用于當前的樣本集(即over-fitting,過擬合)。

為了解決過擬合問題,通常有兩種辦法,第一是減少樣本的特征(即維度),第二就是我們這里要說的”正則化“(又稱為”懲罰“,penalty)。正則化的一般形式是在整個平均損失函數(shù)后增加一個正則項(L2范數(shù)正則化,也有其他形式的正則化,他們的作用也不同):



A=1N(iNL(yi,f(xi))+inλw2i)

?

后面的

inλw2i

就是正則化項,其中λ越大表明懲罰粒度越大,等于0表示不做懲罰,N表示所有樣本的數(shù)量,n表示參數(shù)的個數(shù)。

從下面的圖中,可以很明顯的看出正則化函數(shù)的作用:

λ=0λ=0的情況,即沒有正則化

λ=1λ=1的情況,即合適的懲罰

λ=100λ=100過度懲罰,出現(xiàn)欠擬合問題

總結

以上是生活随笔為你收集整理的数据的规范化,归一化,标准化,正则化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。