當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据的规范化，归一化，标准化，正则化

發(fā)布時間：2025/7/25 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了数据的规范化，归一化，标准化，正则化小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

原文地址：數(shù)據(jù)的規(guī)范化，歸一化，標準化，正則化作者：打濕井蓋

? ??數(shù)據(jù)的規(guī)范化，歸一化，標準化，正則化，這幾個破詞整得我頭暈，首先這些詞就沒規(guī)范好，對數(shù)據(jù)做實驗更暈，網(wǎng)上狂搜一陣后，發(fā)現(xiàn)數(shù)據(jù)歸一化，標準化，正則化，還是有差別

數(shù)據(jù)規(guī)范化

??一種是針對數(shù)據(jù)庫的解釋?

??規(guī)范化理論把關系應滿足的規(guī)范要求分為幾級，滿足最低要求的一級叫做第一范式(1NF)，在第一范式的基礎上提出了第二范式(2NF)，在第二范式的基礎上又提出了第三范式(3NF)，以后又提出了BCNF范式，4NF，5NF。范式的等級越高，應滿足的約束集條件也越嚴格。

? ? ???另一種是就是對數(shù)據(jù)而言，一直想把數(shù)據(jù)的規(guī)范化的概念與歸一化，標準化，正則化區(qū)分清楚。糾結一陣后個人認為，數(shù)據(jù)的規(guī)范化包含了歸一化，標準化，正則化，是一個統(tǒng)稱（也有人把標準化做為統(tǒng)稱，）。針對不同的問題作用也不同。

１　數(shù)據(jù)規(guī)范化

? ? 數(shù)據(jù)規(guī)范化是數(shù)據(jù)挖掘中數(shù)據(jù)變換的一種方式，數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。而數(shù)據(jù)規(guī)范化是指將被挖掘?qū)ο蟮膶傩詳?shù)據(jù)按比例縮放，使其落入一個小的特定區(qū)間（如[-1,1]或[0,1]）。

? ?對屬性值進行規(guī)范化常用于涉及神經(jīng)網(wǎng)絡或距離度量的分類算法和聚類算法中。比如使用神經(jīng)網(wǎng)絡向后傳播算法進行分類挖掘時，對訓練元組中度量每個屬性的輸入值進行規(guī)范化有助于加快學習階段的速度。對于基于距離度量相異度的方法，數(shù)據(jù)規(guī)范化可以讓所有的屬性具有相同的權重。

???數(shù)據(jù)規(guī)范化的常用方法有三種：按小數(shù)定標規(guī)范化、最小-最大值規(guī)范化和z-score規(guī)范化。

(1) 最小-最大規(guī)范化對原始數(shù)據(jù)進行線性變換。
zi=xi-xmin/xmax-xmin
其中：zi為指標的標準分數(shù)，xi為某鎮(zhèn)某指標的指標值，xmax為全部鎮(zhèn)中某指標的最大值，xmin為全部鎮(zhèn)中某指標的最小

(2) z-score規(guī)范化也稱零-均值規(guī)范化。屬性A的值是基于A的平均值與標準差規(guī)范化。

公式為：(x-mean(x))/std(x)
(3) 小數(shù)定標規(guī)范化

通過移動屬性值的小數(shù)點位置進行規(guī)范化，通俗的說就是將屬性值除以10的j次冪。

?如j=3，-986規(guī)范化后為-0.986，而917被規(guī)范化為0.917。達到了將屬性值縮到小的特定區(qū)間[-1,1]的目標。

２　歸一化（Normalization）

把數(shù)變?yōu)?#xff08;0，1）之間的小數(shù)
主要是為了數(shù)據(jù)處理方便提出來的，把數(shù)據(jù)映射到0～1范圍之內(nèi)處理，更加便捷快速，應該歸到數(shù)字信號處理范疇之內(nèi)。

一般方法是最小-最大規(guī)范的方法：??(x-min(x))/(max(x)-min(x)),

３　標準化（Standardization）

數(shù)據(jù)的標準化是將數(shù)據(jù)按比例縮放，使之落入一個小的特定區(qū)間，標準化后的數(shù)據(jù)可正可負，但是一般絕對值不會太大。一般是z-score規(guī)范化方法：(x-mean(x))/std(x)

４　正則化（Regularization）

在求解最優(yōu)化問題中，調(diào)節(jié)擬合程度的，參數(shù)一般稱為正則項，越大表明欠擬合，越小表明過擬合，推薦中主要用在矩陣分

李航博士在《統(tǒng)計學習方法》中提到，統(tǒng)計學習的三要素是模型、策略和算法，在機器學習領域，這個“模型”就是我們要求解的概率分布或決策函數(shù)。

假設我們現(xiàn)在要求一個邏輯回歸問題，首先我們要做的是假設一個函數(shù)，可以覆蓋所有的可能：y=wx，其中w為參數(shù)向量，x為已知樣本的向量，如果用yi表示第i個樣本的真實值，用f(xi)表示樣本的預測值，那么我們的損失函數(shù)可以定義為:

L(yi,f(xi))=yi?sigmoid(xi)

這里可以不用關心這個函數(shù)是什么意思，就知道代表誤差就行了。對于該模型y=wx的所有樣本的損失平均值成為“經(jīng)驗風險”(empiricalrisk)或”經(jīng)驗損失”(empirical loss)。很顯然，經(jīng)驗風險最小化（empirical riskminimization,ERM）就是求解最優(yōu)模型的原則。為了達到這個目的，模型的設定會越來越復雜，最后造成該模型只適用于當前的樣本集（即over-fitting，過擬合）。

為了解決過擬合問題，通常有兩種辦法，第一是減少樣本的特征（即維度），第二就是我們這里要說的”正則化“（又稱為”懲罰“,penalty）。正則化的一般形式是在整個平均損失函數(shù)后增加一個正則項(L2范數(shù)正則化，也有其他形式的正則化，他們的作用也不同)：

A=1N(∑iNL(yi,f(xi))+∑inλw2i)

后面的

∑inλw2i

就是正則化項，其中λ越大表明懲罰粒度越大，等于0表示不做懲罰，N表示所有樣本的數(shù)量，n表示參數(shù)的個數(shù)。

從下面的圖中，可以很明顯的看出正則化函數(shù)的作用：

λ=0λ=0的情況，即沒有正則化

λ=1λ=1的情況，即合適的懲罰

λ=100，λ=100過度懲罰，出現(xiàn)欠擬合問題

總結

以上是生活随笔為你收集整理的数据的规范化，归一化，标准化，正则化的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： TensorFlow 自动文本摘要生成模
下一篇： InfluxDB 开源分布式时序、事件和

编程问答

数据的规范化，归一化，标准化，正则化

１ 數(shù)據(jù)規(guī)范化

２ 歸一化（Normalization）

３ 標準化（Standardization）

總結

１　數(shù)據(jù)規(guī)范化

２　歸一化（Normalization）

３　標準化（Standardization）