数据预处理(part2)--多个预测变量数据变换
學(xué)習(xí)筆記,僅供參考,有錯(cuò)必糾
文章目錄
- 多個(gè)預(yù)測(cè)變量數(shù)據(jù)變換
- 離群值
- 數(shù)據(jù)降維和特征提取
多個(gè)預(yù)測(cè)變量數(shù)據(jù)變換
離群值
我們通常將離群值定義為遠(yuǎn)離數(shù)據(jù)主要部分的樣品。我們通常可以通過(guò)觀察圖像來(lái)確定一些不尋常的點(diǎn)。
當(dāng)一個(gè)或多個(gè)樣本為疑似離群值時(shí)。第一步,是保證這些數(shù)據(jù)在科學(xué)上是有效的(比如,理論上是正數(shù)),而且沒(méi)有數(shù)據(jù)輸人的錯(cuò)誤。要非常小心不要草率地移除或改變觀測(cè)值,尤其當(dāng)樣本量很小的時(shí)候,在小樣本量的情況下,明顯的離群可能因?yàn)?font color="blue">數(shù)據(jù)來(lái)自于一個(gè)有偏分布,而我們沒(méi)有足夠的數(shù)據(jù)觀測(cè)到這個(gè)偏度.此外,離群點(diǎn)可能代表一個(gè)特殊的子群體,而這個(gè)群體的樣本才剛開(kāi)始被采樣。
有一些預(yù)測(cè)模型對(duì)離群值具有抗性,因此,離群點(diǎn)通常不會(huì)對(duì)這些模型產(chǎn)生特別大的影響.
如果一個(gè)模型對(duì)離群點(diǎn)很敏感,一個(gè)能夠緩解該問(wèn)題的變換是空間表示變換,該變換將預(yù)測(cè)變量取值映射到高維的球上,它能將所有的樣本變換到離球心距離相等的球面上。
從數(shù)學(xué)上說(shuō),每個(gè)樣本都除以它們的平方模,
總結(jié)
以上是生活随笔為你收集整理的数据预处理(part2)--多个预测变量数据变换的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 关于带对字的网名72个
- 下一篇: 数据预处理(part3)--缺失值处理和