数据预处理(part3)--缺失值处理和区间化
生活随笔
收集整理的這篇文章主要介紹了
数据预处理(part3)--缺失值处理和区间化
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
學(xué)習(xí)筆記,僅供參考,有錯必糾
文章目錄
- 處理缺失值
- 移除預(yù)測變量
- 預(yù)測變量間的相關(guān)性
- 區(qū)間化預(yù)測變量
處理缺失值
在很多時候,某些預(yù)測變雖會在一些樣本上缺少觀測。這些缺失值可能是結(jié)構(gòu)性缺失,如一個男子的后代數(shù)目.
了解缺失值發(fā)生的原因是很重要的,首先,應(yīng)該調(diào)查數(shù)據(jù)缺失是否和結(jié)果變量有關(guān),這種情形被稱為"有信息量的缺失",因為缺失情況本身是結(jié)構(gòu)性的。
缺失數(shù)據(jù)不應(yīng)該和刪失數(shù)據(jù)相混淆,對于后者具體的觀測依是缺失了,但我們?nèi)灾酪恍┬畔ⅲ纾鲎獾驹诮r如果使用用戶持有碟片時長這一變量,如果客戶還未歸還影碟,那么我們就不知道確切的持有時間,但是我們知道該時間一定要比從該客戶租影片到現(xiàn)在的時間長。
與我們建立一些著眼于解釋和推斷的傳統(tǒng)統(tǒng)計模型時,會對刪失機(jī)制做出一此假設(shè),從而將刪失信息列入考慮范圍之內(nèi)。對于預(yù)測模型,更常見的是將這些數(shù)據(jù)當(dāng)作簡單缺失數(shù)據(jù)看待,或者將刪失處的取值當(dāng)作觀測數(shù)據(jù)。例如,當(dāng)一個樣本超過可檢測精度范圍時,可以將精度界限視為觀測
總結(jié)
以上是生活随笔為你收集整理的数据预处理(part3)--缺失值处理和区间化的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据预处理(part2)--多个预测变量
- 下一篇: 过拟合与模型调优(part1)--过拟合