03数据预处理
數(shù)據(jù)預(yù)處理
1.為什么數(shù)據(jù)預(yù)處理
2.數(shù)據(jù)為什么臟
3.為什么數(shù)據(jù)預(yù)處理是重要的
4.數(shù)據(jù)質(zhì)量
5.數(shù)據(jù)預(yù)處理的主要任務(wù)
6.數(shù)據(jù)預(yù)處理的形式
?
數(shù)據(jù)清理
1.如何處理缺失數(shù)據(jù)
2.如何處理噪音數(shù)據(jù)
?
數(shù)據(jù)集成
1.模式集成、沖突數(shù)據(jù)值、冗余數(shù)據(jù)
?
數(shù)據(jù)變換
規(guī)范化數(shù)據(jù)的方法 :最小-最大規(guī)范化、Z-score 規(guī)范化、小數(shù)定標(biāo)規(guī)范化
?
數(shù)據(jù)歸約
1.數(shù)據(jù)歸約策略
2.數(shù)據(jù)立方體聚集
3.數(shù)據(jù)壓縮
4.維度規(guī)約-特征選擇
5.唯獨規(guī)約-決策樹歸約
6.維度歸約=屬性/特征產(chǎn)生
7.主成分分析
6.回歸和對數(shù)線性模型
?
離散化和概念分層產(chǎn)生
?
?
?
?
?
?
?
?
?
?
?
# dataArr = []# lebalArr = []# line = open("data/horseColic.txt","r")# b = line.readlines()# for i in line:#? ? ? b = line.strip("\n").split("\t")#? ? ? dataArr.append(b.pop())#? ? ? lebalArr.append(b)# print(dataArr)# print(lebalArr)
轉(zhuǎn)載于:https://www.cnblogs.com/Firesun/p/10800888.html
總結(jié)
- 上一篇: 七猫小说怎么盈利(如何看待七猫中文网千字
- 下一篇: 算法试题 - 找出字符流中第一个不重复的