(六)数据精简之(数据记录精简)
數(shù)據(jù)精簡之數(shù)據(jù)記錄精簡方法
1.數(shù)據(jù)記錄精簡的需求
? 隨著數(shù)據(jù)表中的數(shù)據(jù)記錄愈來愈多,有兩個問題會浮現(xiàn)出來
? 整個數(shù)據(jù)挖掘所需的時間將跟著拉長
? 所有統(tǒng)計的方法通通失效
2.數(shù)據(jù)記錄精簡對所獲得的知識影響
? 求得之知識可能多少有些誤差
? 然而當(dāng)數(shù)據(jù)集合中存在無關(guān)、偏差的數(shù)據(jù)記錄時,將數(shù)據(jù)記錄作適當(dāng)?shù)木啠瑢⒛塬@得更準(zhǔn)確有效的知識
3.數(shù)據(jù)記錄精簡常用方法
(1)統(tǒng)計方法中抽樣(Sampling)的作法
? 數(shù)據(jù)集合中抽取部分的數(shù)據(jù)記錄樣本來代表整個數(shù)據(jù)集合母體
? 隨機(jī)抽樣(Random Sampling):有放回,無放回。
? 分層抽樣(Stratified Sampling):針對數(shù)據(jù)集合中同構(gòu)型高且互不重迭的分層,各自進(jìn)行隨機(jī)抽樣。將各分層的抽樣結(jié)果結(jié)合成一個樣本。
? 聚類抽樣(Cluster Sampling):利用聚類技術(shù),將整個數(shù)據(jù)集合分成數(shù)個群集,使得每個群集中的記錄相似度很高,不同群集間的記錄相似度很低隨機(jī)由這些群集中選取數(shù)個群集形成樣本。
? 系統(tǒng)抽樣(Systematic Sampling):假設(shè)數(shù)據(jù)集合中的數(shù)據(jù)記錄筆數(shù)為N,而所需之樣本數(shù)據(jù)記錄筆數(shù)為n,則系統(tǒng)抽樣的方式首先隨機(jī)由1~N/n之間選取一個數(shù)字;假設(shè)所選取的數(shù)字為k,以k開始,每N/n個間隔 (interval),將相對應(yīng)的數(shù)據(jù)記錄選取進(jìn)樣本之中。
? 兩階段式抽樣(Two-Phase Sampling)
進(jìn)行兩個階段的抽樣選取以決定樣本
? 第一階段首先由數(shù)據(jù)集合中隨機(jī)抽樣出一個較大的樣本,接著將第一階段中所得到的樣本當(dāng)成數(shù)據(jù)集合,進(jìn)行第二階段的抽樣
? 兩階段式抽樣可以延伸成多階段式抽樣(Multi-Phase Sampling)
總結(jié)
以上是生活随笔為你收集整理的(六)数据精简之(数据记录精简)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于交友的名言警句大全242个
- 下一篇: 生日倒计时