(六)数据精简之(数据记录精简)
數(shù)據(jù)精簡(jiǎn)之數(shù)據(jù)記錄精簡(jiǎn)方法
1.數(shù)據(jù)記錄精簡(jiǎn)的需求
? 隨著數(shù)據(jù)表中的數(shù)據(jù)記錄愈來(lái)愈多,有兩個(gè)問(wèn)題會(huì)浮現(xiàn)出來(lái)
? 整個(gè)數(shù)據(jù)挖掘所需的時(shí)間將跟著拉長(zhǎng)
? 所有統(tǒng)計(jì)的方法通通失效
2.數(shù)據(jù)記錄精簡(jiǎn)對(duì)所獲得的知識(shí)影響
? 求得之知識(shí)可能多少有些誤差
? 然而當(dāng)數(shù)據(jù)集合中存在無(wú)關(guān)、偏差的數(shù)據(jù)記錄時(shí),將數(shù)據(jù)記錄作適當(dāng)?shù)木?jiǎn),將能獲得更準(zhǔn)確有效的知識(shí)
3.數(shù)據(jù)記錄精簡(jiǎn)常用方法
(1)統(tǒng)計(jì)方法中抽樣(Sampling)的作法
? 數(shù)據(jù)集合中抽取部分的數(shù)據(jù)記錄樣本來(lái)代表整個(gè)數(shù)據(jù)集合母體
? 隨機(jī)抽樣(Random Sampling):有放回,無(wú)放回。
? 分層抽樣(Stratified Sampling):針對(duì)數(shù)據(jù)集合中同構(gòu)型高且互不重迭的分層,各自進(jìn)行隨機(jī)抽樣。將各分層的抽樣結(jié)果結(jié)合成一個(gè)樣本。
? 聚類抽樣(Cluster Sampling):利用聚類技術(shù),將整個(gè)數(shù)據(jù)集合分成數(shù)個(gè)群集,使得每個(gè)群集中的記錄相似度很高,不同群集間的記錄相似度很低隨機(jī)由這些群集中選取數(shù)個(gè)群集形成樣本。
? 系統(tǒng)抽樣(Systematic Sampling):假設(shè)數(shù)據(jù)集合中的數(shù)據(jù)記錄筆數(shù)為N,而所需之樣本數(shù)據(jù)記錄筆數(shù)為n,則系統(tǒng)抽樣的方式首先隨機(jī)由1~N/n之間選取一個(gè)數(shù)字;假設(shè)所選取的數(shù)字為k,以k開(kāi)始,每N/n個(gè)間隔 (interval),將相對(duì)應(yīng)的數(shù)據(jù)記錄選取進(jìn)樣本之中。
? 兩階段式抽樣(Two-Phase Sampling)
進(jìn)行兩個(gè)階段的抽樣選取以決定樣本
? 第一階段首先由數(shù)據(jù)集合中隨機(jī)抽樣出一個(gè)較大的樣本,接著將第一階段中所得到的樣本當(dāng)成數(shù)據(jù)集合,進(jìn)行第二階段的抽樣
? 兩階段式抽樣可以延伸成多階段式抽樣(Multi-Phase Sampling)
總結(jié)
以上是生活随笔為你收集整理的(六)数据精简之(数据记录精简)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 关于交友的名言警句大全242个
- 下一篇: 生日倒计时