数据挖掘与数据抽样
??? 前段時(shí)間在做一個(gè)挖掘模型時(shí),模型的特征決定了選擇的數(shù)據(jù)是嚴(yán)重有偏的,怎樣在這樣的數(shù)據(jù)上進(jìn)行抽樣,得到能比較好地反映真實(shí)情況的數(shù)據(jù)樣本是很關(guān)鍵的。自己對(duì)統(tǒng)計(jì)學(xué)僅僅限于大學(xué)課程的學(xué)習(xí),很少做過(guò)實(shí)驗(yàn),在做數(shù)據(jù)預(yù)處理走了一些彎路。下面對(duì)數(shù)據(jù)挖掘中的抽樣發(fā)表一點(diǎn)淺見(jiàn)。謝謝苦瓜兄弟解答,希望和大家多多交流:)
??? 在數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理過(guò)程中,寬表數(shù)據(jù)往往是幾十萬(wàn),上百萬(wàn)級(jí)記錄的。要對(duì)所有數(shù)據(jù)進(jìn)行訓(xùn)練,時(shí)間上很難滿足要求,因此對(duì)數(shù)據(jù)進(jìn)行抽樣就很必要了,不同的數(shù)據(jù)抽樣方法對(duì)訓(xùn)練結(jié)果模型的精度有很大影響。可以考慮用一些數(shù)據(jù)瀏覽工具,統(tǒng)計(jì)工具對(duì)數(shù)據(jù)分布做一定的探索,在對(duì)數(shù)據(jù)做充分的了解后,再考慮采用合適的數(shù)據(jù)抽樣方法,抽取樣本數(shù)據(jù)進(jìn)行建模實(shí)驗(yàn)。對(duì)一般的模型,比如客戶細(xì)分,主要是數(shù)據(jù)的聚類,我在做抽樣時(shí)用了隨機(jī)抽樣,也可以考慮整群抽樣;而做離網(wǎng)預(yù)警模型或者金融欺詐預(yù)測(cè)模型時(shí),數(shù)據(jù)分布是嚴(yán)重有偏的,而且這種有偏數(shù)據(jù)對(duì)這類模型來(lái)說(shuō)恰恰是至關(guān)重要的。一般采用分層抽樣和過(guò)度抽樣結(jié)合有不錯(cuò)的效果,分層抽樣和過(guò)度抽樣的區(qū)別自己也不是很了解,現(xiàn)在只能是做個(gè)概述了。
??? 幾種常用的抽樣方法:
1.簡(jiǎn)單隨機(jī)抽樣(simple random sampling)
將所有調(diào)查總體編號(hào),再用抽簽法或隨機(jī)數(shù)字表隨機(jī)抽取部分觀察數(shù)據(jù)組成樣本。
優(yōu)點(diǎn):操作簡(jiǎn)單,均數(shù)、率及相應(yīng)的標(biāo)準(zhǔn)誤計(jì)算簡(jiǎn)單。
缺點(diǎn):總體較大時(shí),難以一一編號(hào)。
2.系統(tǒng)抽樣(systematic sampling)
又稱機(jī)械抽樣、等距抽樣,即先將總體的觀察單位按某一順序號(hào)分成n個(gè)部分,再?gòu)牡谝徊糠蛛S機(jī)抽取第k號(hào)觀察單位,依次用相等間距從每一部分各抽取一個(gè)觀察單位組成樣本。
優(yōu)點(diǎn):易于理解、簡(jiǎn)便易行。
缺點(diǎn):總體有周期或增減趨勢(shì)時(shí),易產(chǎn)生偏性。
3.整群抽樣(cluster sampling)
先將總體依照一種或幾種特征分為幾個(gè)子總體(類.群),每一個(gè)子總體稱為一層,然后從每一層中隨機(jī)抽取一個(gè)子樣本,將它們合在一起,即為總體的樣本,稱為分層樣本
優(yōu)點(diǎn):便于組織、節(jié)省經(jīng)費(fèi)。
缺點(diǎn):抽樣誤差大于單純隨機(jī)抽樣。
4.分層抽樣(stratified sampling)
將總體樣本按其屬性特征分成若干類型或?qū)?#xff0c;然后在類型或?qū)又须S機(jī)抽取樣本單位,合起來(lái)組成樣本。有按比例分配和最優(yōu)分配(過(guò)度抽樣是否就是最優(yōu)分配方法?)兩種方案。
特點(diǎn):由于通過(guò)劃類分層,增大了各類型中單位間的共同性,容易抽出具有代表性的調(diào)查樣本。該方法適用于總體情況復(fù)雜,各類別之間差異較大(比如金融客戶風(fēng)險(xiǎn)/非風(fēng)險(xiǎn)樣本的差異),類別較多的情況。
優(yōu)點(diǎn):樣本代表性好,抽樣誤差減少。
from:http://www.chinabi.net/blog/user1/105/archives/2006/1006.html
總結(jié)
- 上一篇: 文档被保存但是语音识别的数据丢失
- 下一篇: mathtype公式如何在word中对齐