當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘与数据抽样

發(fā)布時間：2025/3/15 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘与数据抽样小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

??? 前段時間在做一個挖掘模型時，模型的特征決定了選擇的數(shù)據(jù)是嚴(yán)重有偏的，怎樣在這樣的數(shù)據(jù)上進(jìn)行抽樣，得到能比較好地反映真實(shí)情況的數(shù)據(jù)樣本是很關(guān)鍵的。自己對統(tǒng)計(jì)學(xué)僅僅限于大學(xué)課程的學(xué)習(xí)，很少做過實(shí)驗(yàn)，在做數(shù)據(jù)預(yù)處理走了一些彎路。下面對數(shù)據(jù)挖掘中的抽樣發(fā)表一點(diǎn)淺見。謝謝苦瓜兄弟解答，希望和大家多多交流：）
??? 在數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理過程中，寬表數(shù)據(jù)往往是幾十萬，上百萬級記錄的。要對所有數(shù)據(jù)進(jìn)行訓(xùn)練，時間上很難滿足要求，因此對數(shù)據(jù)進(jìn)行抽樣就很必要了，不同的數(shù)據(jù)抽樣方法對訓(xùn)練結(jié)果模型的精度有很大影響?？梢钥紤]用一些數(shù)據(jù)瀏覽工具，統(tǒng)計(jì)工具對數(shù)據(jù)分布做一定的探索，在對數(shù)據(jù)做充分的了解后，再考慮采用合適的數(shù)據(jù)抽樣方法，抽取樣本數(shù)據(jù)進(jìn)行建模實(shí)驗(yàn)。對一般的模型，比如客戶細(xì)分，主要是數(shù)據(jù)的聚類，我在做抽樣時用了隨機(jī)抽樣，也可以考慮整群抽樣；而做離網(wǎng)預(yù)警模型或者金融欺詐預(yù)測模型時，數(shù)據(jù)分布是嚴(yán)重有偏的，而且這種有偏數(shù)據(jù)對這類模型來說恰恰是至關(guān)重要的。一般采用分層抽樣和過度抽樣結(jié)合有不錯的效果，分層抽樣和過度抽樣的區(qū)別自己也不是很了解，現(xiàn)在只能是做個概述了。
??? 幾種常用的抽樣方法：
1.簡單隨機(jī)抽樣（simple random sampling）
將所有調(diào)查總體編號，再用抽簽法或隨機(jī)數(shù)字表隨機(jī)抽取部分觀察數(shù)據(jù)組成樣本。
優(yōu)點(diǎn)：操作簡單，均數(shù)、率及相應(yīng)的標(biāo)準(zhǔn)誤計(jì)算簡單。
缺點(diǎn)：總體較大時，難以一一編號。
2.系統(tǒng)抽樣（systematic sampling）
又稱機(jī)械抽樣、等距抽樣，即先將總體的觀察單位按某一順序號分成n個部分，再從第一部分隨機(jī)抽取第k號觀察單位，依次用相等間距從每一部分各抽取一個觀察單位組成樣本。
優(yōu)點(diǎn)：易于理解、簡便易行。
缺點(diǎn)：總體有周期或增減趨勢時，易產(chǎn)生偏性。
3.整群抽樣(cluster sampling)
先將總體依照一種或幾種特征分為幾個子總體（類．群），每一個子總體稱為一層，然后從每一層中隨機(jī)抽取一個子樣本，將它們合在一起，即為總體的樣本，稱為分層樣本
優(yōu)點(diǎn)：便于組織、節(jié)省經(jīng)費(fèi)。
缺點(diǎn)：抽樣誤差大于單純隨機(jī)抽樣。
4.分層抽樣（stratified sampling）
將總體樣本按其屬性特征分成若干類型或?qū)?#xff0c;然后在類型或?qū)又须S機(jī)抽取樣本單位，合起來組成樣本。有按比例分配和最優(yōu)分配（過度抽樣是否就是最優(yōu)分配方法？）兩種方案。
特點(diǎn)：由于通過劃類分層，增大了各類型中單位間的共同性，容易抽出具有代表性的調(diào)查樣本。該方法適用于總體情況復(fù)雜，各類別之間差異較大（比如金融客戶風(fēng)險/非風(fēng)險樣本的差異），類別較多的情況。
優(yōu)點(diǎn)：樣本代表性好，抽樣誤差減少。

from:http://www.chinabi.net/blog/user1/105/archives/2006/1006.html

總結(jié)

以上是生活随笔為你收集整理的数据挖掘与数据抽样的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：文档被保存但是语音识别的数据丢失
下一篇： mathtype公式如何在word中对齐

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

数据挖掘与数据抽样

總結(jié)