日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python组合数据分类_Python解决数据样本类别分布不均衡问题

發(fā)布時間:2024/7/23 python 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python组合数据分类_Python解决数据样本类别分布不均衡问题 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

所謂不平衡指的是:不同類別的樣本數(shù)量差異非常大。

數(shù)據(jù)規(guī)模上可以分為大數(shù)據(jù)分布不均衡和小數(shù)據(jù)分布不均衡。大數(shù)據(jù)分布不均衡:例如擁有1000萬條記錄的數(shù)據(jù)集中,其中占比50萬條的少數(shù)分類樣本便于屬于這種情況。小數(shù)據(jù)分布不均衡:例如擁有1000條數(shù)據(jù)樣本的數(shù)據(jù)集中,其中占有10條的少數(shù)分類樣本便于屬于這種情況。

樣本類別分布不平衡主要出現(xiàn)在分類問題的建模上。導(dǎo)致樣本量少的分類所包含的特征過少,很難從中提取規(guī)律;即使得到分類模型,也容易產(chǎn)生過度依賴于有限的數(shù)據(jù)樣本而導(dǎo)致過擬合的問題,當(dāng)模型應(yīng)用到新的數(shù)據(jù)上,模型的準(zhǔn)確性和魯棒性很差。

樣本分布不平衡主要在于不同類別間的樣本比例差異,超過10倍,就要考慮該問題,超過20倍,一定要解決。

1. 數(shù)據(jù)挖掘中容易出現(xiàn)樣本不均衡的場景

1. 異常檢測場景

比如惡意刷單、黃牛訂單、信用卡欺詐、電力竊電、設(shè)備故障等。這些數(shù)據(jù)樣本所占的比例通常是整體樣本中很少一部分,以信用卡欺詐為例,欺詐比例一般在 0.1% 以內(nèi)。

2. 客戶流失場景

大型企業(yè)流失的客戶相對于整體客戶通常是少量的。比如電信、石油等。

3. 低頻事件的發(fā)生

例如每年1次的雙11盛會一般都會產(chǎn)生較高的銷售額,但放到全年來看這一天的銷售額占比很可能只有1%不到,尤其對于很少參與活動的公司而言,這種情況更加明顯。這種屬于典型的低頻事件。

2. 解決樣本不均衡

1. 過抽樣和欠抽樣解決樣本不均衡

過抽樣

(也叫上采樣、over-sampling)即增加分類中少量樣本的數(shù)量,簡單方法就是復(fù)制少數(shù)類樣本形成多條記錄,缺點是樣本特征少導(dǎo)致過擬合。

改進(jìn)的過抽樣:通過在少數(shù)類中加入隨機噪聲、干擾數(shù)據(jù)或通過一定規(guī)則產(chǎn)生新的合成樣本。如SMOTE算法(Synthetic Minority Oversampling Technique即合成少數(shù)類過采樣技術(shù))。

欠抽樣

(也叫下采樣、under-sample)即減少分類中多數(shù)樣本的數(shù)量,簡單方法就是隨機去掉一些多數(shù)類樣本減小規(guī)模,缺點丟失多數(shù)類樣本中的重要信息。

總體上,過抽樣和欠抽樣更適合大數(shù)據(jù)分布不均衡的情況。

2. 正負(fù)樣本的懲罰權(quán)重解決樣本不均衡

思想:對不同樣本數(shù)量的類別賦予不同的權(quán)重(一般分類中的小樣本量類別權(quán)重高,大樣本量類別權(quán)重低)。

很多算法都有基于類別參數(shù)的調(diào)整設(shè)置,以 SVM 為例,在class_weight:{dict, 'balanced'}中針對不同類別手動指定不同的權(quán)重。適用默認(rèn)方法balanced,SVM將權(quán)重設(shè)置為與不同類別樣本數(shù)量呈反比的權(quán)重來做自動均衡處理,計算公式:n_samples / (n_classes * np.bincount(y))。

3. 組合/集成方法解決樣本不均衡

思想:在每次生成訓(xùn)練集時使用所有分類中的小樣本量,同時從分類中的大樣本量中隨機抽取數(shù)據(jù)來與小樣本量合并構(gòu)成訓(xùn)練集,這樣反復(fù)多次得到很多訓(xùn)練集和訓(xùn)練模型。最后使用組合方法(比如投票、加權(quán)投票等)產(chǎn)生分類預(yù)測結(jié)果。

例如: 在數(shù)據(jù)集中的正、負(fù)的樣本分別為100和10000條,比例為1:100。此時可以將負(fù)樣本(類別中的大量樣本集)隨機分為100份(當(dāng)然也可以分更多),每份100條數(shù)據(jù);然后每次形成訓(xùn)練集時使用所有的正樣本(100條)和隨機抽取的負(fù)樣本(100條)形成新的數(shù)據(jù)集。如此反復(fù)可以得到100個訓(xùn)練集和對應(yīng)的訓(xùn)練模型。

來自:《Python數(shù)據(jù)分析與數(shù)據(jù)化運營》

總結(jié)

以上是生活随笔為你收集整理的python组合数据分类_Python解决数据样本类别分布不均衡问题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。