當前位置：首頁 > 编程语言 > python >内容正文

python

python组合数据分类_Python解决数据样本类别分布不均衡问题

發(fā)布時間：2024/7/23 python 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 python组合数据分类_Python解决数据样本类别分布不均衡问题小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

所謂不平衡指的是：不同類別的樣本數(shù)量差異非常大。

數(shù)據(jù)規(guī)模上可以分為大數(shù)據(jù)分布不均衡和小數(shù)據(jù)分布不均衡。大數(shù)據(jù)分布不均衡：例如擁有1000萬條記錄的數(shù)據(jù)集中，其中占比50萬條的少數(shù)分類樣本便于屬于這種情況。小數(shù)據(jù)分布不均衡：例如擁有1000條數(shù)據(jù)樣本的數(shù)據(jù)集中，其中占有10條的少數(shù)分類樣本便于屬于這種情況。

樣本類別分布不平衡主要出現(xiàn)在分類問題的建模上。導致樣本量少的分類所包含的特征過少，很難從中提取規(guī)律；即使得到分類模型，也容易產(chǎn)生過度依賴于有限的數(shù)據(jù)樣本而導致過擬合的問題，當模型應用到新的數(shù)據(jù)上，模型的準確性和魯棒性很差。

樣本分布不平衡主要在于不同類別間的樣本比例差異，超過10倍，就要考慮該問題，超過20倍，一定要解決。

1. 數(shù)據(jù)挖掘中容易出現(xiàn)樣本不均衡的場景

1. 異常檢測場景

比如惡意刷單、黃牛訂單、信用卡欺詐、電力竊電、設備故障等。這些數(shù)據(jù)樣本所占的比例通常是整體樣本中很少一部分，以信用卡欺詐為例，欺詐比例一般在 0.1% 以內(nèi)。

2. 客戶流失場景

大型企業(yè)流失的客戶相對于整體客戶通常是少量的。比如電信、石油等。

3. 低頻事件的發(fā)生

例如每年1次的雙11盛會一般都會產(chǎn)生較高的銷售額，但放到全年來看這一天的銷售額占比很可能只有1%不到，尤其對于很少參與活動的公司而言，這種情況更加明顯。這種屬于典型的低頻事件。

2. 解決樣本不均衡

1. 過抽樣和欠抽樣解決樣本不均衡

過抽樣

(也叫上采樣、over-sampling)即增加分類中少量樣本的數(shù)量，簡單方法就是復制少數(shù)類樣本形成多條記錄，缺點是樣本特征少導致過擬合。

改進的過抽樣：通過在少數(shù)類中加入隨機噪聲、干擾數(shù)據(jù)或通過一定規(guī)則產(chǎn)生新的合成樣本。如SMOTE算法(Synthetic Minority Oversampling Technique即合成少數(shù)類過采樣技術)。

欠抽樣

(也叫下采樣、under-sample)即減少分類中多數(shù)樣本的數(shù)量，簡單方法就是隨機去掉一些多數(shù)類樣本減小規(guī)模，缺點丟失多數(shù)類樣本中的重要信息。

總體上，過抽樣和欠抽樣更適合大數(shù)據(jù)分布不均衡的情況。

2. 正負樣本的懲罰權重解決樣本不均衡

思想：對不同樣本數(shù)量的類別賦予不同的權重(一般分類中的小樣本量類別權重高，大樣本量類別權重低)。

很多算法都有基于類別參數(shù)的調整設置，以 SVM 為例，在class_weight：{dict, 'balanced'}中針對不同類別手動指定不同的權重。適用默認方法balanced，SVM將權重設置為與不同類別樣本數(shù)量呈反比的權重來做自動均衡處理，計算公式：n_samples / (n_classes * np.bincount(y))。

3. 組合/集成方法解決樣本不均衡

思想：在每次生成訓練集時使用所有分類中的小樣本量，同時從分類中的大樣本量中隨機抽取數(shù)據(jù)來與小樣本量合并構成訓練集，這樣反復多次得到很多訓練集和訓練模型。最后使用組合方法(比如投票、加權投票等)產(chǎn)生分類預測結果。

例如：在數(shù)據(jù)集中的正、負的樣本分別為100和10000條，比例為1:100。此時可以將負樣本(類別中的大量樣本集)隨機分為100份(當然也可以分更多)，每份100條數(shù)據(jù)；然后每次形成訓練集時使用所有的正樣本(100條)和隨機抽取的負樣本(100條)形成新的數(shù)據(jù)集。如此反復可以得到100個訓練集和對應的訓練模型。

來自：《Python數(shù)據(jù)分析與數(shù)據(jù)化運營》

總結

以上是生活随笔為你收集整理的python组合数据分类_Python解决数据样本类别分布不均衡问题的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：用python控制键盘_【python黑
下一篇： python语言打印菱形_Python

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python组合数据分类_Python解决数据样本类别分布不均衡问题

總結