数据偏斜的处理
轉自:http://wenku.baidu.com/link?url=g2guKl_TnsP-emCmc_eG7zSAhxMIeWzoPcLcygkJ6BDtOSz5zggDqIPLbIRZDCaXvoDZsC3BKsWrgf4u_gmfmwZzrEtRq3Pte3rZSUTrA0C
對于數據偏斜問題的處理主要分類兩大類:基于算法和基于數據,增強少數類別對算法的影響程度,提高算法對少數類別的敏感程度。
基于算法:
在算法中提高少數類別樣例的權重,對少數類別樣本錯誤分類的代價高于多數類別樣本的錯分。
基于數據:
兩種。一是過采樣,在數據集中增加少數類別樣例。二是下采樣,減少多數類別的樣本個數。
總結
- 上一篇: Java操作XML的工具:JAXB
- 下一篇: UE5神通--POI解决方案