【机器学习】小数据集怎么上分? 几行代码生成伪标签数据集
背景
偽標(biāo)簽(Pseudo-Labeling)的定義來(lái)自于半監(jiān)督學(xué)習(xí),其核心思想是通過借助無(wú)標(biāo)簽的數(shù)據(jù)來(lái)提升有監(jiān)督模型的性能。偽標(biāo)簽技術(shù)在許多場(chǎng)景中被驗(yàn)證了它的有效性,例如在kaggle競(jìng)賽Santander Customer Transaction Prediction中,冠軍方案就使用了這項(xiàng)技術(shù),并獲得了25,000刀的獎(jiǎng)金。
使用偽標(biāo)簽技術(shù)的基本步驟
1
使用有標(biāo)簽的數(shù)據(jù)訓(xùn)練模型;
2
使用第一步訓(xùn)練出來(lái)的模型對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)測(cè);
3
從第2步預(yù)測(cè)結(jié)果中選擇出置信度比較大的樣本,使用預(yù)測(cè)結(jié)果作為他們的標(biāo)簽(偽標(biāo)簽),這部分樣本就是偽標(biāo)簽數(shù)據(jù)集;
4
將偽標(biāo)簽數(shù)據(jù)集合并到訓(xùn)練集中,重新訓(xùn)練模型。
實(shí)際使用時(shí),以上4步有可能多次迭代進(jìn)行。
偽標(biāo)簽技術(shù)為什么能work? (個(gè)人想法)
1
偽標(biāo)簽技術(shù)常常用于數(shù)據(jù)量較小的場(chǎng)景,偽標(biāo)簽數(shù)據(jù)集增大了樣本量,雖然有可能帶來(lái)噪音,但是對(duì)于模型收斂是有幫助的;
2
偽標(biāo)簽的數(shù)據(jù)帶來(lái)了額外的正確信息, 模型對(duì)于不同類別之間的分界更加明確了。
偽標(biāo)簽技術(shù)適用場(chǎng)景(個(gè)人經(jīng)驗(yàn))
1
訓(xùn)練集數(shù)據(jù)量較小;
2
數(shù)據(jù)難度較小(例如baseline模型auc就能達(dá)到0.9以上)。
?
使用案例
我們的開源項(xiàng)目autox把自動(dòng)生成偽標(biāo)簽數(shù)據(jù)集的函數(shù)進(jìn)行了封裝, 方便大家使用,使用簡(jiǎn)單的幾行代碼就能構(gòu)造出偽標(biāo)簽數(shù)據(jù)集。
from autox.autox_competition.process_data import get_pseudo_label id_ = 'id' target = 'target' used_cols = [col for col in test.columns if col not in [id_, target]] pseudo_label_data = get_pseudo_label(train, test, id_ = id_, target = target, used_cols = used_cols)案例地址
https://www.kaggle.com/poteman/pseudolabeling-autox
開源項(xiàng)目地址
https://github.com/4paradigm/autox
參考資料
1.https://www.kaggle.com/c/santander-customer-transaction-prediction/discussion/89003
2.https://www.kaggle.com/cdeotte/pseudo-labeling-qda-0-969
3.https://towardsdatascience.com/pseudo-labeling-to-deal-with-small-datasets-what-why-how-fd6f903213af
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國(guó)大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【机器学习】小数据集怎么上分? 几行代码生成伪标签数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 二进制、八进制、十六进制相互转换
- 下一篇: 【考研】2022温州大学计算机学硕招收调