sklearn自学指南(part31)--半监督学习
生活随笔
收集整理的這篇文章主要介紹了
sklearn自学指南(part31)--半监督学习
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
學習筆記,僅供參考,有錯必糾
文章目錄
- 半監督學習
- 自我訓練
- 標簽傳播
半監督學習
Semi-supervised learning是指在你的訓練數據中,有些樣本是沒有標簽的情況。sklearn.semi_supervised中的半監督估計器能夠利用這些額外的未標記數據來更好地捕捉底層數據分布的形狀,并更好地泛化到新的樣本。當我們有非常少的標注點和大量的未標注點時,這些算法可以表現得很好。
- y中的未標記項
在用擬合方法訓練模型時,將未標記的點與標記的數據一起分配一個標識符是很重要的。本實施例使用的標識符是整數值-1。注意,對于字符串標簽,y的dtype應該是object,這樣它就可以同時包含字符串和整數。
自我訓練
這個自訓練的實現是基于Yarowsky算法。使用該算法,給定的監督分類器可以作為半監督分類器,使其能夠從未標記的數據中學習。
SelfTrainingClassifier可以與任何實現 predict_proba的分類器一起調用,作為參數 base_classifi
總結
以上是生活随笔為你收集整理的sklearn自学指南(part31)--半监督学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: sklearn自学指南(part30)-
- 下一篇: 养老基数是什么意思 养老保险基数是什么