概念:弱监督学习
文章給的定義是: 數(shù)據(jù)集的標簽是不可靠的,如(x,y),y對于x的標記是不可靠的。這里的不可靠可以是標記不正確,多種標記,標記不充分,局部標記等。
在實際應用中的學習問題往往以混合形式出現(xiàn),如多標記多示例、半監(jiān)督多標記、弱標記多標記等。針對監(jiān)督信息不完整或不明確對象的學習問題統(tǒng)稱為弱監(jiān)督學習。
弱監(jiān)督學習可以看做是有多個標記的數(shù)據(jù)集合,次集合可以是空集,單個元素,或是多個元素,分別對應x沒有標記,有一個標記,和有多個標記三種情況。在此統(tǒng)一聲明為一個標記的集合。
在實際的使用中多標記的使用是很常見的,在圖像文本語音中是很容易找到多個標記的。
舉個圖像中的例子:
一般機器學習算法,每一個訓練樣本都需要類別標號(對于二分類:1/-1)。實際上那樣的數(shù)據(jù)其實已經(jīng)經(jīng)過了抽象,實際的數(shù)據(jù)要獲得這樣的標號還是很難,圖像就是個典型。還有就是數(shù)據(jù)標記的工作量太大,我們想偷懶了,所以多只是給了正負樣本集。負樣本集里面的樣本都是負的,但是正樣本里面的樣本不一定都是正的,但是至少有一個樣本是正的。比如檢測人的問題,一張?zhí)炜盏恼掌涂梢允且粋€負樣本集;一張某某自拍照就是一個正樣本集(你可以在N個區(qū)域取N個樣本,但是只有部分是有人的正樣本)。這樣正樣本的類別就很不明確,傳統(tǒng)的方法就沒法訓練。
那么問題來了:圖像的不是有標注嗎?有標注就應該有類別標號???這是因為圖片是人標的,數(shù)據(jù)量特大,難免會有些標的不夠好,這就是所謂的弱監(jiān)督集(weaklysupervisedset)。所以如果算法能夠自動找出最優(yōu)的位置,那分類器不就更精確嗎? 標注位置不是很準確,比如自行車的車輪的位置,是完全沒有位置標注的,只知道在boundingbox區(qū)域附近有一個車輪。
弱監(jiān)督學習多用在多標記的數(shù)據(jù)上,感興趣的可以去看一下:
《Weakly superviseddiscriminativelocationandclassification:ajointlearningprocess》
總結
- 上一篇: C#中指针使用总结
- 下一篇: 网络知识笔记-物理层