主动学习-1
http://videolectures.net/icml09_dasgupta_langford_actl/
? ?
主動學習目的:
盡可能少的標注,獲取盡可能好的訓練結果
一般來說我們希望我們訓練的模型能夠對于natural distribution也就是說truly underlying distribution表現(xiàn)最好
? ?
對于數(shù)據(jù)集合的隨機抽取標注能夠做到這一點,但是對于主動學習比如上面的策略,我們會傾向選取靠近分類面的點,那么我們的訓練集合的數(shù)據(jù)點就會集中在分類面兩側,也就是說隨著我們主動學習策略不斷迭代,我們選取的訓練集合會離truly underlying distribution越來越遠
? ?
我們真的需要對這樣一個訓練集合進行訓練 optimize?
? ?
這就引出了Biased Sampling
? ?
The labeled points are not representative of the underlying distribution
? ?
? ?
提問: 這會是主動學習的本質帶來的?主動學習是要選取choosing instance而不是隨機選取instance
回答: 我們是要選取最有信息量的點,于此同時我們期望選取的訓練集合能夠在隨機數(shù)據(jù)也就是truly underling distribution上表現(xiàn)最好,因此看上去這里有一些tradeoff或者說是conflict,因此我們這里就是要解決這個問題。
? ?
? ?
這里主動學習策略會誤認為5%綠色是紅色。。 但事實不是這樣的
? ?
因此這里的主動學習算法不是consistant的
? ?
consistant的定義:
當你選取的點集趨近無窮的時候,對應的訓練集合的訓練出來的模型應該是趨近最優(yōu)的
? ?
Even with infinitely many labels, converges to a classifier with 5%
error instead of the best achievable, 2.5%. Not consistent!
? ?
? ?
Adaptive query能否解決這個問題?
? ?
There are two distinct narratives for explaining how adaptive
querying can help.
Case I: Exploiting (cluster) structure in data
Case II: Efficient search through hypothesis space
? ?
Case I: Exploiting (cluster) structure in data
? ?
這里的問題是定義不清晰,聚類本身存在粒度問題,5個cluster,6個,7個。。。?
另外每個cluster內(nèi)部的label可能是不一致的
? ?
轉載于:https://www.cnblogs.com/rocketfan/p/4067570.html
總結
- 上一篇: rootvg 镜像
- 下一篇: 黑盒測试(一)-----边界值測试