机器学习几种训练方式
機器學(xué)習(xí)通常包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)四種訓(xùn)練方式。
1、自監(jiān)督學(xué)習(xí)(Self-supervised Learning)
監(jiān)督學(xué)習(xí)是使用已知正確的答案的示例來訓(xùn)練網(wǎng)絡(luò)。由于網(wǎng)絡(luò)在學(xué)習(xí)的過程中不僅有訓(xùn)練數(shù)據(jù),還有訓(xùn)練結(jié)果(標(biāo)簽),因此訓(xùn)練的效果通常不錯。
學(xué)習(xí)技術(shù):分類(classification)和回歸(regression)
2、無監(jiān)督學(xué)習(xí)(Unsupervised Learning)
無監(jiān)督學(xué)習(xí)是指只給網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù),不給標(biāo)簽,因此網(wǎng)絡(luò)無法準(zhǔn)確知道哪些數(shù)據(jù)具有哪些標(biāo)簽,只能憑借強大的計算能力分析數(shù)據(jù)的特征,從而得到一定的成果,通常是得到一些集合,集合內(nèi)的數(shù)據(jù)在某些特征上相同或相似。
學(xué)習(xí)技術(shù):自編碼(Autoencoding)、主成分分析(Principal components analysis, PCA)、隨機森林(Random forests)和K均值聚類(K-means clustering)
3、半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)
半監(jiān)督學(xué)習(xí)在訓(xùn)練階段結(jié)合了大量的未標(biāo)記的數(shù)據(jù)和少量有標(biāo)簽的數(shù)據(jù)。其基本規(guī)律是:數(shù)據(jù)的分布必然不是完全隨機的,通過一些有標(biāo)簽數(shù)據(jù)的局部特征,以及更多的沒標(biāo)簽數(shù)據(jù)的整體分布,就可以得到可以接受甚至是非常好的分類結(jié)果。
4、強化學(xué)習(xí)(Reinforcement Learning)
強化學(xué)習(xí)本質(zhì)是解決決策(decision making)問題,即自動進行決策,并且可以做連續(xù)決策。
它主要包含四個元素:代理(Agent)、環(huán)境狀態(tài)(Environment)、行動(Action)、獎勵(reward),強化學(xué)習(xí)的目標(biāo)就是獲得最多的累計獎勵。
具體流程:Agent觀察Environment,做出Action,這個Action會對Environment造成一定影響和改變,繼而Agent會從新的環(huán)境中獲得Reward。循環(huán)上述步驟。Agent學(xué)習(xí)的目標(biāo)就是使得期望的回報(reward)最大化。
難點:Reward是比較難以獲得的,而Agent就是依靠Reward來進行學(xué)習(xí),進行自身策略的調(diào)整。
注:State指的是Agent觀察到的Environment的狀態(tài),不是指machine本身的狀態(tài)。
舉例:機器人把水杯打翻了,人類說“不能這么做”,機器人獲得人類的這個負向反饋,然后機器人觀察到水杯打翻的狀態(tài),采取了拖地的行為,獲得了人類“謝謝”的正向反饋。
5、區(qū)別
強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別:
監(jiān)督學(xué)術(shù)好比在你學(xué)習(xí)的時候,有一個導(dǎo)師在旁邊指點,他知道怎么做是對的,怎么做事錯的。但是在實際問題中,不可能有一個導(dǎo)師知道所有可能的結(jié)果。
強化學(xué)習(xí)會在沒有任何標(biāo)簽的情況下,通過先嘗試做出一些行為得到一個結(jié)果,通過這個結(jié)果是對還是錯的反饋,調(diào)整之前的行為,這樣不斷地調(diào)整,算法能夠?qū)W習(xí)到在什么情況下選擇什么樣的行為可以得到最好的結(jié)果。
-
兩種學(xué)習(xí)方式都會學(xué)習(xí)出輸入到輸出的一個映射,監(jiān)督學(xué)習(xí)得到是之間的關(guān)系,可以告訴算法什么樣的輸入對應(yīng)著什么樣的輸出;強化學(xué)習(xí)得到的是給機器的 反饋(reward function),即用來判斷這個行為的對錯。
-
強化學(xué)習(xí)面對的輸入總是在變化,每當(dāng)算法做出一個行為,它影響下一次決策的輸入,而監(jiān)督學(xué)習(xí)的輸入是獨立同分布的。
-
探索(exploration)會嘗試很多不同的事情,看他們是否比以前嘗試過得更好;
開發(fā)(exploitation)會嘗試過去經(jīng)驗中最有效的行為。
通過強化學(xué)習(xí),一個Agent可以在探索與開發(fā)之前作出權(quán)衡,并且選擇一個最大的回報;而一般監(jiān)督學(xué)習(xí)就只是開發(fā)。
強化學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的區(qū)別:
無監(jiān)督學(xué)習(xí)不是學(xué)習(xí)輸入到輸出的映射,而是模式。例如在向用戶推薦新聞文章的任務(wù)中,無監(jiān)督學(xué)習(xí)會找到用戶先前已經(jīng)閱讀過的類似的文章并向他們推薦其一;而強化學(xué)習(xí)將通過向用戶先推薦少量的新聞,并不斷獲得來自用戶的反饋,最后構(gòu)建用戶可能會喜歡的文章的“知識圖”。
總結(jié)
以上是生活随笔為你收集整理的机器学习几种训练方式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Value function appro
- 下一篇: SHARD_ROW_ID_BITS