當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习几种训练方式

發(fā)布時間：2024/3/26 编程问答 86 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习几种训练方式小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

機器學(xué)習(xí)通常包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)四種訓(xùn)練方式。

1、自監(jiān)督學(xué)習(xí)（Self-supervised Learning）

監(jiān)督學(xué)習(xí)是使用已知正確的答案的示例來訓(xùn)練網(wǎng)絡(luò)。由于網(wǎng)絡(luò)在學(xué)習(xí)的過程中不僅有訓(xùn)練數(shù)據(jù)，還有訓(xùn)練結(jié)果（標(biāo)簽），因此訓(xùn)練的效果通常不錯。

學(xué)習(xí)技術(shù)：分類（classification）和回歸(regression)

2、無監(jiān)督學(xué)習(xí)（Unsupervised Learning）

無監(jiān)督學(xué)習(xí)是指只給網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)，不給標(biāo)簽，因此網(wǎng)絡(luò)無法準(zhǔn)確知道哪些數(shù)據(jù)具有哪些標(biāo)簽，只能憑借強大的計算能力分析數(shù)據(jù)的特征，從而得到一定的成果，通常是得到一些集合，集合內(nèi)的數(shù)據(jù)在某些特征上相同或相似。

學(xué)習(xí)技術(shù)：自編碼（Autoencoding）、主成分分析（Principal components analysis, PCA）、隨機森林（Random forests）和K均值聚類（K-means clustering）

3、半監(jiān)督學(xué)習(xí)（Semi-supervised Learning）

半監(jiān)督學(xué)習(xí)在訓(xùn)練階段結(jié)合了大量的未標(biāo)記的數(shù)據(jù)和少量有標(biāo)簽的數(shù)據(jù)。其基本規(guī)律是：數(shù)據(jù)的分布必然不是完全隨機的，通過一些有標(biāo)簽數(shù)據(jù)的局部特征，以及更多的沒標(biāo)簽數(shù)據(jù)的整體分布，就可以得到可以接受甚至是非常好的分類結(jié)果。

4、強化學(xué)習(xí)（Reinforcement Learning）

強化學(xué)習(xí)本質(zhì)是解決決策(decision making)問題，即自動進行決策，并且可以做連續(xù)決策。

它主要包含四個元素：代理（Agent）、環(huán)境狀態(tài)（Environment）、行動（Action）、獎勵（reward），強化學(xué)習(xí)的目標(biāo)就是獲得最多的累計獎勵。

具體流程：Agent觀察Environment，做出Action，這個Action會對Environment造成一定影響和改變，繼而Agent會從新的環(huán)境中獲得Reward。循環(huán)上述步驟。Agent學(xué)習(xí)的目標(biāo)就是使得期望的回報（reward）最大化。

難點：Reward是比較難以獲得的，而Agent就是依靠Reward來進行學(xué)習(xí)，進行自身策略的調(diào)整。

注：State指的是Agent觀察到的Environment的狀態(tài)，不是指machine本身的狀態(tài)。

舉例：機器人把水杯打翻了，人類說“不能這么做”，機器人獲得人類的這個負向反饋，然后機器人觀察到水杯打翻的狀態(tài)，采取了拖地的行為，獲得了人類“謝謝”的正向反饋。

5、區(qū)別

強化學(xué)習(xí)和監(jiān)督學(xué)習(xí)的區(qū)別：

監(jiān)督學(xué)術(shù)好比在你學(xué)習(xí)的時候，有一個導(dǎo)師在旁邊指點，他知道怎么做是對的，怎么做事錯的。但是在實際問題中，不可能有一個導(dǎo)師知道所有可能的結(jié)果。

強化學(xué)習(xí)會在沒有任何標(biāo)簽的情況下，通過先嘗試做出一些行為得到一個結(jié)果，通過這個結(jié)果是對還是錯的反饋，調(diào)整之前的行為，這樣不斷地調(diào)整，算法能夠?qū)W習(xí)到在什么情況下選擇什么樣的行為可以得到最好的結(jié)果。

兩種學(xué)習(xí)方式都會學(xué)習(xí)出輸入到輸出的一個映射，監(jiān)督學(xué)習(xí)得到是之間的關(guān)系，可以告訴算法什么樣的輸入對應(yīng)著什么樣的輸出；強化學(xué)習(xí)得到的是給機器的反饋（reward function），即用來判斷這個行為的對錯。
強化學(xué)習(xí)面對的輸入總是在變化，每當(dāng)算法做出一個行為，它影響下一次決策的輸入，而監(jiān)督學(xué)習(xí)的輸入是獨立同分布的。
探索（exploration）會嘗試很多不同的事情，看他們是否比以前嘗試過得更好；

開發(fā)（exploitation）會嘗試過去經(jīng)驗中最有效的行為。

通過強化學(xué)習(xí)，一個Agent可以在探索與開發(fā)之前作出權(quán)衡，并且選擇一個最大的回報；而一般監(jiān)督學(xué)習(xí)就只是開發(fā)。

強化學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的區(qū)別：

無監(jiān)督學(xué)習(xí)不是學(xué)習(xí)輸入到輸出的映射，而是模式。例如在向用戶推薦新聞文章的任務(wù)中，無監(jiān)督學(xué)習(xí)會找到用戶先前已經(jīng)閱讀過的類似的文章并向他們推薦其一；而強化學(xué)習(xí)將通過向用戶先推薦少量的新聞，并不斷獲得來自用戶的反饋，最后構(gòu)建用戶可能會喜歡的文章的“知識圖”。

總結(jié)

以上是生活随笔為你收集整理的机器学习几种训练方式的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Value function appro
下一篇： SHARD_ROW_ID_BITS

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

机器学习几种训练方式

總結(jié)