机器学习家谱
?
今天的文章大神請忽略,主要是針對對機器學習一些關鍵概念還比較模糊的同學,希望通過這篇文章幫大家梳理。如果把機器學習的各種方式組合看成是機器學習家譜的話,這個家譜差不多有四個分支:
?
按學習時效性區(qū)分
按學習是否增量區(qū)分
按模型的深度學區(qū)分
按學習方式區(qū)分
看下整個的家譜結(jié)構(gòu)圖:
下面還是分別介紹一下~
?
按學習時效性區(qū)分
這一點比較好理解,離線學習就是常規(guī)的機器學習方式,通過歷史收集的數(shù)據(jù)去訓練模型。實時機器學習指的是通過線上實時產(chǎn)生的數(shù)據(jù)訓練模型,數(shù)據(jù)源通常會是Kafka這樣的流式數(shù)據(jù)源,訓練框架目前比較主流的是Flink、Spark-stream等。
按是否增量區(qū)分
增量式算法的重要性體現(xiàn)在2個方面:
1)在實際的數(shù)據(jù)庫中,數(shù)據(jù)量往往是逐漸增加的,因此,在面臨新的數(shù)據(jù)時,學習方法應能對訓練好的系統(tǒng)進行某些改動,以對新數(shù)據(jù)中蘊涵的知識進行學習。
2) 對一個訓練好的系統(tǒng)進行修改的時間代價通常低于重新訓練一個系統(tǒng)所需的代價。
增量學習背后衍生的道理可以通過一個例子說明。在社會圈或者自然界,很多事物的底層原理都是相通的。比如一個人會下象棋,那么他很容易去學習下圍棋,因為無論是象棋和圍棋,底層的一些邏輯是相同的。在模型層面,如果一個模型已經(jīng)具備了對象棋知識的理解,那么就可以用遷移學習的方式讓它在原有基礎上去學習圍棋,而不是重頭學習。
?
按模型深度區(qū)分
一句話形容,深度學習模型深度深,淺層學習模型深度淺。還有一種方法是利用深度學習的深和淺層學習的寬,就是推薦系統(tǒng)中常用的Wide&Deep。
按學習方式區(qū)分
?
有監(jiān)督學習:訓練數(shù)據(jù)既有特征(feature)又有標簽(label),通過訓練,讓機器可以自己找到特征和標簽之間的聯(lián)系,在面對只有特征沒有標簽的數(shù)據(jù)時,可以判斷出標簽。
無監(jiān)督學習(unsupervised learning):訓練樣本的標記信息未知,目標是通過對無標記訓練樣本的學習來揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,為進一步的數(shù)據(jù)分析提供基礎,此類學習任務中研究最多、應用最廣的是"聚類" (clustering),其他無監(jiān)督算法還有:密度估計(densityestimation)、異常檢測(anomaly detection) 等。
半監(jiān)督學習:訓練集同時包含有標記樣本數(shù)據(jù)和未標記樣本數(shù)據(jù),不需要人工干預,讓學習器不依賴外界交互、自動地利用未標記樣本來提升學習性能,就是半監(jiān)督學習。
強化學習:通過一些行為產(chǎn)生的反饋來促使模型的演進。舉個例子,比如做一個自動駕駛模型,當模型對汽車發(fā)出某些預測指令之后,汽車會有相應的回饋,比如正常駕駛 or 發(fā)生碰撞。通過不斷的學習環(huán)境的反饋,找到對自己最有利的判斷模式,就是增化學習的原理。
《新程序員》:云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
- 上一篇: 写给开发向产品转型的同学的3句话
- 下一篇: 谈谈晋升-互联网民工篇