吴恩达《机器学习》学习笔记一——初识机器学习
吳恩達《機器學習》學習筆記一
- 一、 什么是機器學習?
- 二、監督學習
- 三、無監督學習
初識機器學習
這是個人學習吳恩達《機器學習》課程的一些筆記,供自己和大家學習提升。第一篇內容較少,日后繼續加油。
課程鏈接:https://www.bilibili.com/video/BV164411b7dx?from=search&seid=5329376196520099118
一、 什么是機器學習?
機器學習一直沒有一個官方固定的定義。但課中給出了兩種解釋,個人認為非常經典,易于理解。
定義一:Field of study that gives computers the ability to learn without being explicitly programmed.—— Arthur Samuel(1959) 即無需明確編程,就使得計算機有學習能力的研究領域。
值得一提的是,阿瑟.塞繆爾(Arthur Samuel)在此之前(1952年)研發出了第一個計算機跳棋程序,它是世界上第一個可以自主學習的程序。通過和該跳棋程序不斷的下棋,使得該程序的跳棋技巧不斷得到提升,最終甚至超過了人類水平,這是機器學習早期一個非常經典的案例。
定義二:A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E. 即計算機程序從經驗E上學習來處理任務T,且P為性能評估,如果在T上,由P衡量的性能隨著經驗E的學習而提高,這就是機器學習。
下面看一個課中給出的定義二的例子:
這是一個郵件分類問題,基于已知郵件是否為垃圾郵件的信息,來優化郵件分類系統。此處選項一:把郵件分類為垃圾或正常郵件是機器學習的T;選項二:觀察你標記的郵件是垃圾還是正常是機器學習的E;選項三:正確分類郵件的數量是機器學習的P。
此外,機器學習有其分類,主要分為如下三類:
| 監督學習 | 線性回歸、SVM、決策樹等 |
| 無監督學習 | 聚類、密度估計等 |
| 其他:強化學習、推薦系統等 | -待學習- |
所以下面分別討論了基本的監督學習和無監督學習。
二、監督學習
監督學習的特點是,學習數據都是有標注的。如經典的房價預測案例,它的數據集中數據樣本不僅給出了各自的屬性值,還給出了具體的房價大小,而這個房價大小就是所謂的標注,也就是需要預測的屬性,模型從帶有標注的數據中學習,隨后對新的數據預測其標簽值。如下圖所示是房價預測的一個示例。
圖中為簡單起見,只考慮了房子的一個屬性:面積(feet2),而實際還需要考慮很多其他屬性如:朝向、地段等。紅色的×表示已知的一批帶有標注的數據,要從這些數據中學習得一種模型,使得后續預測的值比較真實,紅色的直線是一次函數模型,藍色的曲線是更復雜的模型,目標都是盡可能地模擬所有數據。模型選擇的好壞,也會對預測有很大的影響(此處藍色的模型看起來要比紅色的好)。若已得到一個模型,則新給出一個輸入如:房屋面積為750feet2,根據模型則可以得到預測房價為多少。
此外,房價預測也是回歸問題的一個實例,所謂回歸,就是預測值是連續值,此處房價是一個連續值,所以是一個回歸問題。
與此對應,若預測值是離散的,則被稱為分類問題,如上述提到的郵件分類,預測值只有垃圾郵件和正常郵件兩個值。如下圖所示,是根據腫瘤尺寸這個屬性來對乳腺腫瘤進行分類的數據,標簽值只有0(良性)和1(惡性)兩種。
而往往不止通過一個屬性進行學習,還可能通過細胞尺寸均勻度、細胞形狀均勻度、患者年齡等許多屬性來進行學習。
三、無監督學習
無監督學習與監督學習相對,當學習數據不帶有標簽時,就可以看成是無監督學習,也可以理解為沒有正確答案的學習。無監督學習在做的,更多的是找出數據之間的相似相關性。如下圖所示,x1和x2是數據的兩個屬性,數據不帶有標簽,無監督學習會尋找數據之間的相似性,將無標注的數據劃分為一個個的簇。
總結
以上是生活随笔為你收集整理的吴恩达《机器学习》学习笔记一——初识机器学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: QT事件过滤器eventFilter函数
- 下一篇: sublime text插件emmet的