你绝对能懂的“机器学习”(五)
我們發展人工智能,核心目的是為了用人工智能來解決我們日常工作生活中的各種問題,機器學習當然也不例外。那機器學習適合解決哪些問題呢?
?
首先,我們一定要知道,機器學習不是萬能的。你要問機器學習能不能解決光速星際旅行,能不能造出飛碟、宇宙飛船、火箭,我肯定的說不能。你要問機器學習能不能預測房價、股市的漲跌,我只能說可能行,但非常難實現。因為涉及因素太多,訓練出來的模型不可能精確。
?
其次,我們要認識到日常工作生活中的最大任務是“決策”。不管是商業上的決策,上不上這個產品,投不投這個項目,要不要加大營銷力度。還是工作生活中的決策,上哪個大學,學什么專業,買不買房,上哪吃飯,看不看電影等等。我們無時無刻不在做著“決策”。
?
最后,“決策”背后的本質是“分類”。這些房子好,那些房子差,這個電影好看,那個不好看,這個餐館好吃,那個餐館不好吃。有了“分類”,是不是決策起來就容易的多,而我們“決策”的過程本質上就是一個“分類”的過程。
所以,機器學習的主要任務就是分類。
我們以前介紹過,機器學習就是讓計算機學會利用過往的經驗完成指定任務。我們的目的是完成指定任務。但當時我們對指定任務是什么并沒有說明。
?
這個指定任務一般分為3類:分類,聚類,回歸。也就是說機器學習的任務就是完成這3類指定任務,其中分類是核心。
我們知道,開展機器學習有個前提:必須有過往的經驗,或者說有過往的數據。這個數據的集合叫數據集。數據集的一般形式是:
| 序號 | 屬性1 | 屬性2 | …… | 結果標記 |
| 1.? | | | | |
| 2.? | | | | |
| 3.? | | | | |
| ……… | ……… | ……… | ……… | ……… |
?
注意這個結果標記。如果結果標記是類別數據,那么機器學習的主要任務就是分類。如果是結果標記是數值數據,那么機器學習的主要任務就是回歸。如果沒有結果標記,而是需要將數據集分成不同的類別,那么機器學習的主要任務就是聚類。
?
舉個鳥物種例子:
| 序號 | 體重 (克) | 翼展 (厘米) | 腳蹼 | 后背 顏色 | 種屬 |
| 1.? | 1000.1 | 125.0 | 無 | 棕色 | 紅尾鳥 |
| 2.? | 3000.7 | 200.0 | 無 | 灰色 | 鷺鷹 |
| 3.? | 3300.0 | 220.3 | 無 | 灰色 | 鷺鷹 |
| 4.? | 4100.0 | 136.0 | 有 | 黑色 | 潛鳥 |
| 5.? | 3.0 | 11.0 | 無 | 綠色 | 蜂鳥 |
| 6.? | 5.0 | 13.0 | 無 | 綠色 | 蜂鳥 |
| 7.? | 570.0 | 75.0 | 無 | 黑色 | 啄木鳥 |
| 8.? | 600.0 | 77.0 | 無 | 黑色 | 啄木鳥 |
| …… | …… | …… | …… | …… | …… |
?
這個數據集的結果標記是紅尾鳥、蜂鳥、啄木鳥等,屬于類別數據。如果我們找到一種鳥,測量其體重、翼展、腳蹼、后背顏色4個屬性數據,例如是550克,74cm,無,黑色,通過機器學習就可以判定這種鳥屬于啄木鳥。
?
像這樣的機器學習任務就是“分類”。
?
我們再看個一個北京二手房的例子:
| 序號 | 面積 (平方米) | 區域 | 學區 | 裝修 | 價格 (萬元) |
| 1.? | 39 | 西城 | 有 | 無 | 690 |
| 2.? | 44 | 海淀 | 有 | 精裝 | 440 |
| 3.? | 50 | 大興 | 有 | 簡裝 | 150 |
| 4.? | 78 | 東城 | 無 | 精裝 | 510 |
| 5.? | 90 | 房山 | 無 | 精裝 | 270 |
| 6.? | 100 | 豐臺 | 無 | 精裝 | 430 |
| …… | …… | …… | …… | …… | …… |
?
這個數據集的結果標記690萬元、440萬元等屬于數值數據。如果我們要買一套二手房,希望了解其大致價格,通過面積、區域、學區、裝修4個屬性數據,通過機器學習就可以預測這個二手房的價格是多少,這個任務就是“回歸”。
?
至于為什么叫“回歸”,這個是舶來詞,是英文“regression”翻譯過來的。翻譯詞的特點是帶有原詞的主要含義,但與原詞表達的意思又不完全一樣,甚至從中文字面上難以理解,例如大家最熟悉的函數,就是function的翻譯詞,在我們中學剛學“函數”這個詞時,其含義并不是那么顯而易見的。回歸(regression)也一樣,不好直白理解。簡單化理解就像“地理上的回歸線”一樣,“回去歸來,回歸于事物的本來面目”。
?
也不用太糾結,在機器學習中,你記住以后看到需要預測出來的結果標記為數值型的,例如房價,體重,股票價格等,也就是與“實數”相關的,就叫做“回歸”。
?
對于“聚類”,用個比較形象的詞語就是“人以類聚,物以群分”。聚類不是用來做預測的,而是對事物進行“分門別類”的。例如前面那個鳥物種的例子,你現在是鳥類專家,抓住了1000只鳥,你根據這些鳥的特征,對這些鳥分別進行觀察,長的很像的就聚為一類,例如有長嘴巴的就聚為啄木鳥類,有紅尾巴的就聚為紅尾鳥類。你辦公室里有30名同事,你愛好抽煙,你根據觀察和測試,逐漸把這30人聚成了抽煙和不抽煙的2類,于是工間休息期間你就知道找抽煙的那一類人。當然,你還可以把這30人聚成抽煙的、偶爾抽一下的、完全不抽的3類人。你還可以根據打羽毛球把30名同事分成會打的、不會打的2類,或者很會打的,一般的,完全不會的3類。也就是說聚類的個數和每個類別的內容是不定的,根據你的實際需要確定。
總結
以上是生活随笔為你收集整理的你绝对能懂的“机器学习”(五)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你绝对能懂的“机器学习”(四)
- 下一篇: 高考与机器学习训练测试