ML 01、机器学习概论
http://www.cnblogs.com/ronny/p/4062658.html
機器學(xué)習(xí)原理、實現(xiàn)與實踐——機器學(xué)習(xí)概論
?
如果一個系統(tǒng)能夠通過執(zhí)行某個過程改進它的性能,這就是學(xué)習(xí)。 ——— Herbert A. Simon
1. 機器學(xué)習(xí)是什么
計算機基于數(shù)據(jù)來構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學(xué)科。
從上面的機器學(xué)習(xí)的定義中,我們可以了解到以下的信息:
- 機器學(xué)習(xí)以計算機及網(wǎng)絡(luò)為平臺,是建立在計算機及網(wǎng)絡(luò)之上的;
- 機器學(xué)習(xí)以數(shù)據(jù)為研究對象。
- 機器學(xué)習(xí)的目的是對數(shù)據(jù)進行預(yù)測與分析
- 機器學(xué)習(xí)以模型為中心。構(gòu)建模型、優(yōu)化模型并用模型來進行預(yù)測。
- 機器學(xué)習(xí)的模型是基于概率統(tǒng)計的模型。里面大量用到了概率與統(tǒng)計的知識。
- 機器學(xué)習(xí)也是信息論 、計算理論、最優(yōu)化理論及計算機科學(xué)等多個領(lǐng)域的交叉學(xué)科,并且在發(fā)展中逐步形成獨立的理論體系與方法論。
2. 機器學(xué)習(xí)的對象
機器學(xué)習(xí)的對象是數(shù)據(jù),它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,又回到對數(shù)據(jù)的分析與預(yù)測中去。同時,數(shù)據(jù)是多樣的,包括存在計算機及網(wǎng)絡(luò)上的各種數(shù)字、文字、圖像、視頻、音頻數(shù)據(jù)及它們的組合。
那么什么樣的數(shù)據(jù)可以被抽象,被學(xué)習(xí)呢,雜亂無章的數(shù)據(jù)可以嗎?
機器學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性。同類數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù),由于它們具有統(tǒng)計規(guī)律,所以可以用概率統(tǒng)計方法來加以處理。可以用隨機變量描述數(shù)據(jù)數(shù)據(jù)中的特征,用概率分布描述數(shù)據(jù)的統(tǒng)計規(guī)律。
在實際的機器學(xué)習(xí)中,數(shù)據(jù)往往被提取為一個特征向量表示為
x=(x(1),x(2),…,x(i),x(n))T
數(shù)據(jù)可以為離散的,也可以為連續(xù)的。
3. 機器學(xué)習(xí)的目的
機器學(xué)習(xí)用于對數(shù)據(jù)進行預(yù)測與分析,特別是對未知新數(shù)據(jù)進行預(yù)測與分析。
機器學(xué)習(xí)總的目標就是考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型,以使模型能對數(shù)據(jù)進行準確的預(yù)測與分析,同理也要考慮盡可能地提高學(xué)習(xí)效率。
4. 機器學(xué)習(xí)的方法
機器學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計模型從而對數(shù)據(jù)進行預(yù)測與分析。機器學(xué)習(xí)包括了監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。
監(jiān)督學(xué)習(xí):從給定的、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)(training data)集合出發(fā),假設(shè)數(shù)據(jù)是獨立同分布產(chǎn)生的;并且假設(shè)要學(xué)習(xí)的模型屬于某個函數(shù)集合,這個函數(shù)集合稱為假設(shè)空間(hypothesis space);應(yīng)用某個評價準則,從假設(shè)空間中先取一個最優(yōu)的模型,使它對已知訓(xùn)練數(shù)據(jù)及未知測試數(shù)據(jù)在給定的評價準則下有最優(yōu)的預(yù)測;最優(yōu)模型的選擇由算法實現(xiàn)。
模型的假設(shè)空間、模型的選擇準則以及模型學(xué)習(xí)的算法構(gòu)成了機器學(xué)習(xí)的三要素,簡稱模型、策略、算法。
機器學(xué)習(xí)的步驟可以歸納為:
5. 機器學(xué)習(xí)的應(yīng)用
近20年來,機器學(xué)習(xí)無論是在理論上還是在應(yīng)用方面都得到了巨大的發(fā)展,有許多重要突破,統(tǒng)計學(xué)習(xí)已被成功地應(yīng)用到人工智能、模式識別、數(shù)據(jù)挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多計算機應(yīng)用領(lǐng)域中。
下面是從《機器學(xué)習(xí)實戰(zhàn)》中摘錄的一段文字,描述了假想的一日,機器學(xué)習(xí)已經(jīng)與我們的生活息息相關(guān)。
假設(shè)你想起今天是某位朋友的生日,打算通過郵局給她郵寄一張生日賀卡。你打開瀏覽器搜索趣味卡片,搜索引擎顯示了10個最相關(guān)的鏈接。你認為第二個鏈接最符合你的要求,點擊這個鏈接,搜索引擎將記錄這次點擊,并從中學(xué)習(xí)以優(yōu)化下次搜索結(jié)果。然后,你檢查電子郵件系統(tǒng),此時垃圾郵件過濾器已經(jīng)在后臺自動過濾垃圾廣告郵件,并將其放在垃圾箱內(nèi)。接著你去商店購買這張生日卡片,并給你朋友的孩子挑選了一些尿布。結(jié)賬時,收銀員給你一張1美元的優(yōu)惠券,可以用于購買6罐裝的啤酒。之所以你會得到這張優(yōu)惠券,是因為款臺收費軟件基于以前的統(tǒng)計知識,認為買尿布的人往往也會買啤酒。然后你去郵局郵寄這張賀卡,手寫識別軟件識別出郵寄地址,并將賀卡發(fā)送給正確的郵車。當天你還去了貸款申請機構(gòu),查看自己是否能夠申請貸款,辦事員并不是直接給出結(jié)果,而是將你最近的金融活動信息輸入計算機,由軟件來判定你是否合格。最后,你還去了賭場想找些樂子,當你步入前門時,尾隨你進來的一個家伙被突然出現(xiàn)的保安給攔了下來。“對不起,索普先生,我們不得不請你離開賭場。我們不歡迎老千”。
上面提到的所有場景,都有機器學(xué)習(xí)存在!
總結(jié)
以上是生活随笔為你收集整理的ML 01、机器学习概论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SURF算法与源码分析、下
- 下一篇: ML 02、监督学习