當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ML 01、机器学习概论

發(fā)布時間：2025/7/25 编程问答 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 ML 01、机器学习概论小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

http://www.cnblogs.com/ronny/p/4062658.html

機器學(xué)習(xí)原理、實現(xiàn)與實踐——機器學(xué)習(xí)概論

如果一個系統(tǒng)能夠通過執(zhí)行某個過程改進它的性能，這就是學(xué)習(xí)。 ——— Herbert A. Simon

1. 機器學(xué)習(xí)是什么

計算機基于數(shù)據(jù)來構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預(yù)測與分析的一門學(xué)科。

從上面的機器學(xué)習(xí)的定義中，我們可以了解到以下的信息：

機器學(xué)習(xí)以計算機及網(wǎng)絡(luò)為平臺，是建立在計算機及網(wǎng)絡(luò)之上的；
機器學(xué)習(xí)以數(shù)據(jù)為研究對象。
機器學(xué)習(xí)的目的是對數(shù)據(jù)進行預(yù)測與分析
機器學(xué)習(xí)以模型為中心。構(gòu)建模型、優(yōu)化模型并用模型來進行預(yù)測。
機器學(xué)習(xí)的模型是基于概率統(tǒng)計的模型。里面大量用到了概率與統(tǒng)計的知識。
機器學(xué)習(xí)也是信息論、計算理論、最優(yōu)化理論及計算機科學(xué)等多個領(lǐng)域的交叉學(xué)科，并且在發(fā)展中逐步形成獨立的理論體系與方法論。

2. 機器學(xué)習(xí)的對象

機器學(xué)習(xí)的對象是數(shù)據(jù)，它從數(shù)據(jù)出發(fā)，提取數(shù)據(jù)的特征，抽象出數(shù)據(jù)的模型，發(fā)現(xiàn)數(shù)據(jù)中的知識，又回到對數(shù)據(jù)的分析與預(yù)測中去。同時，數(shù)據(jù)是多樣的，包括存在計算機及網(wǎng)絡(luò)上的各種數(shù)字、文字、圖像、視頻、音頻數(shù)據(jù)及它們的組合。

那么什么樣的數(shù)據(jù)可以被抽象，被學(xué)習(xí)呢，雜亂無章的數(shù)據(jù)可以嗎？

機器學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性。同類數(shù)據(jù)是指具有某種共同性質(zhì)的數(shù)據(jù)，由于它們具有統(tǒng)計規(guī)律，所以可以用概率統(tǒng)計方法來加以處理。可以用隨機變量描述數(shù)據(jù)數(shù)據(jù)中的特征，用概率分布描述數(shù)據(jù)的統(tǒng)計規(guī)律。

在實際的機器學(xué)習(xí)中，數(shù)據(jù)往往被提取為一個特征向量表示為

x=(x(1),x(2),…,x(i),x(n))T

數(shù)據(jù)可以為離散的，也可以為連續(xù)的。

3. 機器學(xué)習(xí)的目的

機器學(xué)習(xí)用于對數(shù)據(jù)進行預(yù)測與分析，特別是對未知新數(shù)據(jù)進行預(yù)測與分析。

機器學(xué)習(xí)總的目標就是考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型，以使模型能對數(shù)據(jù)進行準確的預(yù)測與分析，同理也要考慮盡可能地提高學(xué)習(xí)效率。

4. 機器學(xué)習(xí)的方法

機器學(xué)習(xí)的方法是基于數(shù)據(jù)構(gòu)建統(tǒng)計模型從而對數(shù)據(jù)進行預(yù)測與分析。機器學(xué)習(xí)包括了監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

監(jiān)督學(xué)習(xí)：從給定的、有限的、用于學(xué)習(xí)的訓(xùn)練數(shù)據(jù)（training data）集合出發(fā)，假設(shè)數(shù)據(jù)是獨立同分布產(chǎn)生的；并且假設(shè)要學(xué)習(xí)的模型屬于某個函數(shù)集合，這個函數(shù)集合稱為假設(shè)空間（hypothesis space）；應(yīng)用某個評價準則，從假設(shè)空間中先取一個最優(yōu)的模型，使它對已知訓(xùn)練數(shù)據(jù)及未知測試數(shù)據(jù)在給定的評價準則下有最優(yōu)的預(yù)測；最優(yōu)模型的選擇由算法實現(xiàn)。

模型的假設(shè)空間、模型的選擇準則以及模型學(xué)習(xí)的算法構(gòu)成了機器學(xué)習(xí)的三要素，簡稱模型、策略、算法。

機器學(xué)習(xí)的步驟可以歸納為：

得到一個有限的訓(xùn)練數(shù)據(jù)集合；

確定包含所有可能的模型的假設(shè)空間，即學(xué)習(xí)模型的集合；

確定模型選擇的準則，即學(xué)習(xí)策略；

實現(xiàn)求解最優(yōu)模型的算法，即學(xué)習(xí)的算法；

通常學(xué)習(xí)方法選擇最優(yōu)模型；

利用學(xué)習(xí)的最優(yōu)模型對新數(shù)據(jù)進行預(yù)測或分析。

5. 機器學(xué)習(xí)的應(yīng)用

近20年來，機器學(xué)習(xí)無論是在理論上還是在應(yīng)用方面都得到了巨大的發(fā)展，有許多重要突破，統(tǒng)計學(xué)習(xí)已被成功地應(yīng)用到人工智能、模式識別、數(shù)據(jù)挖掘、自然語言處理、語音識別、圖像識別、信息檢索和生物信息等許多計算機應(yīng)用領(lǐng)域中。

下面是從《機器學(xué)習(xí)實戰(zhàn)》中摘錄的一段文字，描述了假想的一日，機器學(xué)習(xí)已經(jīng)與我們的生活息息相關(guān)。

假設(shè)你想起今天是某位朋友的生日，打算通過郵局給她郵寄一張生日賀卡。你打開瀏覽器搜索趣味卡片，搜索引擎顯示了10個最相關(guān)的鏈接。你認為第二個鏈接最符合你的要求，點擊這個鏈接，搜索引擎將記錄這次點擊，并從中學(xué)習(xí)以優(yōu)化下次搜索結(jié)果。然后，你檢查電子郵件系統(tǒng)，此時垃圾郵件過濾器已經(jīng)在后臺自動過濾垃圾廣告郵件，并將其放在垃圾箱內(nèi)。接著你去商店購買這張生日卡片，并給你朋友的孩子挑選了一些尿布。結(jié)賬時，收銀員給你一張1美元的優(yōu)惠券，可以用于購買6罐裝的啤酒。之所以你會得到這張優(yōu)惠券，是因為款臺收費軟件基于以前的統(tǒng)計知識，認為買尿布的人往往也會買啤酒。然后你去郵局郵寄這張賀卡，手寫識別軟件識別出郵寄地址，并將賀卡發(fā)送給正確的郵車。當天你還去了貸款申請機構(gòu)，查看自己是否能夠申請貸款，辦事員并不是直接給出結(jié)果，而是將你最近的金融活動信息輸入計算機，由軟件來判定你是否合格。最后，你還去了賭場想找些樂子，當你步入前門時，尾隨你進來的一個家伙被突然出現(xiàn)的保安給攔了下來。“對不起，索普先生，我們不得不請你離開賭場。我們不歡迎老千”。

上面提到的所有場景，都有機器學(xué)習(xí)存在！

總結(jié)

以上是生活随笔為你收集整理的ML 01、机器学习概论的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。