當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【机器学习实战】第1章机器学习基础

發(fā)布時間：2025/4/16 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了【机器学习实战】第1章机器学习基础小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

第1章機(jī)器學(xué)習(xí)基礎(chǔ)

機(jī)器學(xué)習(xí) 概述

機(jī)器學(xué)習(xí)就是把無序的數(shù)據(jù)轉(zhuǎn)換成有用的信息。

獲取海量的數(shù)據(jù)

從海量數(shù)據(jù)中獲取有用的信息

我們會利用計算機(jī)來彰顯數(shù)據(jù)背后的真實含義，這才是機(jī)器學(xué)習(xí)的意義。

機(jī)器學(xué)習(xí) 場景

例如：識別動物貓模式識別（官方標(biāo)準(zhǔn)）：人們通過大量的經(jīng)驗，得到結(jié)論，從而判斷它就是貓。機(jī)器學(xué)習(xí)（數(shù)據(jù)學(xué)習(xí)）：人們通過閱讀進(jìn)行學(xué)習(xí)，觀察它會叫、小眼睛、兩只耳朵、四條腿、一條尾巴，得到結(jié)論，從而判斷它就是貓。深度學(xué)習(xí)（深入數(shù)據(jù)）：人們通過深入了解它，發(fā)現(xiàn)它會'喵喵'的叫、與同類的貓科動物很類似，得到結(jié)論，從而判斷它就是貓。（深度學(xué)習(xí)常用領(lǐng)域：語音識別、圖像識別）模式識別（pattern recognition）: 模式識別是最古老的（作為一個術(shù)語而言，可以說是很過時的）。我們把環(huán)境與客體統(tǒng)稱為“模式”，識別是對模式的一種認(rèn)知，是如何讓一個計算機(jī)程序去做一些看起來很“智能”的事情。通過融于智慧和直覺后，通過構(gòu)建程序，識別一些事物，而不是人，例如: 識別數(shù)字。機(jī)器學(xué)習(xí)（machine learning）: 機(jī)器學(xué)習(xí)是最基礎(chǔ)的（當(dāng)下初創(chuàng)公司和研究實驗室的熱點領(lǐng)域之一）。在90年代初，人們開始意識到一種可以更有效地構(gòu)建模式識別算法的方法，那就是用數(shù)據(jù)（可以通過廉價勞動力采集獲得）去替換專家（具有很多圖像方面知識的人）。“機(jī)器學(xué)習(xí)”強(qiáng)調(diào)的是，在給計算機(jī)程序（或者機(jī)器）輸入一些數(shù)據(jù)后，它必須做一些事情，那就是學(xué)習(xí)這些數(shù)據(jù)，而這個學(xué)習(xí)的步驟是明確的。機(jī)器學(xué)習(xí)（Machine Learning）是一門專門研究計算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識或技能，重新組織已有的知識結(jié)構(gòu)使之不斷改善自身性能的學(xué)科。深度學(xué)習(xí)（deep learning）: 深度學(xué)習(xí)是非常嶄新和有影響力的前沿領(lǐng)域，我們甚至不會去思考-后深度學(xué)習(xí)時代。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個新的領(lǐng)域，其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，它模仿人腦的機(jī)制來解釋數(shù)據(jù)，例如圖像，聲音和文本。參考地址： http://www.csdn.net/article/2015-03-24/2824301 http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q

機(jī)器學(xué)習(xí)已應(yīng)用于多個領(lǐng)域，遠(yuǎn)遠(yuǎn)超出大多數(shù)人的想象，橫跨：計算機(jī)科學(xué)、工程技術(shù)和統(tǒng)計學(xué)等多個學(xué)科。

搜索引擎: 根據(jù)你的搜索點擊，優(yōu)化你下次的搜索結(jié)果。
垃圾郵件: 會自動的過濾垃圾廣告郵件到垃圾箱內(nèi)。
超市優(yōu)惠券: 你會發(fā)現(xiàn)，你在購買小孩子尿布的時候，售貨員會贈送你一張優(yōu)惠券可以兌換6罐啤酒。
郵局郵寄: 手寫軟件自動識別寄送賀卡的地址。
申請貸款: 通過你最近的金融活動信息進(jìn)行綜合評定，決定你是否合格。

機(jī)器學(xué)習(xí) 組成

主要任務(wù)

分類：將實例數(shù)據(jù)劃分到合適的類別中。
回歸：主要用于預(yù)測數(shù)值型數(shù)據(jù)。（示例：數(shù)據(jù)通過給定數(shù)據(jù)點來擬合最優(yōu)曲線）

監(jiān)督學(xué)習(xí)

必須確定目標(biāo)變量的值，以便機(jī)器學(xué)習(xí)算法可以發(fā)現(xiàn)特征和目標(biāo)變量之間的關(guān)系。 (包括：分類和回歸)
樣本集：訓(xùn)練數(shù)據(jù) + 測試數(shù)據(jù)
- 訓(xùn)練樣本 = 特征(feature) + 目標(biāo)變量(label: 分類-離散值/回歸-連續(xù)值)
- 特征通常是訓(xùn)練樣本集的列，它們是獨(dú)立測量得到的。
- 目標(biāo)變量: 目標(biāo)變量是機(jī)器學(xué)習(xí)預(yù)測算法的測試結(jié)果。
  - 在分類算法中目標(biāo)變量的類型通常是標(biāo)稱型(如：真與假)，而在回歸算法中通常是連續(xù)型(如：1~100)。
知識表示：
可以采用規(guī)則集的形式【例如：數(shù)學(xué)成績大于90分為優(yōu)秀】
可以采用概率分布的形式【例如：通過統(tǒng)計分布發(fā)現(xiàn)，90%的同學(xué)數(shù)學(xué)成績，在70分以下，那么大于70分定為優(yōu)秀】
可以使用訓(xùn)練樣本集中的一個實例【例如：通過樣本集合，我們訓(xùn)練出一個模型實例，得出年輕，數(shù)學(xué)成績中高等，談吐優(yōu)雅，我們認(rèn)為是優(yōu)秀】

非監(jiān)督學(xué)習(xí)

數(shù)據(jù)沒有類別信息，也不會給定目標(biāo)值。
聚類：在無監(jiān)督學(xué)習(xí)中，將數(shù)據(jù)集分成由類似的對象組成多個類的過程稱為聚類。
密度估計：將尋找描述數(shù)據(jù)統(tǒng)計值的過程稱之為密度估計?！揪褪?#xff1a;根據(jù)訓(xùn)練樣本確定x的概率分布】
此外，無監(jiān)督學(xué)習(xí)還可以減少數(shù)據(jù)特征的維度，以便我們可以使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。

訓(xùn)練過程

算法匯總

機(jī)器學(xué)習(xí) 使用

選擇算法需要考慮的兩個問題

算法場景

預(yù)測明天是否下雨，因為可以用歷史的天氣情況做預(yù)測，所以選擇監(jiān)督學(xué)習(xí)算法
給一群陌生的人進(jìn)行分組，但是我們并沒有這些人的類別信息，所以選擇無監(jiān)督學(xué)習(xí)算法、通過他們身高、體重等特征進(jìn)行處理。

需要收集或分析的數(shù)據(jù)是什么

舉例

機(jī)器學(xué)習(xí) 開發(fā)流程

* 收集數(shù)據(jù): 收集樣本數(shù)據(jù) * 準(zhǔn)備數(shù)據(jù): 注意數(shù)據(jù)的格式 * 分析數(shù)據(jù): 為了確保數(shù)據(jù)集中沒有垃圾數(shù)據(jù)；如果是算法可以處理的數(shù)據(jù)格式或可信任的數(shù)據(jù)源，則可以跳過該步驟；另外該步驟需要人工干預(yù)，會降低自動化系統(tǒng)的價值。 * 訓(xùn)練算法: [機(jī)器學(xué)習(xí)算法核心]如果使用無監(jiān)督學(xué)習(xí)算法，由于不存在目標(biāo)變量值，則可以跳過該步驟 * 測試算法: [機(jī)器學(xué)習(xí)算法核心]評估算法效果 * 使用算法: 將機(jī)器學(xué)習(xí)算法轉(zhuǎn)為應(yīng)用程序

Python語言優(yōu)勢

可執(zhí)行偽代碼

Python比較流行：使用廣泛、代碼范例多、豐富模塊庫，開發(fā)周期短

Python語言的特色：清晰簡練、易于理解

Python語言的缺點：唯一不足的是性能問題

Python相關(guān)的庫

科學(xué)函數(shù)庫：SciPy、NumPy(底層語言：C和Fortran)
繪圖工具庫：Matplotlib

作者：片刻?1988
GitHub地址:?https://github.com/apachecn/MachineLearning
版權(quán)聲明：歡迎轉(zhuǎn)載學(xué)習(xí) => 請標(biāo)注信息來源于?ApacheCN

轉(zhuǎn)載于:https://www.cnblogs.com/jiangzhonglian/p/7560771.html

總結(jié)

以上是生活随笔為你收集整理的【机器学习实战】第1章机器学习基础的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：关于align=absmiddle的说明
下一篇： [UWP]涨姿势UWP源码——Unit