當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习-机器学习概论（入门机器学习基础知识）

發(fā)布時間：2024/4/11 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习-机器学习概论（入门机器学习基础知识）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習

簡介
- 機器學習一詞來源于Machine Learning的翻譯，主要研究計算機模擬或者實現人類的行為，顧名思義，像學生一樣，通過學習獲取新的知識或者技能，完善自身的知識結構，并不斷提升自己的性能。
- 機器學習是人工智能的核心，其應用編輯人工智能的多個領域，如圖像處理、人臉識別、自然語言處理（NLP）、數據挖掘、生物特征識別、檢測信用卡欺詐、證券市場分析、語音和手寫識別等。
工作原理
- 傳統(tǒng)的計算機工作，人賦予一串指令（稱為程序），計算機根據這串指令一步一步執(zhí)行下去。這個過程因果關系明確，只要人的理解不出偏差，運行結果是可以準確預測的。
- 機器學習，打破了傳統(tǒng)模式，計算機確實還需要人類賦予它一串指令，但這串指令往往不能得到直接的結果，相反，這串指令賦予了機器“學習能力”，從中學習出最終的結果。這個結果往往不能直接編程得到。
- 這就有了機器學習的一種定義：是一種讓計算機利用數據而非指令來進行各種工作的方法。在這背后，關鍵就是“統(tǒng)計學”思想，它所推崇的“相關而非因果”的概念是機器學習的理論根基。在此基礎上可以說機器學習是計算機使用輸入給它的數據，利用人類賦予它的算法得到某種模型的過程，其最終目的是使用該模型預測未知數據的信息。
分類
- 說明
  - 機器學習的基礎是數據，但是核心是各種算法模型，只有通過這些算法，機器才能消化吸收各種數據，不斷完善自身性能。機器學習的算法很多，很多算法是一類的算法只是實現過程略有不同，而有些算法是從其他算法延伸出來的。
  - 根據學習方式的不同一般分為監(jiān)督學習算法、非監(jiān)督學習算法、半監(jiān)督學習算法、強化學習算法。
- 監(jiān)督學習算法
  - 一個人類監(jiān)督學習的案例：當一個孩子逐漸認識事物的時候，父母會給他一些蘋果和橘子，并且告訴他蘋果是什么樣的，有哪些特征；橘子是什么樣的，有哪些特征。經過父母的不斷介紹，這個孩子已經知道蘋果和橘子的區(qū)別，如果孩子在看到蘋果和橘子的時候給出錯誤的判斷，父母會指出錯誤的原因，經過不斷的學習，再見到蘋果和橘子的時候，孩子立即就可以判斷出哪個是蘋果哪個是橘子。
  - 上面這個例子就是監(jiān)督學習的過程，學習中不僅提供事物的具體特征還提供了事物的名稱或者分類。不過人類可以去觸摸去體會，但是機器不一樣，必須提供每個樣本的特征及其類別，使用這些數據，通過算法讓機器學習，進行判斷，逐步減小誤差概率。
  - 不妨這樣理解：監(jiān)督學習是從給定的訓練數據集中“學習”出一個函數，當新的數據到來時，可以根據這個函數預測結果。監(jiān)督學習的訓練集的數據要求包括輸入和輸出，也可以說是包括特征和目標，目標是人類事先標注的。
  - 監(jiān)督學習主要應用于分類（Classify）和回歸（Regression）。常見的監(jiān)督學習算法有**k-近鄰算法（KNN）、決策樹、樸素貝葉斯（NB）、Logistic回歸、支持向量機（SVM）、AdaBoost算法、線性回歸（LR）、局部加權線性回歸（LWLR）、收縮和樹回歸等。
- 非監(jiān)督學習算法
  - 一個人類非監(jiān)督學習的案例：當一個孩子逐漸認識事物的時候，父母會給他一些蘋果和橘子，但是沒有告訴他哪個是蘋果哪個是橘子，而是讓他根據兩個事物的特征自己進行判斷，會把蘋果和橘子分到兩個不同的組中。下次再給孩子一個蘋果，他會把蘋果分到蘋果組中，而不是分到橘子組中。
  - 上面的這個例子就是非監(jiān)督學習的過程，也就是說，在學習的過程中，只是提供事物的具體特征，但不提供事物的名稱，讓學習者自己總結歸納。所以非監(jiān)督學習又被稱為歸納性學習（Clustering），是指將數據集合分成由類似的對象組成的多個簇或者組的過程。當然，在機器學習的過程中，人類只提供樣本的特征，使用這些數據，通過算法讓機器學習，進行自我歸納，以達到同組內的事物特征非常接近，不同組的事物特征相距很遠的結果。
  - 非監(jiān)督學習主要應用于聚類。常見的非監(jiān)督學習算法有k-均值（k-means)、Apriori和FP-Growth等。
- 增強學習算法
  - 我們都玩過迷宮游戲，從一個入口進去，穿過不同的路線，從另外一個入口出來，中間很多路是不通的。如何走出來能？只有分布==分別嘗試不同的路線，如果一個走錯，那么久記錄下來，再嘗試其他的路線，有可能回到上一個路口，走過的路是否正確，自己心中已經有一個規(guī)劃，最終找到最合理的路徑。這就是增強學習的一個例子。
  - 增強學習（Reinforcement Learning，RL）又叫做強化學習，是近年來機器學習和智能控制領域的主要方法之一。通過增強學習，人類或者機器可以知道在上面狀態(tài)下應該采取什么樣的行為。增強學習是從環(huán)境狀態(tài)到動作的映射的學習，把這個映射稱為策略，最終學習到一個合理的策略。它通過試錯的方式獲得最佳策略。另外，由于增強學習指導信息很少，往往事后(最后一個狀態(tài)）才得到反饋信息，以及采取某個行動是獲得正回報還是負回報，如何將回報分配給前面的狀態(tài)以改進相應的策略，規(guī)劃下一步動作。
  - 增強學習的算法主要有動態(tài)規(guī)劃、馬爾可夫決策過程等。
- 簡要比對
  - 監(jiān)督學習：提供數據特征，也提供數據類別，主要用于預測和分類。
  - 非監(jiān)督學習：提供數據特征，不提供數據類別，主要用于發(fā)現事物內部結構。
  - 增強學習：在學習過程中根據外部狀態(tài)實時調整自己的策略，主要用于路徑規(guī)劃。
與深度學習關系
- 機器學習是人工智能的一部分，而深度學習（源于人工神經網絡的研究）是機器學習的一部分。即人工智能>機器學習>深度學習。
機器學習術語
- 數據集
  - DataSet，數據的集合，每一條數據成為樣本（Sample），一般而言每一個樣本相互獨立。（特殊的是隱含馬爾可夫模型和條件隨機場模型）。
  - 訓練集（Training Set）
    - 用來訓練模型的數據集，一般選取一部分數據作為訓練集。
  - 測試集（Test Set）
    - 用來測試、評估模型泛化能力的部分，測試集不會用于訓練，對模型而言是“未知”的。一般，選取一部分數據作為測試集。
  - 交叉驗證集（CV Set）
    - 比較特殊的一部分數據，它是用來調整模型具體參數的。
  - 訓練集用來估計模型，交叉驗證集用來確定網絡結構和控制模型復雜程度的參數，測試集用來檢驗最終選擇最優(yōu)的模型性能如何。一個典型劃分為訓練集占50%其余各占25%。但是，當樣本過少時這個劃分就不太合理，此時選取少部分作為測試集對其余N個樣本使用K折交叉驗證法。
- 屬性或特征
  - 對于每個樣本，通常具有一些“屬性”（Attribute）或者說是“特征”（Feature），特征所取的具體的值為“特征值”（Feather Value）。特征和樣本所組成的空間被稱為“特征空間”（Feather Space）和樣本空間（Sample Space），可以把它們簡單理解為特征和樣本“可能存在的空間”。
- 標簽或類別
  - 與之對應的有“標簽空間”（Label Space），它描述了模型的輸出“可能存在的空間”；當模型是分類器時，通常會稱為“類別空間”。
補充說明
- 參考書籍推薦為《Python3數據分析與機器學習實戰(zhàn)》
- 機器學習領域常用Python庫有
  - 矩陣操作函數庫（numpy）
  - 科學計算的核心包（scipy）
  - Python繪圖庫（matplotlib）
  - 數據分析包（pandas）
  - 機器學習函數庫（scikit-learn，sklearn）
  - 統(tǒng)計建模工具包（StstsModels）
  - 深度學習框架（TensorFlow）
  - 深度學習函數庫（keras）

總結

以上是生活随笔為你收集整理的机器学习-机器学习概论（入门机器学习基础知识）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：数据分析与挖掘实战-家用电器用户行为分析
下一篇：机器学习-分类之支持向量机(SVM)原理

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

机器学习-机器学习概论（入门机器学习基础知识）

機器學習

總結