日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习-机器学习概论(入门机器学习基础知识)

發布時間:2024/4/11 编程问答 40 豆豆
生活随笔 收集整理的這篇文章主要介紹了 机器学习-机器学习概论(入门机器学习基础知识) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習

  • 簡介
    • 機器學習一詞來源于Machine Learning的翻譯,主要研究計算機模擬或者實現人類的行為,顧名思義,像學生一樣,通過學習獲取新的知識或者技能,完善自身的知識結構,并不斷提升自己的性能。
    • 機器學習是人工智能的核心,其應用編輯人工智能的多個領域,如圖像處理、人臉識別、自然語言處理(NLP)、數據挖掘、生物特征識別、檢測信用卡欺詐、證券市場分析、語音和手寫識別等。
  • 工作原理
    • 傳統的計算機工作,人賦予一串指令(稱為程序),計算機根據這串指令一步一步執行下去。這個過程因果關系明確,只要人的理解不出偏差,運行結果是可以準確預測的。
    • 機器學習,打破了傳統模式,計算機確實還需要人類賦予它一串指令,但這串指令往往不能得到直接的結果,相反,這串指令賦予了機器“學習能力”,從中學習出最終的結果。這個結果往往不能直接編程得到。
    • 這就有了機器學習的一種定義:是一種讓計算機利用數據而非指令來進行各種工作的方法。在這背后,關鍵就是“統計學”思想,它所推崇的“相關而非因果”的概念是機器學習的理論根基。在此基礎上可以說機器學習是計算機使用輸入給它的數據,利用人類賦予它的算法得到某種模型的過程,其最終目的是使用該模型預測未知數據的信息
  • 分類
    • 說明
      • 機器學習的基礎是數據,但是核心是各種算法模型,只有通過這些算法,機器才能消化吸收各種數據,不斷完善自身性能。機器學習的算法很多,很多算法是一類的算法只是實現過程略有不同,而有些算法是從其他算法延伸出來的。
      • 根據學習方式的不同一般分為監督學習算法非監督學習算法半監督學習算法強化學習算法
    • 監督學習算法
      • 一個人類監督學習的案例:當一個孩子逐漸認識事物的時候,父母會給他一些蘋果和橘子,并且告訴他蘋果是什么樣的,有哪些特征;橘子是什么樣的,有哪些特征。經過父母的不斷介紹,這個孩子已經知道蘋果和橘子的區別,如果孩子在看到蘋果和橘子的時候給出錯誤的判斷,父母會指出錯誤的原因,經過不斷的學習,再見到蘋果和橘子的時候,孩子立即就可以判斷出哪個是蘋果哪個是橘子。
      • 上面這個例子就是監督學習的過程,學習中不僅提供事物的具體特征還提供了事物的名稱或者分類。不過人類可以去觸摸去體會,但是機器不一樣,必須提供每個樣本的特征及其類別,使用這些數據,通過算法讓機器學習,進行判斷,逐步減小誤差概率。
      • 不妨這樣理解:監督學習是從給定的訓練數據集中“學習”出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集的數據要求包括輸入和輸出,也可以說是包括特征和目標,目標是人類事先標注的。
      • 監督學習主要應用于分類(Classify)和回歸(Regression)。常見的監督學習算法有**k-近鄰算法(KNN)、決策樹、樸素貝葉斯(NB)、Logistic回歸、支持向量機(SVM)、AdaBoost算法、線性回歸(LR)、局部加權線性回歸(LWLR)、收縮和樹回歸等。
    • 非監督學習算法
      • 一個人類非監督學習的案例:當一個孩子逐漸認識事物的時候,父母會給他一些蘋果和橘子,但是沒有告訴他哪個是蘋果哪個是橘子,而是讓他根據兩個事物的特征自己進行判斷,會把蘋果和橘子分到兩個不同的組中。下次再給孩子一個蘋果,他會把蘋果分到蘋果組中,而不是分到橘子組中。
      • 上面的這個例子就是非監督學習的過程,也就是說,在學習的過程中,只是提供事物的具體特征,但不提供事物的名稱,讓學習者自己總結歸納。所以非監督學習又被稱為歸納性學習(Clustering),是指將數據集合分成由類似的對象組成的多個簇或者組的過程。當然,在機器學習的過程中,人類只提供樣本的特征,使用這些數據,通過算法讓機器學習,進行自我歸納,以達到同組內的事物特征非常接近,不同組的事物特征相距很遠的結果。
      • 非監督學習主要應用于聚類。常見的非監督學習算法有k-均值(k-means)、Apriori和FP-Growth等。
    • 增強學習算法
      • 我們都玩過迷宮游戲,從一個入口進去,穿過不同的路線,從另外一個入口出來,中間很多路是不通的。如何走出來能?只有分布==分別嘗試不同的路線,如果一個走錯,那么久記錄下來,再嘗試其他的路線,有可能回到上一個路口,走過的路是否正確,自己心中已經有一個規劃,最終找到最合理的路徑。這就是增強學習的一個例子。
      • 增強學習(Reinforcement Learning,RL)又叫做強化學習,是近年來機器學習和智能控制領域的主要方法之一。通過增強學習,人類或者機器可以知道在上面狀態下應該采取什么樣的行為。增強學習是從環境狀態到動作的映射的學習,把這個映射稱為策略,最終學習到一個合理的策略。它通過試錯的方式獲得最佳策略。另外,由于增強學習指導信息很少,往往事后(最后一個狀態)才得到反饋信息,以及采取某個行動是獲得正回報還是負回報,如何將回報分配給前面的狀態以改進相應的策略,規劃下一步動作。
      • 增強學習的算法主要有動態規劃、馬爾可夫決策過程等。
    • 簡要比對
      • 監督學習:提供數據特征,也提供數據類別,主要用于預測和分類。
      • 非監督學習:提供數據特征,不提供數據類別,主要用于發現事物內部結構。
      • 增強學習:在學習過程中根據外部狀態實時調整自己的策略,主要用于路徑規劃。
  • 與深度學習關系
    • 機器學習是人工智能的一部分,而深度學習(源于人工神經網絡的研究)是機器學習的一部分。即人工智能>機器學習>深度學習。
  • 機器學習術語
    • 數據集
      • DataSet,數據的集合,每一條數據成為樣本(Sample),一般而言每一個樣本相互獨立。(特殊的是隱含馬爾可夫模型和條件隨機場模型)。
      • 訓練集(Training Set)
        • 用來訓練模型的數據集,一般選取一部分數據作為訓練集。
      • 測試集(Test Set)
        • 用來測試、評估模型泛化能力的部分,測試集不會用于訓練,對模型而言是“未知”的。一般,選取一部分數據作為測試集。
      • 交叉驗證集(CV Set)
        • 比較特殊的一部分數據,它是用來調整模型具體參數的。
      • 訓練集用來估計模型,交叉驗證集用來確定網絡結構和控制模型復雜程度的參數,測試集用來檢驗最終選擇最優的模型性能如何。一個典型劃分為訓練集占50%其余各占25%。但是,當樣本過少時這個劃分就不太合理,此時選取少部分作為測試集對其余N個樣本使用K折交叉驗證法。
    • 屬性或特征
      • 對于每個樣本,通常具有一些“屬性”(Attribute)或者說是“特征”(Feature),特征所取的具體的值為“特征值”(Feather Value)。特征和樣本所組成的空間被稱為“特征空間”(Feather Space)和樣本空間(Sample Space),可以把它們簡單理解為特征和樣本“可能存在的空間”。
    • 標簽或類別
      • 與之對應的有“標簽空間”(Label Space),它描述了模型的輸出“可能存在的空間”;當模型是分類器時,通常會稱為“類別空間”。
  • 補充說明
    • 參考書籍推薦為《Python3數據分析與機器學習實戰》
    • 機器學習領域常用Python庫有
      • 矩陣操作函數庫(numpy)
      • 科學計算的核心包(scipy)
      • Python繪圖庫(matplotlib)
      • 數據分析包(pandas)
      • 機器學習函數庫(scikit-learn,sklearn)
      • 統計建模工具包(StstsModels)
      • 深度學習框架(TensorFlow)
      • 深度學習函數庫(keras)

總結

以上是生活随笔為你收集整理的机器学习-机器学习概论(入门机器学习基础知识)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。