當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【拜小白的机器学习】2-机器学习的种类与基本术语概念

發布時間：2024/1/8 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了【拜小白的机器学习】2-机器学习的种类与基本术语概念小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

根據面臨的不同問題，機器學習可以分為如下幾類：

聚類問題

分類問題

回歸問題

強化學習

=====================分割線===============

1.聚類問題? （無監督學習）??

聚類算法屬于非監督式學習，通常被用于探索性的分析，是根據“物以類聚”的原理，將本身沒有類別的樣本聚集成不同的組，這樣的一組數據對象的集合叫做簇，并且對每一個這樣的簇進行描述的過程。
它的目的是使得屬于同一簇的樣本之間應該彼此相似，而不同簇的樣本應該足夠不相似。主要是根據數據樣本上抽取的特征，挖掘數據的關聯模式。
常見的典型應用場景有用戶挖掘、客戶細分、客戶研究、市場細分、價值評估、新聞聚類等。 MLlib 目前支持廣泛使用的 KMmeans 聚類算法。

=================分割線=================

2.分類問題（監督學習）

分類算法屬于監督式學習，使用類標簽已知的樣本建立一個分類函數或分類模型，應用分類模型，能把數據庫中的類標簽未知的數據進行歸類。主要是根據數據樣本上抽取出的特征，判定屬于有限個類別中的哪一個。
分類在數據挖掘中是一項重要的任務，目前在商業上應用最多，常見的典型應用場景有垃圾郵件識別、圖像內容識別、流失預測、精確營銷、客戶獲取、個性偏好等。 MLlib 目前支持分類算法有：邏輯回歸、支持向量機、樸素貝葉斯和決策樹。

==================分割線=================

3.回歸問題（監督學習）

回歸算法屬于監督式學習，每個個體都有一個與之相關聯的實數標簽，并且我們希望在給出用于表示這些實體的數值特征后，所預測出的標簽值可以盡可能接近實際值。主要是根據數據樣本上抽取出的特征，預測連續值結果。 MLlib 目前支持回歸算法有：線性回歸、嶺回歸、 Lasso 和決策樹。

=================分割線============

4.強化學習

主要是研究如何基于環境而行動，以取得最大化的預期利益。可以這么理解，舉個栗子，在沒有老師提示的情況下，自己對預測的結果進行評估的方法。通過這樣的自我評估，學生為了獲得老師的最高價將而不斷的進行學習。?
最終目標：使計算機獲得對沒學習過的問題也可以做出正確解答的泛化能力。
與監督學習不同的是，強化學習沒有正確輸出的引導，也就是沒有正確的答案；與無監督學習不同的是，強化學習需要對獲取到的信息進行自我評估。強化學習被認為使人類主要的學習模式之一。?
應用：機器人的自動控制、計算機游戲中的人工智能、市場戰略的最優化等。?

======================分割線===============

5.監督學習與無監督學習

根據上面，我們可以了解機器學習中還可以分為監督學習與無監督，那么什么是監督學習與無監督學習呢。

監督學習

定義：指有求知欲的學生從老師那里獲取知識、信息，老師提供對錯指示、告知最終答案的學習過程。在機器學習中，計算機 = 學生，周圍的環境 = 老師。?
最終目標：根據在學習過程中獲得的經驗技能，對沒學習過的問題也可以做出正確解答，使計算機獲得這種泛化能力。?
應用：手寫文字識別、聲音處理、圖像處理、垃圾郵件分類與攔截、網頁檢索、基因診斷、股票預測等。?
典型任務：預測數值型數據的回歸、預測分類標簽的分類、預測順序的排列。
我的理解：計算機在正確輸出的不斷更正和指引下，不斷提高自己分析和解決問題的正確性。也就是說在監督學習中，我們的訓練樣本中要有正確的結果供我們參考。

無監督學習

定義：指在沒有老師的情況下，學生自學的過程。在機器學習中，計算機從互聯網中自動收集信息，并獲取有用信息。?
最終目標：無監督學習不局限于解決有正確答案的問題，所以目標可以不必十分明確。?
應用：人造衛星故障診斷、視頻分析、社交網站解析、聲音信號解析、數據可視化、監督學習的前處理工具等。?
典型任務：聚類、異常檢測。?
我的理解：計算機從網絡中獲取有用的信息。

=======================分割線========================

6.基本術語概念

模型：模型也稱為學習器，可看作學習算法在給定數據集和參數空間的實例化，泛指從數據中學到的結果。
數據集：一組記錄的集合。

????????????????如：一批西瓜的記錄：
????????????????????????????（色澤：青綠；? 根蒂：蜷縮；? 敲聲：濁響）
????????????????????????????（色澤：烏黑；? 根蒂：稍蜷；? 敲聲：沉悶）
????????????????????????????（色澤：淺白；? 根蒂：硬挺；? 敲聲：清脆）

示例/樣例/樣本：數據集中的每個記錄稱之為樣本或者示例。例如上面一條數據集中的一條數據。
屬性/特征：對象的某方便表現或特征。例如“色澤” ， “根蒂”等。
屬性值：屬性上的取值。例如“青綠”等
屬性空間/樣本空間/輸入空間：樣本屬性張成的空間稱為屬性空間（樣本空間、輸入空間），每個樣本對應空間中的一個點，故而一個示例也稱為一個“特征向量”。如：把“色澤”， “根蒂”， “敲聲”作為3個坐標軸，則他們一起張成一個用于描述西瓜的三維空間，每個西瓜都可在這個空間找到自己的坐標位置。
特征向量：空間中每個點對應的一個坐標向量。

????????????D={x1, x2, x3, ... , xm}表示包含m個示例的數據集。
????????????xi=(xi1, xi2, xi3, ... xin)表示n維樣本空間中的一個向量。

學習/訓練：從數據中學得模型的過程稱為“學習”或“訓練”，這個過程通過執行某個學習算法來完成。
訓練數據/訓練集：訓練過程中使用的數據稱為訓練數據，訓練樣本組成的集合稱為訓練集。學得的模型對應了關于數據的某種潛在的規律，因此稱為“假設”。這種潛在規律自身，則是稱為真相或真實，學習過程就是為了找出或逼近真相。訓練集通常是樣本空間中很小的一個采樣。
訓練樣本：數據集中的一個樣本。
假設：學得模型對應了關于數據的某種潛在規律。
真相：真正存在的潛在規律。學習過程是為了找出或逼近真相。
標記：關于示例結果的信息，如（（色澤=青綠，根蒂=蜷縮，敲聲=濁響），好瓜），其中”好瓜“稱為標記。
分類：若要預測的是離散值，如”好瓜“，”壞瓜“，此類學習任務稱為分類。
回歸：若要預測的是連續值，如西瓜的成熟度為0.95，0.37，此類學習任務稱為回歸。
測試：學得模型后，使用其進行預測的過程。
測試樣本：被預測的樣本。
聚類：將訓練集中的數據分成若干組，每組稱為一個”簇“。
監督學習：訓練集有標記信息，學習方式有分類和回歸。
無監督學習：訓練集沒有標記信息，學習方式有聚類。
泛化能力：學得模型適用于新樣本的能力。一般來說，訓練樣本越大，越有可能通過學習來獲得具有強泛化能力的模型。
無監督逐層訓練是多隱層網絡訓練的有效手段。其基本思想是每次訓練一層隱節點，訓練時將上一層隱節點的輸出作為輸入，而本層隱節點的輸出作為下一層陰界點的輸入，在預訓練全部完成后，再對整個網絡進行微調。
概念學習：概念學習（歸納學習）的目標就是泛化，即是通過對訓練集中的訓練樣本進行學習以獲得對測試集進行判斷的能力。
歸納偏好：機器學習算法在學習過程中對某種類型假設的偏好我們稱之為“歸納偏好”，簡稱“偏好”。歸納偏好對應了學習算法本身所作出的關于什么樣的模型更好的假設，在具體的現實問題中，這個假設是否成立，即算法的歸納偏好是否與問題本身匹配，大多數時候直接決定了算法能否取得好的性能。

===================分割線======================

參考文獻：

機器學習的種類及其典型的任務

機器學習分類

===================END======================

總結

以上是生活随笔為你收集整理的【拜小白的机器学习】2-机器学习的种类与基本术语概念的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：计算机黑屏显示桌面,电脑开机后显示桌
下一篇：物联网卡要求实名认证的真正原因你知道吗?