當前位置：首頁 >

从零开始的AI·机器学习の基本概念

發(fā)布時間：2025/4/5 74 豆豆

生活随笔收集整理的這篇文章主要介紹了从零开始的AI·机器学习の基本概念小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

從零開始的AI系列

機器學習の基本概念

從零開始的AI系列
一、機器學習の相關術語及其理解
二、機器學習の學習任務
- 分類
- 回歸
- 聚類
- 特征降維與低維可視化
三、機器學習の學習范式
- 監(jiān)督式學習
- 半監(jiān)督式學習
- 非監(jiān)督式學習
- 強化學習
四、假設&假設空間&版本空間
五、假設の選擇原則
- “奧克姆剃刀(Occam’s Razor)”準則
- “多釋原則”
六、機器學習の三要素
- 模型
- 策略
- - 損失函數(shù)（代價函數(shù)）
  - 期望風險
  - 經(jīng)驗風險
  - 經(jīng)驗風險最小化策略
  - 結構風險最小化策略
- 算法
- - 常見算法
- 方法=模型+策略+算法

機器學習 Machine Learning 是一門涉及統(tǒng)計學、系統(tǒng)辨識、逼近理論、神經(jīng)網(wǎng)絡、優(yōu)化理論、計算機科學、腦科學等諸多領域的交叉學科，研究計算機怎樣模擬或實現(xiàn)人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的性能，是人工智能技術的核心。基于數(shù)據(jù)的機器學習是現(xiàn)代智能技術中的重要方法之一，研究從觀測數(shù)據(jù)（樣本）出發(fā) 尋找規(guī)律，利用這些規(guī)律對未來數(shù)據(jù)或無法觀測的數(shù)據(jù) 進行預測。
–人工智能標準化白皮書(2018版)

本文大綱基于河北師范大學軟件學院張朝暉老師編寫的PPT，以《統(tǒng)計學習方法》《機器學習》等書籍對內(nèi)容加以補充，并輔以CSDN前輩大佬有關文章的啟發(fā)，整理總結而成。最后，歡迎各位學弟學妹們報考河北師范大學軟件學院！

一、機器學習の相關術語及其理解

樣本sample：所研究對象的一個個體。相當于統(tǒng)計學中的實例（如河北師大學生對一票否決制的意見）
特征feature：研究對象的不同于其他對象的特點（如河北師大學生是否贊同一票否決制）
屬性attribute：用數(shù)值表示的某些量化特征（如河北師大學生選擇贊同則標記為1，不贊同標記為-1，無感的標記為0）
特征空間：分別以每個特征作為一個坐標軸，所有特征所在坐標軸張成一個用于描述不同樣本的空間（如以河北師大學生大一到大四為縱坐標，以贊同，不贊同，無感為橫坐標建立坐標系）每個具體樣本就對應空間的一個點，在這個意義下，也稱樣本為樣本點。特征的數(shù)目即為特征空間的維數(shù)。 模型都是定義在特征空間上的
輸入空間：可能輸入的所有元素的集合，其中輸入變量用X表示
輸出空間：可能輸出的所有元素的集合，其中輸出變量用Y表示

對特征空間，輸入空間和輸出空間的理解把輸入空間，輸出空間分別看成一個房子，輸入空間房子里有很多東西，輸出空間里有很多東西。輸出空間里每一個東西，都能在輸出空間房子里找到一個東西與它對應。一般情況下，假設特征空間和輸入空間沒有區(qū)別。如果硬把他倆分開的話，特征空間里每個變量都代表了不同的意義 x=(x(1),x(2),…,x(i),…,x(n)) x(i)表示x的第i 個特征向量

類別標簽：為數(shù)據(jù)分類處理的依據(jù)（如河北師大學生依據(jù)年級分為大一到大四，大一到大四即為類別標簽）
在機器學習和模式識別等領域中，一般需要將樣本分成獨立的三部分訓練集（train set），驗證集（validation set ) 和測試集（test set）。其中訓練集用來估計模型，驗證集用來確定網(wǎng)絡結構或者控制模型復雜程度的參數(shù)，而測試集則檢驗最終選擇最優(yōu)的模型的性能如何。一個典型的劃分是訓練集占總樣本的50%，而其它各占25%，三部分都是從樣本中隨機抽取。

二、機器學習の學習任務

分類

基于已知類別標簽的訓練集出模型

用最終的模型預測未知數(shù)據(jù)的分類結果

預測結果為事先指定的兩個或多個類別中的某一個，或預測結果來自數(shù)目有限的離散值之一

回歸

基于已知答案的訓練集，估計自變量與因變量之間關系

基于該關系對新的觀測產(chǎn)生的輸出進行預測

預測輸出為連續(xù)的實數(shù)值

聚類

劃分給定的數(shù)據(jù)集，得到若干“簇”；

“簇內(nèi)”樣本之間較“簇間”樣本之間應更為相似。

通過聚類得到的可能各簇對應一些潛在的概念結構

聚類是自動為給定的樣本賦予標記的過程。

特征降維與低維可視化

將初始的數(shù)據(jù)高維表示轉化為關于樣本的低維表示，來簡化輸入

對降維后的數(shù)據(jù)進行可視化表示

三、機器學習の學習范式

監(jiān)督式學習

目的在于精確預測
適用于面向分類模型，回歸模型的分析
預測性能
基于已知標簽的數(shù)據(jù)集學習預測模型，基于該模型對未知樣本的輸出做出預測。

半監(jiān)督式學習

基于少量有標簽樣本(標注成本高)、大量無標簽樣本(獲取容易)學習輸入到輸出的預測模型。
充分利用無標簽樣本的信息，輔助有標簽的樣本，進行監(jiān)督學習
以較低成本獲得較好的學習效果。

非監(jiān)督式學習

目的在于發(fā)現(xiàn)關于數(shù)據(jù)的緊致描述、知識發(fā)現(xiàn)
“描述性能”
算法基于無標簽樣本集進行模型學習，基于學得的模型對所
有未知樣本做出預測。

強化學習

借助智能體與環(huán)境的連續(xù)互動，學習最優(yōu)行為策略
以試錯方式，使智能體學得當前環(huán)境狀態(tài)到行為的映射，使得智能體能結合環(huán)境狀態(tài)，選擇能夠獲得環(huán)境最大獎賞的行為
結合給定的獎懲機制，算法學習如何與環(huán)境交互，以便智能體對環(huán)境采取更好的動作行為。
典型應用：下棋、無人駕駛

四、假設&假設空間&版本空間

每一個具體的模型就是一個 “假設(hypothesis)”
所有模型的集合即假設空間
模型的學習過程就是一個在所有假設構成的假設空間進行搜索的過程，搜索的目標就是找到與訓練集“匹配(fit)”的假設。
基于有限規(guī)模的訓練樣本集進行假設的匹配搜索，會存在多個假設與訓練集一致的情況，稱這些假設組成的集合為 “版本空間”

五、假設の選擇原則

“奧克姆剃刀(Occam’s Razor)”準則

如無必要，勿增實體
若多個假設與經(jīng)驗觀測一致，則選擇最簡單的那個

“多釋原則”

保留與經(jīng)驗觀察一致的所有假設 (與集成學習的思想一致)

六、機器學習の三要素

模型

首先要確定需要學習什么樣的模型

策略

機器學習的目標在于從假設空間中選取最優(yōu)模型
策略就是確定基于什么樣的準則，學習或選擇最優(yōu)模型。
實質：面向具體模型的學習，確定準則函數(shù)（也稱損失函數(shù)、代價函數(shù)、目標函數(shù)）

損失函數(shù)（代價函數(shù)）

損失函數(shù)值越小越好

期望風險

機器學習的目標在于選擇期望風險最小的模型
但因聯(lián)合分布P （X,Y）未知，難以計算

經(jīng)驗風險

對所有訓練樣本都求一次損失函數(shù)，再累加求平均。即模型f(x)對訓練樣本中所有樣本的預測能力。
所謂經(jīng)驗風險最小化即對訓練集中的所有樣本點損失函數(shù)的平均最小化。經(jīng)驗風險越小說明模型f(x)對訓練集的擬合程度越好。
實際問題中，訓練樣本數(shù)目N非常有限，需對經(jīng)驗風險矯正

經(jīng)驗風險最小化策略

在假設空間、損失函數(shù)形式、以及訓練樣本集確定的前提下
假設空間中，使經(jīng)驗風險最小的模型，就是最優(yōu)模型。
當容量足夠大時效果好
當容量小時，容易產(chǎn)生過擬合

結構風險最小化策略

J(f) 是模型的復雜度，模型f越復雜，J(f)值就越大
λ 是正則項的系數(shù)，λ≥0 ，用以權衡經(jīng)驗風險和模型復雜度。
值越小，模型關于訓練集的學習能力越好

算法

"算法"是指采用何種算法，求解最優(yōu)化問題

常見算法

決策樹（Decision Trees）
樸素貝葉斯分類(Naive Bayesian classification)
最小二乘法（Ordinary Least Squares Regression）
邏輯回歸(Logistic Regression)
支持向量機（Support Vector Machine，SVM）
集成方法（Ensemble methods）
聚類算法（Clustering Algorithms）
主成分分析（Principal Component Analysis，PCA）
奇異值分解（Singular Value Decomposition，SVD）
獨立成分分析（Independent Component Analysis，ICA）

方法=模型+策略+算法

總結

以上是生活随笔為你收集整理的从零开始的AI·机器学习の基本概念的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：五天带你学完《计算机网络》·第五天·网络
下一篇：从零开始的AI·吃透kNN算法，学完我悟