當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

通过这一篇文章就了解机器学习的主要内容和核心思想（包括一些算法思想总结）！！！

發布時間：2024/3/12 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了通过这一篇文章就了解机器学习的主要内容和核心思想（包括一些算法思想总结）！！！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

機器學習總結–一篇文章了解機器學習的主要要點和基礎

L1和L2正則化項

對于L1正則項來說，因為L1正則項是一組菱形，這些交點容易易落在坐標軸上。因此，另?一個參數的值在這個交點上就是0，從?而實現了稀疏化。
對于 L2 正則項來說，因為 L2 正則項的等值線是一組圓形。所以，這些交點可能落在整個平 ?面的任意位置。所以它不不能實現「稀疏化」。但是，另?方面，由于 (w1, w2) 落在圓上，所以它們的值會比較接近。這就是為什么 L2 正則項可以使得參數在零附近稠密?而平滑。
另外，從貝葉斯的?角度來看，正則化等價于對模型參數引入先驗分布。

1.聚類

聚類是非監督學習的代表。當訓練樣本的標記信息是未知的時候，我們通常需要通過學習來解釋數據內在的性質和規律，此時一般要用到聚類，聚類一般是將樣本劃分為不相交的子集，每個子集對應相應的概念或者屬性，但是需要注意的是，這對于聚類算法是未知的，聚類算法僅僅是自動形成簇結構，簇對應的含義由使用者本人來定義和把握。
經典的聚類算法：K-Means算法是基于劃分的聚類算法 DBSCAN算法是基于密度的聚類算法密度最大值聚類是基于密度的聚類

2.深度學習

狹義的來說就是很多層的神經網絡。我們可以從另一個角度來理解深度學習 . 無論是 DBN 還是 CNN，其多隱層堆疊、每層對上一層的輸出進行處理的機制，可看作是在對輸入信號進行逐層加工，從而把初始的、與輸出目標之間聯系不太密切的輸入表示轉化成與輸出目標聯系更密切的表示，使得原來僅基于最后一層輸出映射難以完成的任務成為可能換言之，通過多層處理，逐漸將初始的 “低層"特征表示轉化為 " 高層” 特征表示后，用"簡單模型" 即可完成復雜的分類等學習任務由此可將深度學習理解為進行"特征學習 " (feature learning)或 "表示學習 " (representation learning) .

3.對數幾率回歸或邏輯斯蒂回歸模型

利用線性回歸模型的預測結果去逼近真實標記的模型。換一個角度，輸出y=1的對數幾率是輸入x的線性函數。
邏輯斯蒂回歸可以將線性函數w·x轉換成概率。需要注意雖然叫回歸但是卻是分類模型。

4.線性類別分析（LDA）

將訓練樣集投影到一條直線上，使得同類樣例的點在這條直線上的投影盡可能接近，同時使得異類樣例的投影點盡可能的原理；在對新樣本進行分類時，將其投影到這條直線上，并根據位置來確定樣本的類別。

5.決策樹

分類決策樹的分類模型是對實例進行分類描述的一種樹形結構，包括結點和有向邊，結點分為內結點和葉結點。內結點表示一個特征或者屬性，葉節點表示類。
ID3算法，C4.5算法和CART算法。特征選擇的原則：信息增益和信息增益比，后面還有基尼指數
GBDT（Gradient Boosting Decision Tree）是一種迭代的決策樹算法，又叫 MART（Multiple Additive Regression Tree)，它通過構造一組弱的學習器（樹），并把多顆決策樹的結果累加起來作為最終的預測輸出。該算法將決策樹與集成思想進行了有效的結合。

6.神經網絡

神經網絡是由具有適應性的簡單單元組成的廣泛并行互聯的網絡，它的組織能夠模擬生物神經系統對真實世界作出的交互反應。
BP誤差逆傳播算法是最著名的神經網絡學習算法它的目標是最小化訓練集上的最小誤差，且誤差是均方誤差。當然現在深度學習中國已經逐漸開始使用其他的誤差種類來進行計算，取得了不錯的效果。

7.梯度下降法

梯度下降法就是沿著負梯度方向搜索最優解，當誤差函數在當前點的梯度為0時，則已達到局部極小，更新量變為0，此時迭代停止。梯度下降法是使用最為廣泛的參數尋優方法。
牛頓法是梯度下降法的進一步發展，梯度下降法利?目標函數的一階偏導數信息、以負梯度方向作為搜索方向，只考慮目標函數在迭代點的局部性質；?牛頓法不僅使?目標函數的一階偏導數，還進一步利?了目標函數的二階偏導數，這樣就考慮了梯度變化的趨勢，因而能更全面地確定合適的搜索方向加快收斂，它具二階收斂速度。擬牛頓法包括BFGS算法和DFP算法等

8.支持向量機

支持向量機是一種二分類分類模型，它的學習策略是間隔最大化，這是區別于感知機的，感知機是極小化誤分點到分離超平面的距離。對于支持向量機而言，求解的分離超平面是唯一的，而感知機獲得的分離超平面是無窮多個的，而且還可以通過核方法將支持持向量機轉化為實質上的非線性分離器。
當訓練數據線性可分時，通過硬間隔最?大化，學習一個線性可分支持向量機。
間隔最大化的直觀解釋是：對訓練數據集找到幾何間隔最大的超平?意味著以充分?的確信度對訓練數據進行分類。即，不僅將正負實例點分開，而且對最難分的實例點（離超平面最近的點）也有足夠大的確信度將它們分開。這樣的超平面應該對未知的新實例有很好的分類預測能力。
當輸入空間為歐式空間或離散集合、特征空間為希爾伯特空間時，核函數表示將輸入從輸入空間映射到特征空間得到的特征向量之間的內積。

9.樸素貝葉斯分類器

樸素貝葉斯分類器是利用貝葉斯定理和特征條件獨立性假設的分類方法。它通過訓練集求輸入和輸出的聯合概率分布，具體的就是求先驗概率和條件概率分布，然后基于貝葉斯定理計算出后驗概率最大的輸出。根據對屬性的依賴程度，貝葉斯分類器構成了一個譜：樸素貝葉斯分類器和貝葉斯網構成了譜的兩端，樸素貝葉斯分類器不考慮屬性間的依賴關系，而貝葉斯網可以利用任意屬性間的依賴關系，而半樸素貝葉斯分類似則是其中的一個折中的方案。

10.集成學習

集成學習(ensemble learning)通過構建并結合多個學習器來完成學習任務，有時也被稱為多分類器系統(multi-classifier system）。根據個體學習器的生成方式，目前的集成學習方法大致可分為兩大類：即個體學習器問存在強依賴關系、必須串行生成的序列化方法；以及個體學習器間不存在強依賴關系、可同時生成的并行化方法;前者的代表是 Boosting，后者的代表是 Bagging 和"隨機森林" (Random Forest).
Adaboost算法首先根據訓練集學習一個基學習器，然后根據基學習器的表現重新分布樣本，使得做錯的樣本在后面的學習過程中受到更多的關注。
bagging 是自助采用，每個采樣集m個樣本，一共T個樣本集，然后基于每個樣本集學習處一個基學習器，然后將這些學習器結合。
隨機森林(Random Forest，簡稱 RF) 是 Bagging的一個擴展變體.盯在以決策樹為基學習器構建 Bagging 集成的基礎上，進一步在決策樹的訓練過程中引入了隨機屬性選擇。
隨機森林可以理解為隨機的構建森林的過程，隨機體現在兩個方面的隨機采樣包括有放回的重復取N個輸入樣本，然后隨機的取部分特征，構建決策樹，決策樹是獨立的，不存在強依賴關系的。當一個新的樣本進入時由每一個決策樹投票表決，最后確定為投票最多的一類。他與bagging不同的是采樣特征，RF是部分特征，但bagging是全部特征，根據不同的樣本集學習不同的學習器，最后來投票表決類。這里隨機森林（RF）不需要剪枝，因為每一個決策樹都很弱，但是大家合起來就容易了

11.降維和度量學習

k近鄰的算法思想很簡單：當輸入一個新的樣例時，首先在訓練集中找到該實例的最近鄰的k個實例，然后這個k個實例的多數屬于某個類，就把該輸入樣例分類某個類。
PCA（主成分分析）是最常用的一種降維方法，它是一種無監督的線性降維方法。主成分分析的另一種解釋.我們知道，樣本點xi在新空間中超平面上的投影是WTXi ，若所有樣本點的投影能盡可能分開，則應該使投影后樣本點的方差最大化。
對我們得到的優化目標使用拉格朗日乘子法，然后對協方差矩陣進行特征值分解，再對特征值進行排序，取前d‘個特征值對應的特征向量構成W這就是主成分分析的解。相當于降維到低維空間d‘

12.特征選擇和稀疏學習

在一般的學習任務中并沒有現代漢語詞典可用，因而我們需要學習出一個這樣的字典，為普通稠密表達的樣本找到合適的字典，將樣本轉化為合適的稀疏表示形式，從而使得學習任務得到簡化，模型的復雜度降低。

13. 隱馬爾可夫模型（HMM）（很重要）

隱馬爾可夫模型是關于時序的概率模型，它描述的是由隱藏的馬爾科夫鏈生成不可觀測的狀態序列，然后再有這個狀態序列生成一個可以觀測而產生觀測隨機序列的過程。它結構最簡單的動態貝葉斯網，是著名的有向圖模型，在語音識別，自然語言處理方面有著廣泛的應用。
所謂的馬爾可夫鏈就是系統下一時刻的狀態僅由當前狀態決定，不依賴于以往的任何狀態。
相對比的，MRF馬爾可夫隨機場是一種典型的馬爾可夫網，是一種著名的無向圖模型。CRF條件隨機場是一種判別式無向圖模型。

14.規則學習

規則學習是從訓練數據中學習出一組能用于對未見示例進行判別的規則。從形式語言表達能力上可分為：命題規則和一階規則。

15.強化學習

強化學習通常用馬爾可夫決策過程來描述，機器處于環境E中，x表示機器感知到環境的狀態，A表示動作空間，P表示施加了動作后的狀態轉移函數，環境會根據潛在的函數給機器一個獎賞R。因而強化學習任務對應了四元組E=（X,A,P,R）.

總結

以上是生活随笔為你收集整理的通过这一篇文章就了解机器学习的主要内容和核心思想（包括一些算法思想总结）！！！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： springCloud运行主类，错误:
下一篇：究极风暴3 计算机丢失,究极风暴4 丢失