當前位置：首頁 >

机器学习相关资料

發布時間：2025/3/21 52 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习相关资料小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

首先，簡單介紹一下機器學習的一些原理。機器學習主要來說有兩種方法，監督式學習（Supervised Learning）和非監督式學習（Unsupervised Learning）。

監督式學習

所謂監督式學習，也就是說，我們需要提供一組學習樣本，包括相關的特征數據以及相應的標簽。程序可以通過這組樣本來學習相關的規律或是模式，然后通過得到的規律或模式來判斷沒有被打過標簽的數據是什么樣的數據。

舉個例子，假設需要識別一些手寫的數字，那么我們就需要找到盡可能多的手寫體數字的圖像樣本，然后人工或是通過某種算法來明確地標注什么是這些手寫體的圖片，誰是 1，誰是 2，誰是 3……這組數據就叫樣本數據，又叫訓練數據（training data）。通過機器學習的算法，找到每個數字在不同手寫體下的特征，進而找到規律和模式。然后通過得到的規律或模式來識別那些沒有被打過標簽的手寫數據，以此完成識別手寫體數字的目標。

一種比較常見的監督式學習，就是從歷史數據中獲得數據的走向趨勢，來預測未來的走向。比如，我們使用歷史上的股票走勢數據來預測接下來的股價漲跌，或者通過歷史上的一些垃圾郵件的樣本來識別新的垃圾郵件。

在監督式學習下，需要有樣本數據或是歷史數據來進行學習，這種方式會有一些問題。

如果一個事物沒有歷史數據，那么就不好做了。變通的解決方式是通過一個和其類似的事物的歷史數據。我以前做過的需求預測，就屬于這種情況。對于新上市的商品來說，完全沒有歷史數據，比如，iPhone X，那么就需要從其類似的商品上找歷史數據，如 iPhone 7 或是別的智能手機。
歷史數據中可能會有一些是噪音數據，需要把這些噪音數據給過濾掉。一般這樣的過濾方式要通過人工判斷和標注。舉兩個例子。某名人在其微博或是演講上推薦了一本書，于是這本書的銷量就上升了。這段時間的歷史數據不是規律性的，所以就不能成為樣本數據，需要去掉。同樣，如果某名人（如 Michael Jackson）去世導致和其有關的商品銷售量很好，那么，這個事件所產生的數據則不屬于噪音數據。因為每年這個名人的忌日的時候出現銷量上升的可能性非常高，所以，需要標注一下，這是有規律的樣本，可以放入樣本進行學習。

非監督式學習

對于非監督式學習，也就是說，數據是沒有被標注過的，所以相關的機器學習算法需要找到這些數據中的共性。因為大量的數據是沒有被標識過的，所以這種學習方式可以讓大量的未標識的數據能夠更有價值。而且，非監督式的學習，可以為我們找到人類很難發現的數據里的規律或模型。所以，也有人將這種學習稱為“特征點學習”。其可以讓我們自動地為數據進行分類，并找到分類的模型。

一般來說，非監督式學習會應用在一些交易型的數據中。比如，有一堆堆的用戶購買數據，但是對于人類來說，我們很難找到用戶屬性和購買商品類型之間的關系，而非監督式學習算法可以幫助我們找到之間的關系。比如，一個在某一個年齡段的女性購買了某種肥皂，有可能說明這個女生在懷孕期，或是某人購買兒童用品，有可能說明這個人的關系鏈中有孩子，等等。于是這些信息會被用作一些所謂的精準市場營銷活動，從而可以增加商品銷量。

我們這么來說吧，監督式學習是在被告訴過正確的答案之后的學習，而非監督式學習是在沒有被告訴正確答案時的學習，所以說，非監督式的學習是在大量的非常亂的數據中找尋一些潛在的關系，這個成本也比較高。這種非監督式學習也會經常被用來檢測一些不正常的事情發生，比如信用卡的詐騙或是盜刷。也被用在推薦系統，比如買了這個商品的人又買了別的什么東西，或是如果某個人喜歡某篇文章、某個音樂、某個餐館，那么可能他會喜歡某款車、某個明星，或某個地方。

在監督式的學習的算法下，我們可以用一組“狗”的照片來確定某個照片中的物體是不是狗。而在非監督式的學習算法下，我們可以通過一個照片來找到與其相似的事物的照片。這兩種學習方式都有各自適用的場景。

如何找到數據的規律和關聯

機器學習基本就是在已知的樣本數據中尋找數據的規律，在未知的數據中找數據的關系。所以，這就需要一定的數學知識了，但對于入門的人來說，學好高數、線性代數、概率論、數據建模等大學本科的數學知識應該就夠用了。以前上大學總覺得這些知識沒什么用處，原來只不過是自己太 low，還沒有從事會運用到這些知識的工作。

總之，機器學習中的基本方法論是這樣的。

要找到數據中的規律，你需要找到數據中的特征點。

把特征點抽象成數學中的向量，也就是所謂的坐標軸。一個復雜的學習可能會有成十上百的坐標軸。

抽象成數學向量后，就可以通過某種數學公式來表達這類數據（就像 y=ax+b 是直線的公式），這就是數據建模。

這個數據公式就是我們找出來的規律。通過這個規律，我們才可能關聯類似的數據。

當然，也有更為簡單粗暴的玩法。

把數據中的特征點抽象成數學中的向量。

每個向量一個權重。

寫個算法來找各個向量的權重是什么。

有人把這個事叫“數據攪拌機”。據說，這種簡單粗暴的方式超過了那些所謂的明確的數學公式或規則。這種“土辦法”有時候會比高大上的數學更有效，哈哈。

關于機器學習這個事，你可以讀一讀?Machine Learning is Fun!?這篇文章，以及它的中文翻譯版。

總結

以上是生活随笔為你收集整理的机器学习相关资料的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：何为技术领导力
下一篇： maven可选依赖（Optional D

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

生活随笔