當(dāng)前位置：首頁 >

周志华《机器学习》读书笔记（一）

發(fā)布時間：2025/3/8 40 豆豆

生活随笔收集整理的這篇文章主要介紹了周志华《机器学习》读书笔记（一）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

如何使用
一、緒論
- 1.1 引言
- 1.2 基本術(shù)語
- 1.3 假設(shè)空間
- 1.4 歸納偏好
- 1.5 發(fā)展歷程
- 1.6 應(yīng)用現(xiàn)狀
共勉

如何使用

1、《西瓜書》是一本教科書。
?
??《西瓜書》的誕生，其主因在于周志華老師要開設(shè)“機器學(xué)習(xí)”課。而作為一本教科書，《西瓜書》不是無所不包的，也不是一本“從入門到精通”的書籍。
?
2、《西瓜書》是一本入門級的教科書。
?
??周老師認(rèn)為，入門階段最需要的乃是理清基本概念、了解領(lǐng)域風(fēng)貌。在入門階段，“顧及細(xì)微”應(yīng)該讓位于“觀其大略”。否則難免只見樹木，不見森林。故而，從一定程度上講，《西瓜書》是一張”機器學(xué)習(xí)的初級地形圖“。
??其次，機器學(xué)習(xí)領(lǐng)域中存在眾多學(xué)派。周老師認(rèn)為，理解學(xué)派間的包容等價，在進階之后對融會貫通大有裨益。但在入門階段，初學(xué)者看到各自的本來面貌更為重要。因此，《西瓜書》盡可能從材料的”原生態(tài)“出發(fā)講述。
?
3、《西瓜書》是一本面向理工科高年級本科生和研究生的教科書。
?
??“對前沿領(lǐng)域的學(xué)習(xí)，必然要有基礎(chǔ)知識作為先導(dǎo)”。讀者若僅需對機器學(xué)習(xí)做一般了解，只需略過細(xì)節(jié)觀其大概；若想深入，則應(yīng)當(dāng)對相關(guān)知識稍作復(fù)習(xí)，自行推導(dǎo)。
?
4、《西瓜書》不妨多讀幾遍。

**這是本經(jīng)典，經(jīng)典之書！！！**

一、緒論

1.1 引言

?
?? “傍晚小街路面上沁出微雨后的濕潤，和煦的細(xì)風(fēng)吹來，抬頭看看天邊的晚霞，嗯，明天又是一個好天氣。走到水果攤旁，挑了個根蒂蜷縮、敲起來聲音濁響的青緑西瓜，一邊滿心期待著皮薄肉厚瓤甜的爽落感，一邊愉快地想著，這學(xué)期狠下了工夫，基礎(chǔ)概念弄得清清楚楚，算法作業(yè)也是信手拈來，這門課的成績一定差不了！”
?
??機器學(xué)習(xí)致力于研究如何通過計算的手段，利用經(jīng)驗來改善系統(tǒng)自身的性能。在這里，“經(jīng)驗”，即“數(shù)據(jù)”。
?
?? 機器學(xué)習(xí)的主要研究內(nèi)容是關(guān)于在計算機上從數(shù)據(jù)中產(chǎn)生“模型”的算法，即“學(xué)習(xí)算法”。
?

1.2 基本術(shù)語

?
1、一組記錄的集合稱為一個“數(shù)據(jù)集”，其中每條記錄是關(guān)于一個事件或?qū)ο蟮拿枋?#xff0c;稱為一個“示例”或“樣本”。
??由于空間中的每個點對應(yīng)一個坐標(biāo)向量，因此一個示例也稱為一個“特征向量”。
?
2、反映事件或?qū)ο笤谀撤矫娴谋憩F(xiàn)或性質(zhì)的事項，稱為“屬性”或“特征”。
??屬性上的取值稱為“屬性值”。
??屬性張成的空間稱為“屬性空間”、“樣本空間”或“輸入空間”。
?
3、從數(shù)據(jù)中學(xué)得的模型的過程稱為“學(xué)習(xí)”或“訓(xùn)練”。這個過程通過執(zhí)行某個學(xué)習(xí)算法來完成。
??訓(xùn)練過程中使用的數(shù)據(jù)稱為“訓(xùn)練數(shù)據(jù)”，其中每個樣本稱為一個“訓(xùn)練樣本”，訓(xùn)練樣本組成的集合稱為“訓(xùn)練集”。
??學(xué)得模型對應(yīng)了關(guān)于數(shù)據(jù)的某種潛在的規(guī)律，因此亦稱為“假設(shè)”。這種潛在規(guī)律自身，則稱為“真相”或“真實”。
??學(xué)習(xí)的過程就是為了找出或逼近真相。
?
4、關(guān)于示例結(jié)果的信息稱為“標(biāo)記”，擁有了標(biāo)記信息的示例稱為“樣例”。所有標(biāo)記的集合稱為“標(biāo)記空間”或“輸出空間”。
?
5、若欲預(yù)測的是離散值，此類學(xué)習(xí)任務(wù)稱為“分類”；若欲預(yù)測的是連續(xù)值，則此類學(xué)習(xí)任務(wù)稱為“回歸”。
??對只涉及兩個類別的“二分類”任務(wù)，通常稱其中一個類為“正類”，另一個類為“反類”。涉及多個類別師，則稱為“多分類”任務(wù)。
??一般地，預(yù)測任務(wù)是希望通過對訓(xùn)練集{ ${(x1,y1),(x2,y2),......(xm,ym)}$ }進行學(xué)習(xí)，建立一個從輸入空間X到輸出空間Y的映射 $f$ : $X$ $?\longrightarrow$ $Y$ 。
?
6、學(xué)得模型后，使用其進行預(yù)測的過程稱為“測試”，被預(yù)測的樣本稱為“測試樣本”。
?
7、根據(jù)訓(xùn)練數(shù)據(jù)是否擁有標(biāo)記信息，學(xué)習(xí)任務(wù)可大致劃分為兩大類：“監(jiān)督學(xué)習(xí)”（主要代表：分類和回歸）和“無監(jiān)督學(xué)習(xí)”（主要代表：聚類）。
?
8、機器學(xué)習(xí)的目標(biāo)是使學(xué)得的模型能很好地適用于“新樣本”，而不是僅僅在訓(xùn)練樣本上工作得很好。學(xué)得模型適用于新樣本的能力，稱為“泛化能力”，具有強泛化能力的模型能很好地適用于整個樣本空間。

???通常假設(shè)樣本空間中全體樣本服從一個未知“分布” $D$ ，我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的，即“獨立同分布”。一般而言，訓(xùn)練的樣本越多，得到的關(guān)于 $D$ 的信息越多，越有可能通過學(xué)習(xí)獲得具有強泛化能力的模型。

1.3 假設(shè)空間

?
??歸納和演繹是科學(xué)推理的兩大基本手段。
?
??前者是從特殊到一般的“泛化”過程，即從具體的事實歸結(jié)出一般性規(guī)律； $E x a m p l e$ :在數(shù)學(xué)公理系統(tǒng)中，基于一組公理和推理規(guī)則推導(dǎo)出與之相恰的定理，這是“演繹”。
??后者則是從一般到特殊的“特化”過程，即從基礎(chǔ)原理推演出具體情況。 $E x a m p l e$ :“從樣例中學(xué)習(xí)”是一個歸納的過程，因此也稱“歸納學(xué)習(xí)”。
?
??歸納學(xué)習(xí)分廣義和狹義。廣義的歸納學(xué)習(xí)相當(dāng)于從樣例中學(xué)習(xí)，而狹義的歸納學(xué)習(xí)為則要求從數(shù)據(jù)中學(xué)得概念，因此也稱“概念學(xué)習(xí)”或“概念形成”。概念學(xué)習(xí)中最基本的是布爾概念學(xué)習(xí)，即對“是”“不是”這樣的可以表示為0/1布爾值的目標(biāo)概念的學(xué)習(xí)。
?
??學(xué)習(xí)過程可以看作一個在所有假設(shè)組成的空間中進行搜索的過程，搜索目標(biāo)是找到與訓(xùn)練集“匹配”的假設(shè)。即能夠?qū)⒂?xùn)練集中的內(nèi)容判斷正確的假設(shè)。
?
??需要注意的是，現(xiàn)實問題中我們常面臨很大的假設(shè)空間，但學(xué)習(xí)過程是基于有限樣本訓(xùn)練集進行的，因此，可能有多個假設(shè)與訓(xùn)練集一致，即存在著一個與訓(xùn)練集一致的假設(shè)集合，稱之為“版本空間”。

1.4 歸納偏好

?
??對于一個具體的學(xué)習(xí)算法而言，它必須要產(chǎn)生一個模型。這時，學(xué)習(xí)算法本身的“偏好”就會起到關(guān)鍵的作用。
??機器學(xué)習(xí)算法在學(xué)習(xí)過程中對某種類型假設(shè)的偏好，稱為“歸納偏好”。或簡稱為“偏好”。
??任何一個有效的機器學(xué)習(xí)算法必有其歸納偏好，否則它將被假設(shè)空間中看似在訓(xùn)練集上“等效”的假設(shè)所迷惑，而無法產(chǎn)生確定的學(xué)習(xí)效果。
??歸納偏好可看作學(xué)習(xí)算法自身在一個可能很龐大的假設(shè)空間中對假設(shè)進行選擇的“價值觀”。“奧卡姆剃刀”原則作為一般性的原則來引導(dǎo)算法確立“正確的”偏好，即“若有多個假設(shè)與觀察一致，則選最簡單的那個”。
??事實上，歸納偏好對應(yīng)了學(xué)習(xí)算法本身所做出的關(guān)于“什么樣的模型更好”的假設(shè)。在具體的現(xiàn)實問題中，這個假設(shè)是否成立，即算法的歸納偏好是否與問題本身匹配，大多數(shù)時候直接決定了算法能否取得好的性能。
??根據(jù)相關(guān)公式推導(dǎo)可證明：無論學(xué)習(xí)算法 $A$ 多聰明、學(xué)習(xí)算法 $B$ 多笨拙。它們的期望性能是相同的！這就是“沒有免費的午餐”定理，簡稱NFL定理。
??NFL定理有一個重要的前提：所有“問題”出現(xiàn)的機會相同、或所有問題同等重要。但事實上很多時候我們只關(guān)注自己正在試圖解決的問題，希望為它找到一個解決方案，至于這個解決方案在別的問題、甚至在相似問題上是否為好方案，我們并不關(guān)心。
??所以，NFL定理最重要的寓意是讓我們更清楚地認(rèn)識到：脫離具體問題，空泛地談?wù)摗笆裁磳W(xué)習(xí)算法更好”毫無意義，因為若考慮所有潛在的問題，則所有學(xué)習(xí)算法都一樣好。要談?wù)撍惴ǖ南鄬?yōu)劣，必須要針對具體的學(xué)習(xí)問題;在某些問題上表現(xiàn)更好的學(xué)習(xí)算法，在另一些問題上卻可能不僅如人意，學(xué)習(xí)算法自身的歸納偏好與問題是否相匹配，往往會起到?jīng)Q定性作用。
?

1.5 發(fā)展歷程

?
??1、推理期：基于邏輯和事實規(guī)則，出現(xiàn)了幾何定理證明器、語言翻譯等;
??2、知識期：意識到只是對與人工智能系統(tǒng)的重要性，構(gòu)建專家知識庫，出現(xiàn)專家系統(tǒng)；
??3、學(xué)習(xí)期：讓計算機自動從數(shù)據(jù)中分析并獲取規(guī)律，然后進行預(yù)測，出現(xiàn)了機器學(xué)習(xí)，伴隨著計算機運算能力的提高，神經(jīng)網(wǎng)絡(luò)重新興起，并促進了深度學(xué)習(xí)的發(fā)展。
?

1.6 應(yīng)用現(xiàn)狀

?
??計算機視覺、自然語言處理、數(shù)據(jù)分析……
?

共勉

一下摘自百度“飛槳”畢然老師的話：

1、機器學(xué)習(xí)，其實很簡單，沒有什么是你理解不了的，關(guān)鍵在于實踐！
?
2、細(xì)節(jié)不可忽略，一忽略就誤入歧途！
?
3、一切技術(shù)都不高深，就是一層窗戶紙，捅破了就很easy，捅不破就很hard。所以，絕對的技術(shù)壁壘是沒有的。
?
4、一切技術(shù)，都是因為你經(jīng)常用，慢慢就熟練了。坑見多了，就比別人厲害一點了，也就成為了專家;而不是你先成為專家。然后再去用。

總結(jié)

以上是生活随笔為你收集整理的周志华《机器学习》读书笔记（一）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：面部口罩识别检测
下一篇： DeepLearning based o