當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

莫凡机器学习课程笔记

發布時間：2023/12/13 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了莫凡机器学习课程笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

怎樣區分好用的特征

避免無意義的信息

避免重復性的信息

避免復雜的信息

激活函數的選擇

淺層神經網絡，可以隨便嘗試各種激活函數
深層神經網絡，不可隨機選擇各種激活函數，這涉及到梯度爆炸和梯度消失。（給出梯度爆炸和梯度消失的度量來判別激活函數的效果）

卷積神經網絡，推薦的激活函數是 relu
循環神經網絡，推薦的激活函數是relu or tanh

加速神經網絡訓練

Stochastic Gradient Descent (SGD)
批量數據，可加速訓練過程，不會丟失太多信息

Momentum 慣性原則
W += - Learning rate * dx，這種方法可以讓學習過程曲折無比。

從平地到斜坡上來進行學習。
m = b1 *m - Learning rate *dx
W += m

AdaGrad: 學習率 對錯誤方向的阻力
W += - Learning rate * dx
給一雙破鞋子，使得當搖晃走的時候，會感覺到不舒服，變成了走彎路的阻力，逼著的往前走。

v += dx^2
W += -Learning rate*dx/squrt(v)

RMSProp
W += - Learning rate * dx

Momentum(m = b1*m - Learning rate * dx) + AdaGrad(v+= dx^2)

v = b1*v + (1-b1)*dx^2
W += -Learning rate*dx/squrt(v)

Adam: 下坡和破鞋子

m = b1*m +(1-b1)*dx (Momentum)下坡屬性
v = b2*v + (1-b2)*dx^2 (AdaGrad)阻力屬性
W += -Learning rate*dx/squrt(v)

處理不均衡數據

永遠總是猜測多數派。

1.獲取更多的數據
2. 換個評判方式：
準確率（Accuracy）和誤差(cost) 》》》》》》》》》》》》
confusion Matrix
Precision & Recall
F1 Score (0r F-score)
這種方式可以更好區分不均衡數據，給出更好的評判。
3. 重組數據：復制，上采樣，下采樣。
4. 其他機器學習方法：decision tree 對不均衡數據不敏感
5. 修改算法：修改權重。

特征數據標準化

特征數據的標準化，歸一化。

預測價格 = a * 離市中心距離 + b* 樓層 + c* 面積
a, b, c 就是需要學習的參數。
誤差 = 預測 - 實際價格。

離市中心的數值范圍 0～10 km
樓層的數值范圍 1～30 層
面積范圍 0 ～ 200 m^2
說白了就是不同維度的尺度不一樣。這樣就會導致每個維度對最終預測價格的影響嚴重不一樣。

方法：
minmax normalization >>>>> (0,1)
std normalization >>>>>(mean = 0, std = 1)
加快學習速度，避免學出來的模型扭曲。

Batch Normalization 批標準化

對不同數據進行 BN。對不同維度進行的是歸一化。

輸入數據 X >>>> 全連接層 >>>> 激活函數>>>> 全連接層 ——-

輸入數據 X >>>> 全連接層 >>>>BN >>>> 激活函數>>>> 全連接層—–

過擬合

自負 = 過擬合
對訓練數據過于自信。而不能表達訓練數據之外的數據。說白了就是學習出來的模型的泛化性太差。

增加數據量

正規化 L1 ，L2

Dropout regularization

Y = WX, 在過擬合中，W一般變化比較大。那么可以將W的變化添加到損失函數，來約束W的變化。
L1: cost = (WX - realy)^2 + abs(WX)
L2: cost = (WX - realy)^2 + (W)^2

L1 L2 正規化

誤差 J(theta) = [y_theata(x) - y]^2

L2 正則化誤差 J(theta) = [y_theata(x) - y]^2 + [theata_1^2 + theata_2^2 + ……]
L1 正則化誤差 J(theta) = [y_theata(x) - y]^2 + [|theata_1| + |theata_2| + ……]
這樣最終的誤差不僅取決于擬合數據的好壞，還取決于擬合參數值的大小。

L1 的解不穩定

控制正規化的強度。用交叉驗證來選擇比較好的lamb

強化學習（Reinforcement Learning）

分數導向性。
強化學習沒有數據和標簽，通過一次次在環境中嘗試來
獲取數據和標簽。
而監督學習一開始就有數據和標簽。

通過價值選行為
Q Learning 表格學習
Sarsa 表格學習
Deep Q Network 神經網絡

直接選行為
Policy Gradients

想象環境并從中學習
Model based RL 從虛擬環境中學習

強化學習方法匯總（Reinforcement Learning）

基于連續動作

結合

Q Learning

行為準則

Q Learning 的示例

Q Learning 的決策過程

Q Learning 的Q表的提升過程

Q Learning 理解

Sarsa

Sarsa與 Q Learning極其相似

Sarsa 的Q表的提升過程

Q Learning Q表的提升過程

而 Sarsa的Q表的提升過程

Sarsa(lambda) (Reinforcement Learning)

* DQN (Reinforcement Learning)*

Q Learning 神經網絡的訓練過程

Policy Gradients (Reinforcement Learning)

無誤差，用獎懲來選擇

Actor Critic (Reinforcement Learning)

參考文獻

莫煩課程主頁

莫煩-機器學習

莫煩機器學習原來可以很簡單-知乎

莫煩知乎專欄

總結

以上是生活随笔為你收集整理的莫凡机器学习课程笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：汇丰京东铂金会员联名卡好下卡吗？网申面签
下一篇： UFLDL教程：数据预处理