莫凡机器学习课程笔记
怎樣區分好用的特征
激活函數的選擇
淺層神經網絡,可以隨便嘗試各種激活函數
深層神經網絡,不可隨機選擇各種激活函數,這涉及到梯度爆炸和梯度消失。(給出梯度爆炸和梯度消失的度量來判別激活函數的效果)
卷積神經網絡,推薦的激活函數是 relu
循環神經網絡,推薦的激活函數是relu or tanh
加速神經網絡訓練
Stochastic Gradient Descent (SGD)
批量數據,可加速訓練過程,不會丟失太多信息
Momentum 慣性原則
W += - Learning rate * dx, 這種方法可以讓學習過程曲折無比。
從平地到斜坡上來進行學習。
m = b1 *m - Learning rate *dx
W += m
AdaGrad: 學習率 對錯誤方向的阻力
W += - Learning rate * dx
給一雙破鞋子,使得當搖晃走的時候,會感覺到不舒服,變成了走彎路的阻力,逼著的往前走。
v += dx^2
W += -Learning rate*dx/squrt(v)
RMSProp
W += - Learning rate * dx
Momentum(m = b1*m - Learning rate * dx) + AdaGrad(v+= dx^2)
v = b1*v + (1-b1)*dx^2
W += -Learning rate*dx/squrt(v)
Adam: 下坡和破鞋子
m = b1*m +(1-b1)*dx (Momentum)下坡屬性
v = b2*v + (1-b2)*dx^2 (AdaGrad)阻力屬性
W += -Learning rate*dx/squrt(v)
處理不均衡數據
永遠總是猜測多數派。
1.獲取更多的數據
2. 換個評判方式:
準確率(Accuracy)和誤差(cost) 》》》》》》》》》》》》
confusion Matrix
Precision & Recall
F1 Score (0r F-score)
這種方式可以更好區分不均衡數據,給出更好的評判。
3. 重組數據:復制,上采樣,下采樣。
4. 其他機器學習方法:decision tree 對不均衡數據不敏感
5. 修改算法 :修改權重。
特征數據標準化
特征數據的標準化,歸一化。
預測價格 = a * 離市中心距離 + b* 樓層 + c* 面積
a, b, c 就是需要學習的參數。
誤差 = 預測 - 實際價格。
離市中心的數值范圍 0~10 km
樓層的數值范圍 1~30 層
面積范圍 0 ~ 200 m^2
說白了就是不同維度的尺度不一樣。這樣就會導致每個維度對最終預測價格的影響嚴重不一樣。
方法:
minmax normalization >>>>> (0,1)
std normalization >>>>>(mean = 0, std = 1)
加快學習速度,避免學出來的模型扭曲。
Batch Normalization 批標準化
對不同數據進行 BN。對不同維度進行的是歸一化。
輸入數據 X >>>> 全連接層 >>>> 激活函數>>>> 全連接層 ——-
輸入數據 X >>>> 全連接層 >>>>BN >>>> 激活函數>>>> 全連接層—–
過擬合
自負 = 過擬合
對訓練數據過于自信。而不能表達訓練數據之外的數據。說白了就是學習出來的模型的泛化性太差。
Y = WX, 在過擬合中,W一般變化比較大。那么可以將W的變化添加到損失函數,來約束W的變化。
L1: cost = (WX - realy)^2 + abs(WX)
L2: cost = (WX - realy)^2 + (W)^2
L1 L2 正規化
誤差 J(theta) = [y_theata(x) - y]^2
L2 正則化誤差 J(theta) = [y_theata(x) - y]^2 + [theata_1^2 + theata_2^2 + ……]
L1 正則化誤差 J(theta) = [y_theata(x) - y]^2 + [|theata_1| + |theata_2| + ……]
這樣最終的誤差不僅取決于 擬合數據的好壞,還取決于擬合參數值的大小。
L1 的解 不穩定
控制正規化的強度。用交叉驗證來選擇比較好的lamb
強化學習(Reinforcement Learning)
分數導向性。
強化學習沒有數據和標簽,通過一次次在環境中嘗試來
獲取數據和標簽。
而監督學習一開始就有數據和標簽。
通過價值選行為
Q Learning 表格學習
Sarsa 表格學習
Deep Q Network 神經網絡
直接選行為
Policy Gradients
想象環境并從中學習
Model based RL 從虛擬環境中學習
強化學習方法匯總(Reinforcement Learning)
基于連續動作
結合
Q Learning
行為準則
Q Learning 的示例
Q Learning 的決策過程
Q Learning 的Q表的提升過程
Q Learning 理解
Sarsa
Sarsa與 Q Learning極其相似
Sarsa 的Q表的提升過程
Q Learning Q表的提升過程
而 Sarsa的Q表的提升過程
Sarsa(lambda) (Reinforcement Learning)
* DQN (Reinforcement Learning)*
Q Learning 神經網絡的訓練過程
Policy Gradients (Reinforcement Learning)
無誤差,用獎懲來選擇
Actor Critic (Reinforcement Learning)
參考文獻
莫煩課程主頁
莫煩-機器學習
莫煩機器學習原來可以很簡單-知乎
莫煩知乎專欄
總結
以上是生活随笔為你收集整理的莫凡机器学习课程笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 汇丰京东铂金会员联名卡好下卡吗?网申面签
- 下一篇: UFLDL教程:数据预处理