莫凡机器学习课程笔记
怎樣區(qū)分好用的特征
激活函數(shù)的選擇
淺層神經(jīng)網(wǎng)絡(luò),可以隨便嘗試各種激活函數(shù)
深層神經(jīng)網(wǎng)絡(luò),不可隨機(jī)選擇各種激活函數(shù),這涉及到梯度爆炸和梯度消失。(給出梯度爆炸和梯度消失的度量來判別激活函數(shù)的效果)
卷積神經(jīng)網(wǎng)絡(luò),推薦的激活函數(shù)是 relu
循環(huán)神經(jīng)網(wǎng)絡(luò),推薦的激活函數(shù)是relu or tanh
加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練
Stochastic Gradient Descent (SGD)
批量數(shù)據(jù),可加速訓(xùn)練過程,不會(huì)丟失太多信息
Momentum 慣性原則
W += - Learning rate * dx, 這種方法可以讓學(xué)習(xí)過程曲折無比。
從平地到斜坡上來進(jìn)行學(xué)習(xí)。
m = b1 *m - Learning rate *dx
W += m
AdaGrad: 學(xué)習(xí)率 對(duì)錯(cuò)誤方向的阻力
W += - Learning rate * dx
給一雙破鞋子,使得當(dāng)搖晃走的時(shí)候,會(huì)感覺到不舒服,變成了走彎路的阻力,逼著的往前走。
v += dx^2
W += -Learning rate*dx/squrt(v)
RMSProp
W += - Learning rate * dx
Momentum(m = b1*m - Learning rate * dx) + AdaGrad(v+= dx^2)
v = b1*v + (1-b1)*dx^2
W += -Learning rate*dx/squrt(v)
Adam: 下坡和破鞋子
m = b1*m +(1-b1)*dx (Momentum)下坡屬性
v = b2*v + (1-b2)*dx^2 (AdaGrad)阻力屬性
W += -Learning rate*dx/squrt(v)
處理不均衡數(shù)據(jù)
永遠(yuǎn)總是猜測(cè)多數(shù)派。
1.獲取更多的數(shù)據(jù)
2. 換個(gè)評(píng)判方式:
準(zhǔn)確率(Accuracy)和誤差(cost) 》》》》》》》》》》》》
confusion Matrix
Precision & Recall
F1 Score (0r F-score)
這種方式可以更好區(qū)分不均衡數(shù)據(jù),給出更好的評(píng)判。
3. 重組數(shù)據(jù):復(fù)制,上采樣,下采樣。
4. 其他機(jī)器學(xué)習(xí)方法:decision tree 對(duì)不均衡數(shù)據(jù)不敏感
5. 修改算法 :修改權(quán)重。
特征數(shù)據(jù)標(biāo)準(zhǔn)化
特征數(shù)據(jù)的標(biāo)準(zhǔn)化,歸一化。
預(yù)測(cè)價(jià)格 = a * 離市中心距離 + b* 樓層 + c* 面積
a, b, c 就是需要學(xué)習(xí)的參數(shù)。
誤差 = 預(yù)測(cè) - 實(shí)際價(jià)格。
離市中心的數(shù)值范圍 0~10 km
樓層的數(shù)值范圍 1~30 層
面積范圍 0 ~ 200 m^2
說白了就是不同維度的尺度不一樣。這樣就會(huì)導(dǎo)致每個(gè)維度對(duì)最終預(yù)測(cè)價(jià)格的影響嚴(yán)重不一樣。
方法:
minmax normalization >>>>> (0,1)
std normalization >>>>>(mean = 0, std = 1)
加快學(xué)習(xí)速度,避免學(xué)出來的模型扭曲。
Batch Normalization 批標(biāo)準(zhǔn)化
對(duì)不同數(shù)據(jù)進(jìn)行 BN。對(duì)不同維度進(jìn)行的是歸一化。
輸入數(shù)據(jù) X >>>> 全連接層 >>>> 激活函數(shù)>>>> 全連接層 ——-
輸入數(shù)據(jù) X >>>> 全連接層 >>>>BN >>>> 激活函數(shù)>>>> 全連接層—–
過擬合
自負(fù) = 過擬合
對(duì)訓(xùn)練數(shù)據(jù)過于自信。而不能表達(dá)訓(xùn)練數(shù)據(jù)之外的數(shù)據(jù)。說白了就是學(xué)習(xí)出來的模型的泛化性太差。
Y = WX, 在過擬合中,W一般變化比較大。那么可以將W的變化添加到損失函數(shù),來約束W的變化。
L1: cost = (WX - realy)^2 + abs(WX)
L2: cost = (WX - realy)^2 + (W)^2
L1 L2 正規(guī)化
誤差 J(theta) = [y_theata(x) - y]^2
L2 正則化誤差 J(theta) = [y_theata(x) - y]^2 + [theata_1^2 + theata_2^2 + ……]
L1 正則化誤差 J(theta) = [y_theata(x) - y]^2 + [|theata_1| + |theata_2| + ……]
這樣最終的誤差不僅取決于 擬合數(shù)據(jù)的好壞,還取決于擬合參數(shù)值的大小。
L1 的解 不穩(wěn)定
控制正規(guī)化的強(qiáng)度。用交叉驗(yàn)證來選擇比較好的lamb
強(qiáng)化學(xué)習(xí)(Reinforcement Learning)
分?jǐn)?shù)導(dǎo)向性。
強(qiáng)化學(xué)習(xí)沒有數(shù)據(jù)和標(biāo)簽,通過一次次在環(huán)境中嘗試來
獲取數(shù)據(jù)和標(biāo)簽。
而監(jiān)督學(xué)習(xí)一開始就有數(shù)據(jù)和標(biāo)簽。
通過價(jià)值選行為
Q Learning 表格學(xué)習(xí)
Sarsa 表格學(xué)習(xí)
Deep Q Network 神經(jīng)網(wǎng)絡(luò)
直接選行為
Policy Gradients
想象環(huán)境并從中學(xué)習(xí)
Model based RL 從虛擬環(huán)境中學(xué)習(xí)
強(qiáng)化學(xué)習(xí)方法匯總(Reinforcement Learning)
基于連續(xù)動(dòng)作
結(jié)合
Q Learning
行為準(zhǔn)則
Q Learning 的示例
Q Learning 的決策過程
Q Learning 的Q表的提升過程
Q Learning 理解
Sarsa
Sarsa與 Q Learning極其相似
Sarsa 的Q表的提升過程
Q Learning Q表的提升過程
而 Sarsa的Q表的提升過程
Sarsa(lambda) (Reinforcement Learning)
* DQN (Reinforcement Learning)*
Q Learning 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程
Policy Gradients (Reinforcement Learning)
無誤差,用獎(jiǎng)懲來選擇
Actor Critic (Reinforcement Learning)
參考文獻(xiàn)
莫煩課程主頁
莫煩-機(jī)器學(xué)習(xí)
莫煩機(jī)器學(xué)習(xí)原來可以很簡(jiǎn)單-知乎
莫煩知乎專欄
總結(jié)
以上是生活随笔為你收集整理的莫凡机器学习课程笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 汇丰京东铂金会员联名卡好下卡吗?网申面签
- 下一篇: 汇丰京东铂金会员联名卡怎么激活?申请渠道