日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习Deep learning From Image to Sequence

發(fā)布時間:2025/3/21 pytorch 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 深度学习Deep learning From Image to Sequence 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文筆記旨在概括地講deep learning的經(jīng)典應(yīng)用。內(nèi)容太大,分三塊。

---------------------------------------------------------------------------------------------

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???Content


1. 回顧 deep learning在圖像上的經(jīng)典應(yīng)用?

? ? 1.1 Autoencoder

? ? 1.2 MLP

? ? 1.3 CNN<詳細的見上一篇CNN>

2.?deep learning處理語音等時序信號

? ? 2.1 對什么時序信號解決什么問題

? ? 2.2 準備知識

? ??? ? 2.2.1 Hidden Markov Model(HMM)

? ??? ? 2.2.2?GMM-HMM for Speech Recognition

? ??? ? 2.2.3?Restricted Boltzmann Machine(RBM)

3. ?DBN 和 RNN 在語音上的應(yīng)用?

? ? 3.1 DBN

? ??? ? 3.1.1 DBN架構(gòu)

? ??? ? 3.1.2 DBN-DNN for Speech Recognition

? ? 3.2 RNN

? ??? ? 3.2.1 RNN種類

? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction


---------------------------------------------------------------------------------------------


1. 回顧 deep learning處理圖像等非時序信號 <詳細的見上一篇CNN>

----------------------------------------------

1.1 AutoEncoder(unsupervised)


擴展:Stack AutoEncoder(可以變成supervised),見Andrew Ng的UFLDL教程,我就不貼圖了



----------------------------------------------

1.2 MLP

MLP(ANN)是最naive的神網(wǎng)分類器。一個hidden層,連兩端nonlinear function,output輸出為f(x),softmax做分類。



----------------------------------------------

1.3 Convolutional Neural Network

特點:1. 非全連接,2、共享權(quán)重

做法:1. 卷積 2. 降采樣(pooling)

具體見上一篇CNN









---------------------------------------------------------------------------------------------

2. deep learning處理語音等時序信號

2.1 對什么時序信號解決什么問題:

handwriting recognition
speech recognition
music composition
protein analysis
stock market prediction
...



2.2 準備知識:

----------------------------------------------

? ? ? ?2.2.1 Hidden Markov Model(HMM) - 帶unobserved(這就是所謂hidden)states的隨機過程,表示輸入語音信號和hidden state(因素)的模型:


<figure from wiki>

訓(xùn)練HMM模型:給定一個時序y1...yT, 用MLE(typically EM implemented,具體見這篇第三部分training) 估計參數(shù);



----------------------------------------------

? ? ?? ? ? ?2.2.2?GMM-HMM for Speech Recognition?(較大,單獨放在一篇blog里了)


----------------------------------------------

? ? ?? ? ? ?2.2.3?Restricted Boltzmann Machine


? ? ? ? ? ?講RBM之前要先講一下生成模型……<How to build a single layer of feature detector>

? ? ? ? ? ?大體分為兩類——directed model & undirected model:

? ? ? ? ? ? ?1.directed model?(e.g. GMM 從離散分布求latent狀態(tài))

???? ? ? ? ? ? ???? 根據(jù)先驗分布選擇latent variable的狀態(tài)

??? ? ? ? ? ? ????? 給定latent states,根據(jù)條件分布求observable variables的狀態(tài)

? ? ? ? ? ? ?2.undirected model

???? ? ? ? ? ? ???? 只用參數(shù)W,通過能量函數(shù)定義v(visible)和h(hidden latent variables)的聯(lián)合概率



? ? ? ? ? ? ?根據(jù)”explaining away”,如果latent和visible變量有著非線性關(guān)系,directed model很難推斷出latent variable的狀態(tài);但在undirected model中,只要latent變量間沒有變項鏈就可以輕松推斷。

PS:?explaining away是什么?

state的先驗相互獨立,后驗也相互獨立,



下面再講RBM。


? ? ?? ? ??RBM 是馬爾科夫隨機場(MRF)的一種。不同之處:

? ? ?? ? ??1. RBM是一個雙向連接圖(bipartite connectivity graph)

? ? ?? ? ??2. RBM在不同unit之間不共享權(quán)重

? ? ?? ? ??3. 有一部分變量是unobserved


RBM對能量函數(shù)E(v,h)的定義:






RBM的參數(shù)構(gòu)成:W(weight), bias_h, bias_v

已知聯(lián)合分布P(v,h) ,?可通過Gibbs采樣邊緣分布分別得到h,v,根據(jù)Gradient of NLL進行梯度下降學(xué)習(xí)到參數(shù)。

RBM的訓(xùn)練目標是:最大化p(v=visible)。(visible=真實的visible數(shù)據(jù))

RBM實際訓(xùn)練過程中,對每個training_batch:

? ? ? ?contrastive divergence 采樣k次(gibbs CD-k)

? ? ? ?根據(jù)cost function進行update :?, 即?cost = T.mean(self.free_energy(self.input)) - T.mean(self.free_energy(chain_end))




上面講的RBM都是v,h = 0/1的,那怎么處理real-value的呢?

ANS:用Gaussian-Bernoulli RBM (GRBM)。對上面經(jīng)典RBM改動不大,只需要改energy function & conditional prob:










3. ?DBN 和 RNN 在語音上的應(yīng)用?

3.1 DBN

? ??? ? 3.1.1 DBN架構(gòu)



流程:

1. pre-train

從左到右來看,由于輸入為real-value,所以第一層為GRBM,訓(xùn)練W1

GRBM訓(xùn)練出來的hidden給下一個RBM做input,訓(xùn)練W2

這個RBM訓(xùn)練出來的hidden再傳給下一個RBM做input,訓(xùn)練W3

……(重復(fù))


2. 可以直接把這幾層pre-train好的W疊起來,雙向weight箭頭全改成top-down的,成了一個DBN生成模型


3. 加分類器

可以最后在這個pre-trained網(wǎng)絡(luò)頭部加一個softmax分類器,其中每個節(jié)點表示HMM中一個狀態(tài),去做有監(jiān)督的fine-tuning.。





? ??? ? 3.1.2 DBN-DNN for Speech Recognition

如果你仔細看過上一篇GMM-HMM for Speech Recognition就會發(fā)現(xiàn),這個模型和GMM-HMM只差在GMM

即,DNN-HMM用DNN(undirected model)代替了GMM(directed model),這樣的好處是可以解決h,v之間非線性關(guān)系映射。


Fig1. GMM-HMM


Fig2. DNN-HMM



? ? 3.2 RNN

? ??? ? 3.2.1 RNN種類

常見的:

1.Fully Recurrent Network

2.Hopfield Network

3.Elman Network (Simple Recurrent networks)

4.Long short term memory network


fig. LSTM



? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction

見一個RNN例子,RNNRBM(RNN-RBM for music composition 網(wǎng)絡(luò)架構(gòu)及程序解讀)








Reference:?

為了大家看的方便,我推薦從簡了。。。抄了太多圖,不貼出處了大牛們見諒。。不然一堆推薦無從下手滴樣紙

Deep Learning 在語音上的應(yīng)用DNN經(jīng)典文章:

1. Hinton, Li Deng, Dong Yu大作:Deep Neural Networks for Acoustic Modeling in Speech Recognition

2. Andrew Ng, NIPS 09, Unsupervised feature learning for audio classi?cation?using convolutional deep belief networks


Deep Learning 在語音上的應(yīng)用RNN經(jīng)典文章:

1.?Bengio ICML 2012. RNN+RBM?paper有實現(xiàn) (下一篇細講)

2.?Schmidhuber JMLR 2002?paper講LSTM經(jīng)典

3.?The Use of Recurrent Neural Networks in Continuous Speech Recognition,?老文章講RNN比較基礎(chǔ),但是確實經(jīng)典

from:?http://blog.csdn.net/abcjennifer/article/details/27170627

《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的深度学习Deep learning From Image to Sequence的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。