當前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

深度学习Deep learning From Image to Sequence

發(fā)布時間：2025/3/21 pytorch 51 豆豆

生活随笔收集整理的這篇文章主要介紹了深度学习Deep learning From Image to Sequence 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文筆記旨在概括地講deep learning的經(jīng)典應(yīng)用。內(nèi)容太大，分三塊。

---------------------------------------------------------------------------------------------

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???Content

1. 回顧 deep learning在圖像上的經(jīng)典應(yīng)用?

? ? 1.1 Autoencoder

? ? 1.2 MLP

? ? 1.3 CNN<詳細的見上一篇CNN>

2.?deep learning處理語音等時序信號

? ? 2.1 對什么時序信號解決什么問題

? ? 2.2 準備知識

? ??? ? 2.2.1 Hidden Markov Model(HMM)

? ??? ? 2.2.2?GMM-HMM for Speech Recognition

? ??? ? 2.2.3?Restricted Boltzmann Machine（RBM）

3. ?DBN 和 RNN 在語音上的應(yīng)用?

? ? 3.1 DBN

? ??? ? 3.1.1 DBN架構(gòu)

? ??? ? 3.1.2 DBN-DNN for Speech Recognition

? ? 3.2 RNN

? ??? ? 3.2.1 RNN種類

? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction

---------------------------------------------------------------------------------------------

1. 回顧 deep learning處理圖像等非時序信號 <詳細的見上一篇CNN>

----------------------------------------------

1.1 AutoEncoder（unsupervised）

擴展：Stack AutoEncoder（可以變成supervised），見Andrew Ng的UFLDL教程，我就不貼圖了

----------------------------------------------

1.2 MLP

MLP（ANN）是最naive的神網(wǎng)分類器。一個hidden層，連兩端nonlinear function，output輸出為f(x)，softmax做分類。

----------------------------------------------

1.3 Convolutional Neural Network

特點：1. 非全連接，2、共享權(quán)重

做法：1. 卷積 2. 降采樣（pooling）

具體見上一篇CNN

---------------------------------------------------------------------------------------------

2. deep learning處理語音等時序信號

2.1 對什么時序信號解決什么問題：

handwriting recognition
speech recognition
music composition
protein analysis
stock market prediction
...

2.2 準備知識：

----------------------------------------------

? ? ? ?2.2.1 Hidden Markov Model(HMM) - 帶unobserved（這就是所謂hidden）states的隨機過程，表示輸入語音信號和hidden state（因素）的模型：

訓(xùn)練HMM模型：給定一個時序y1...yT, 用MLE（typically EM implemented，具體見這篇第三部分training）估計參數(shù)；

----------------------------------------------

? ? ?? ? ? ?2.2.2?GMM-HMM for Speech Recognition?(較大，單獨放在一篇blog里了)

----------------------------------------------

? ? ?? ? ? ?2.2.3?Restricted Boltzmann Machine

? ? ? ? ? ?講RBM之前要先講一下生成模型……<How to build a single layer of feature detector>

? ? ? ? ? ?大體分為兩類——directed model & undirected model:

? ? ? ? ? ? ?1.directed model?（e.g. GMM 從離散分布求latent狀態(tài)）

???? ? ? ? ? ? ???? 根據(jù)先驗分布選擇latent variable的狀態(tài)

??? ? ? ? ? ? ????? 給定latent states，根據(jù)條件分布求observable variables的狀態(tài)

? ? ? ? ? ? ?2.undirected model

???? ? ? ? ? ? ???? 只用參數(shù)W，通過能量函數(shù)定義v(visible)和h(hidden latent variables)的聯(lián)合概率

? ? ? ? ? ? ?根據(jù)”explaining away”，如果latent和visible變量有著非線性關(guān)系，directed model很難推斷出latent variable的狀態(tài)；但在undirected model中，只要latent變量間沒有變項鏈就可以輕松推斷。

PS:?explaining away是什么？

state的先驗相互獨立，后驗也相互獨立，

下面再講RBM。

? ? ?? ? ??RBM 是馬爾科夫隨機場（MRF）的一種。不同之處：

? ? ?? ? ??1. RBM是一個雙向連接圖（bipartite connectivity graph）

? ? ?? ? ??2. RBM在不同unit之間不共享權(quán)重

? ? ?? ? ??3. 有一部分變量是unobserved

RBM對能量函數(shù)E(v,h)的定義：

RBM的參數(shù)構(gòu)成：W(weight), bias_h, bias_v

已知聯(lián)合分布P(v,h) ，?可通過Gibbs采樣邊緣分布分別得到h,v，根據(jù)Gradient of NLL進行梯度下降學(xué)習(xí)到參數(shù)。

RBM的訓(xùn)練目標是：最大化p(v=visible)。（visible=真實的visible數(shù)據(jù)）

RBM實際訓(xùn)練過程中，對每個training_batch：

? ? ? ?contrastive divergence 采樣k次（gibbs CD-k）

? ? ? ?根據(jù)cost function進行update :?, 即?cost = T.mean(self.free_energy(self.input)) - T.mean(self.free_energy(chain_end))

上面講的RBM都是v,h = 0/1的，那怎么處理real-value的呢？

ANS：用Gaussian-Bernoulli RBM (GRBM)。對上面經(jīng)典RBM改動不大，只需要改energy function & conditional prob:

3. ?DBN 和 RNN 在語音上的應(yīng)用?

3.1 DBN

? ??? ? 3.1.1 DBN架構(gòu)

流程：

1. pre-train

從左到右來看，由于輸入為real-value，所以第一層為GRBM，訓(xùn)練W1

GRBM訓(xùn)練出來的hidden給下一個RBM做input，訓(xùn)練W2

這個RBM訓(xùn)練出來的hidden再傳給下一個RBM做input，訓(xùn)練W3

……（重復(fù)）

2. 可以直接把這幾層pre-train好的W疊起來，雙向weight箭頭全改成top-down的，成了一個DBN生成模型

3. 加分類器

可以最后在這個pre-trained網(wǎng)絡(luò)頭部加一個softmax分類器，其中每個節(jié)點表示HMM中一個狀態(tài)，去做有監(jiān)督的fine-tuning.。

? ??? ? 3.1.2 DBN-DNN for Speech Recognition

如果你仔細看過上一篇GMM-HMM for Speech Recognition就會發(fā)現(xiàn)，這個模型和GMM-HMM只差在GMM

即，DNN-HMM用DNN（undirected model）代替了GMM（directed model）,這樣的好處是可以解決h，v之間非線性關(guān)系映射。

Fig1. GMM-HMM

Fig2. DNN-HMM

? ? 3.2 RNN

? ??? ? 3.2.1 RNN種類

常見的：

1.Fully Recurrent Network

2.Hopfield Network

3.Elman Network (Simple Recurrent networks)

4.Long short term memory network

fig. LSTM

? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction

見一個RNN例子，RNNRBM（RNN-RBM for music composition 網(wǎng)絡(luò)架構(gòu)及程序解讀）

Reference:?

為了大家看的方便，我推薦從簡了。。。抄了太多圖，不貼出處了大牛們見諒。。不然一堆推薦無從下手滴樣紙

Deep Learning 在語音上的應(yīng)用DNN經(jīng)典文章:

1. Hinton, Li Deng, Dong Yu大作：Deep Neural Networks for Acoustic Modeling in Speech Recognition

2. Andrew Ng, NIPS 09, Unsupervised feature learning for audio classi?cation?using convolutional deep belief networks

Deep Learning 在語音上的應(yīng)用RNN經(jīng)典文章:

1.?Bengio ICML 2012. RNN+RBM?paper有實現(xiàn) （下一篇細講）

2.?Schmidhuber JMLR 2002?paper講LSTM經(jīng)典

3.?The Use of Recurrent Neural Networks in Continuous Speech Recognition,?老文章講RNN比較基礎(chǔ),但是確實經(jīng)典

from:?http://blog.csdn.net/abcjennifer/article/details/27170627

《新程序員》：云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

總結(jié)

以上是生活随笔為你收集整理的深度学习Deep learning From Image to Sequence的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：循环神经网络(RNN, Recurren
下一篇： Deep Learning简明深度学习方