當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Deep learning From Image to Sequence

發布時間：2025/3/21 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 Deep learning From Image to Sequence 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文筆記旨在概括地講deep learning的經典應用。內容太大，分三塊。

---------------------------------------------------------------------------------------------

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???Content

1. 回顧 deep learning在圖像上的經典應用?

? ? 1.1 Autoencoder

? ? 1.2 MLP

? ? 1.3 CNN<詳細的見上一篇CNN>

2.?deep learning處理語音等時序信號

? ? 2.1 對什么時序信號解決什么問題

? ? 2.2 準備知識

? ??? ? 2.2.1 Hidden Markov Model(HMM)

? ??? ? 2.2.2?GMM-HMM for Speech Recognition

? ??? ? 2.2.3?Restricted Boltzmann Machine（RBM）

3. ?DBN 和 RNN 在語音上的應用?

? ? 3.1 DBN

? ??? ? 3.1.1 DBN架構

? ??? ? 3.1.2 DBN-DNN for Speech Recognition

? ? 3.2 RNN

? ??? ? 3.2.1 RNN種類

? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction

---------------------------------------------------------------------------------------------

1. 回顧 deep learning處理圖像等非時序信號 <詳細的見上一篇CNN>

----------------------------------------------

1.1 AutoEncoder（unsupervised）

擴展：Stack AutoEncoder（可以變成supervised），見Andrew Ng的UFLDL教程，我就不貼圖了

----------------------------------------------

1.2 MLP

MLP（ANN）是最naive的神網分類器。一個hidden層，連兩端nonlinear function，output輸出為f(x)，softmax做分類。

----------------------------------------------

1.3 Convolutional Neural Network

特點：1. 非全連接，2、共享權重

做法：1. 卷積 2. 降采樣（pooling）

具體見上一篇CNN

---------------------------------------------------------------------------------------------

2. deep learning處理語音等時序信號

2.1 對什么時序信號解決什么問題：

handwriting recognition
speech recognition
music composition
protein analysis
stock market prediction
...

2.2 準備知識：

----------------------------------------------

? ? ? ?2.2.1 Hidden Markov Model(HMM) - 帶unobserved（這就是所謂hidden）states的隨機過程，表示輸入語音信號和hidden state（因素）的模型：

訓練HMM模型：給定一個時序y1...yT, 用MLE（typically EM implemented，具體見這篇第三部分training）估計參數；

----------------------------------------------

? ? ?? ? ? ?2.2.2?GMM-HMM for Speech Recognition?(較大，單獨放在一篇blog里了)

----------------------------------------------

? ? ?? ? ? ?2.2.3?Restricted Boltzmann Machine

? ? ? ? ? ?講RBM之前要先講一下生成模型……<How to build a single layer of feature detector>

? ? ? ? ? ?大體分為兩類——directed model & undirected model:

? ? ? ? ? ? ?1.directed model?（e.g. GMM 從離散分布求latent狀態）

???? ? ? ? ? ? ???? 根據先驗分布選擇latent variable的狀態

??? ? ? ? ? ? ????? 給定latent states，根據條件分布求observable variables的狀態

? ? ? ? ? ? ?2.undirected model

???? ? ? ? ? ? ???? 只用參數W，通過能量函數定義v(visible)和h(hidden latent variables)的聯合概率

? ? ? ? ? ? ?根據”explaining away”，如果latent和visible變量有著非線性關系，directed model很難推斷出latent variable的狀態；但在undirected model中，只要latent變量間沒有變項鏈就可以輕松推斷。

PS:?explaining away是什么？

state的先驗相互獨立，后驗也相互獨立，

下面再講RBM。

? ? ?? ? ??RBM 是馬爾科夫隨機場（MRF）的一種。不同之處：

? ? ?? ? ??1. RBM是一個雙向連接圖（bipartite connectivity graph）

? ? ?? ? ??2. RBM在不同unit之間不共享權重

? ? ?? ? ??3. 有一部分變量是unobserved

RBM對能量函數E(v,h)的定義：

RBM的參數構成：W(weight), bias_h, bias_v

已知聯合分布P(v,h) ，?可通過Gibbs采樣邊緣分布分別得到h,v，根據Gradient of NLL進行梯度下降學習到參數。

RBM的訓練目標是：最大化p(v=visible)。（visible=真實的visible數據）

RBM實際訓練過程中，對每個training_batch：

? ? ? ?contrastive divergence 采樣k次（gibbs CD-k）

? ? ? ?根據cost function進行update :?, 即?cost = T.mean(self.free_energy(self.input)) - T.mean(self.free_energy(chain_end))

上面講的RBM都是v,h = 0/1的，那怎么處理real-value的呢？

ANS：用Gaussian-Bernoulli RBM (GRBM)。對上面經典RBM改動不大，只需要改energy function & conditional prob:

3. ?DBN 和 RNN 在語音上的應用?

3.1 DBN

? ??? ? 3.1.1 DBN架構

流程：

1. pre-train

從左到右來看，由于輸入為real-value，所以第一層為GRBM，訓練W1

GRBM訓練出來的hidden給下一個RBM做input，訓練W2

這個RBM訓練出來的hidden再傳給下一個RBM做input，訓練W3

……（重復）

2. 可以直接把這幾層pre-train好的W疊起來，雙向weight箭頭全改成top-down的，成了一個DBN生成模型

3. 加分類器

可以最后在這個pre-trained網絡頭部加一個softmax分類器，其中每個節點表示HMM中一個狀態，去做有監督的fine-tuning.。

? ??? ? 3.1.2 DBN-DNN for Speech Recognition

如果你仔細看過上一篇GMM-HMM for Speech Recognition就會發現，這個模型和GMM-HMM只差在GMM

即，DNN-HMM用DNN（undirected model）代替了GMM（directed model）,這樣的好處是可以解決h，v之間非線性關系映射。

Fig1. GMM-HMM

Fig2. DNN-HMM

? ? 3.2 RNN

? ??? ? 3.2.1 RNN種類

常見的：

1.Fully Recurrent Network

2.Hopfield Network

3.Elman Network (Simple Recurrent networks)

4.Long short term memory network

fig. LSTM

? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction

見一個RNN例子，RNNRBM（RNN-RBM for music composition 網絡架構及程序解讀）

Reference:?

為了大家看的方便，我推薦從簡了。。。抄了太多圖，不貼出處了大牛們見諒。。不然一堆推薦無從下手滴樣紙

Deep Learning 在語音上的應用DNN經典文章:

1. Hinton, Li Deng, Dong Yu大作：Deep Neural Networks for Acoustic Modeling in Speech Recognition

2. Andrew Ng, NIPS 09, Unsupervised feature learning for audio classi?cation?using convolutional deep belief networks

Deep Learning 在語音上的應用RNN經典文章:

1.?Bengio ICML 2012. RNN+RBM?paper有實現（下一篇細講）

2.?Schmidhuber JMLR 2002?paper講LSTM經典

3.?The Use of Recurrent Neural Networks in Continuous Speech Recognition,?老文章講RNN比較基礎,但是確實經典

from:?http://blog.csdn.net/abcjennifer/article/details/27170627

總結

以上是生活随笔為你收集整理的Deep learning From Image to Sequence的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Image classification
下一篇：特征提取方法 SIFT,PCA-SIFT