日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Deep learning From Image to Sequence

發布時間:2025/3/21 编程问答 46 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Deep learning From Image to Sequence 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文筆記旨在概括地講deep learning的經典應用。內容太大,分三塊。

---------------------------------------------------------------------------------------------

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???Content


1. 回顧 deep learning在圖像上的經典應用?

? ? 1.1 Autoencoder

? ? 1.2 MLP

? ? 1.3 CNN<詳細的見上一篇CNN>

2.?deep learning處理語音等時序信號

? ? 2.1 對什么時序信號解決什么問題

? ? 2.2 準備知識

? ??? ? 2.2.1 Hidden Markov Model(HMM)

? ??? ? 2.2.2?GMM-HMM for Speech Recognition

? ??? ? 2.2.3?Restricted Boltzmann Machine(RBM)

3. ?DBN 和 RNN 在語音上的應用?

? ? 3.1 DBN

? ??? ? 3.1.1 DBN架構

? ??? ? 3.1.2 DBN-DNN for Speech Recognition

? ? 3.2 RNN

? ??? ? 3.2.1 RNN種類

? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction


---------------------------------------------------------------------------------------------


1. 回顧 deep learning處理圖像等非時序信號 <詳細的見上一篇CNN>

----------------------------------------------

1.1 AutoEncoder(unsupervised)


擴展:Stack AutoEncoder(可以變成supervised),見Andrew Ng的UFLDL教程,我就不貼圖了



----------------------------------------------

1.2 MLP

MLP(ANN)是最naive的神網分類器。一個hidden層,連兩端nonlinear function,output輸出為f(x),softmax做分類。



----------------------------------------------

1.3 Convolutional Neural Network

特點:1. 非全連接,2、共享權重

做法:1. 卷積 2. 降采樣(pooling)

具體見上一篇CNN









---------------------------------------------------------------------------------------------

2. deep learning處理語音等時序信號

2.1 對什么時序信號解決什么問題:

handwriting recognition
speech recognition
music composition
protein analysis
stock market prediction
...



2.2 準備知識:

----------------------------------------------

? ? ? ?2.2.1 Hidden Markov Model(HMM) - 帶unobserved(這就是所謂hidden)states的隨機過程,表示輸入語音信號和hidden state(因素)的模型:


<figure from wiki>

訓練HMM模型:給定一個時序y1...yT, 用MLE(typically EM implemented,具體見這篇第三部分training) 估計參數;



----------------------------------------------

? ? ?? ? ? ?2.2.2?GMM-HMM for Speech Recognition?(較大,單獨放在一篇blog里了)


----------------------------------------------

? ? ?? ? ? ?2.2.3?Restricted Boltzmann Machine


? ? ? ? ? ?講RBM之前要先講一下生成模型……<How to build a single layer of feature detector>

? ? ? ? ? ?大體分為兩類——directed model & undirected model:

? ? ? ? ? ? ?1.directed model?(e.g. GMM 從離散分布求latent狀態)

???? ? ? ? ? ? ???? 根據先驗分布選擇latent variable的狀態

??? ? ? ? ? ? ????? 給定latent states,根據條件分布求observable variables的狀態

? ? ? ? ? ? ?2.undirected model

???? ? ? ? ? ? ???? 只用參數W,通過能量函數定義v(visible)和h(hidden latent variables)的聯合概率



? ? ? ? ? ? ?根據”explaining away”,如果latent和visible變量有著非線性關系,directed model很難推斷出latent variable的狀態;但在undirected model中,只要latent變量間沒有變項鏈就可以輕松推斷。

PS:?explaining away是什么?

state的先驗相互獨立,后驗也相互獨立,



下面再講RBM。


? ? ?? ? ??RBM 是馬爾科夫隨機場(MRF)的一種。不同之處:

? ? ?? ? ??1. RBM是一個雙向連接圖(bipartite connectivity graph)

? ? ?? ? ??2. RBM在不同unit之間不共享權重

? ? ?? ? ??3. 有一部分變量是unobserved


RBM對能量函數E(v,h)的定義:






RBM的參數構成:W(weight), bias_h, bias_v

已知聯合分布P(v,h) ,?可通過Gibbs采樣邊緣分布分別得到h,v,根據Gradient of NLL進行梯度下降學習到參數。

RBM的訓練目標是:最大化p(v=visible)。(visible=真實的visible數據)

RBM實際訓練過程中,對每個training_batch:

? ? ? ?contrastive divergence 采樣k次(gibbs CD-k)

? ? ? ?根據cost function進行update :?, 即?cost = T.mean(self.free_energy(self.input)) - T.mean(self.free_energy(chain_end))




上面講的RBM都是v,h = 0/1的,那怎么處理real-value的呢?

ANS:用Gaussian-Bernoulli RBM (GRBM)。對上面經典RBM改動不大,只需要改energy function & conditional prob:










3. ?DBN 和 RNN 在語音上的應用?

3.1 DBN

? ??? ? 3.1.1 DBN架構



流程:

1. pre-train

從左到右來看,由于輸入為real-value,所以第一層為GRBM,訓練W1

GRBM訓練出來的hidden給下一個RBM做input,訓練W2

這個RBM訓練出來的hidden再傳給下一個RBM做input,訓練W3

……(重復)


2. 可以直接把這幾層pre-train好的W疊起來,雙向weight箭頭全改成top-down的,成了一個DBN生成模型


3. 加分類器

可以最后在這個pre-trained網絡頭部加一個softmax分類器,其中每個節點表示HMM中一個狀態,去做有監督的fine-tuning.。





? ??? ? 3.1.2 DBN-DNN for Speech Recognition

如果你仔細看過上一篇GMM-HMM for Speech Recognition就會發現,這個模型和GMM-HMM只差在GMM

即,DNN-HMM用DNN(undirected model)代替了GMM(directed model),這樣的好處是可以解決h,v之間非線性關系映射。


Fig1. GMM-HMM


Fig2. DNN-HMM



? ? 3.2 RNN

? ??? ? 3.2.1 RNN種類

常見的:

1.Fully Recurrent Network

2.Hopfield Network

3.Elman Network (Simple Recurrent networks)

4.Long short term memory network


fig. LSTM



? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction

見一個RNN例子,RNNRBM(RNN-RBM for music composition 網絡架構及程序解讀)








Reference:?

為了大家看的方便,我推薦從簡了。。。抄了太多圖,不貼出處了大牛們見諒。。不然一堆推薦無從下手滴樣紙

Deep Learning 在語音上的應用DNN經典文章:

1. Hinton, Li Deng, Dong Yu大作:Deep Neural Networks for Acoustic Modeling in Speech Recognition

2. Andrew Ng, NIPS 09, Unsupervised feature learning for audio classi?cation?using convolutional deep belief networks


Deep Learning 在語音上的應用RNN經典文章:

1.?Bengio ICML 2012. RNN+RBM?paper有實現 (下一篇細講)

2.?Schmidhuber JMLR 2002?paper講LSTM經典

3.?The Use of Recurrent Neural Networks in Continuous Speech Recognition,?老文章講RNN比較基礎,但是確實經典


from:?http://blog.csdn.net/abcjennifer/article/details/27170627

總結

以上是生活随笔為你收集整理的Deep learning From Image to Sequence的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。