當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

好用的cnn网络_DPCNN，究竟是多么牛逼的网络呢？

發布時間：2023/12/10 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了好用的cnn网络_DPCNN，究竟是多么牛逼的网络呢？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

ACL2017年中，騰訊AI-lab提出了DeepPyramidConvolutionalNeuralNetworksforTextCategorization(DPCNN)。論文中提出了一種基于word-level級別的網絡-DPCNN，由于上一篇文章介紹的TextCNN不能通過卷積獲得文本的長距離依賴關系，而論文中DPCNN通過不斷加深網絡，可以抽取長距離的文本依賴關系。實驗證明在不增加太多計算成本的情況下，增加網絡深度就可以獲得最佳的準確率。?

DPCNN結構

究竟是多么牛逼的網絡呢？我們下面來窺探一下模型的芳容。

DPCNN結構細節

模型是如何通過加深網絡來捕捉文本的長距離依賴關系的呢？下面我們來一一道來。為了更加簡單的解釋DPCNN，這里我先不解釋是什么是Regionembedding，我們先把它當作wordembedding。

等長卷積

首先交代一下卷積的的一個基本概念。一般常用的卷積有以下三類：

假設輸入的序列長度為n，卷積核大小為m，步長(stride)為s,輸入序列兩端各填補p個零(zeropadding),那么該卷積層的輸出序列為(n-m+2p)/s+1。

(1)窄卷積(narrowconvolution):步長s=1,兩端不補零，即p=0，卷積后輸出長度為n-m+1。

(2)寬卷積(wideonvolution)：步長s=1,兩端補零p=m-1，卷積后輸出長度n+m-1。

(3)等長卷積(equal-widthconvolution):步長s=1,兩端補零p=(m-1)/2，卷積后輸出長度為n。如下圖所示，左右兩端同時補零p=1,s=3。

池化

那么DPCNN是如何捕捉長距離依賴的呢？這里我直接引用文章的小標題——Downsamplingwiththenumberoffeaturemapsfixed。

作者選擇了適當的兩層等長卷積來提高詞位embedding的表示的豐富性。然后接下來就開始Downsampling(池化)。再每一個卷積塊(兩層的等長卷積)后，使用一個size=3和stride=2進行maxpooling進行池化。序列的長度就被壓縮成了原來的一半。其能夠感知到的文本片段就比之前長了一倍。

例如之前是只能感知3個詞位長度的信息，經過1/2池化層后就能感知6個詞位長度的信息啦，這時把1/2池化層和size=3的卷積層組合起來如圖所示。

固定featuremaps(filters)的數量

為什么要固定featuremaps的數量呢?許多模型每當執行池化操作時，增加featuremaps的數量，導致總計算復雜度是深度的函數。與此相反，作者對featuremap的數量進行了修正，他們實驗發現增加featuremap的數量只會大大增加計算時間，而沒有提高精度。

另外，夕小瑤小姐姐在知乎也詳細的解釋了為什么要固定featuremaps的數量。有興趣的可以去知乎搜一搜，講的非常透徹。

固定了featuremap的數量，每當使用一個size=3和stride=2進行maxpooling進行池化時，每個卷積層的計算時間減半(數據大小減半)，從而形成一個金字塔。

這就是論文題目所謂的Pyramid。

好啦，看似問題都解決了，目標成功達成。剩下的我們就只需要重復的進行等長卷積+等長卷積+使用一個size=3和stride=2進行maxpooling進行池化就可以啦，DPCNN就可以捕捉文本的長距離依賴啦！

Shortcutconnectionswithpre-activation

但是！如果問題真的這么簡單的話，深度學習就一下子少了超級多的難點了。

(1)初始化CNN的時，往往各層權重都初始化為很小的值，這導致了最開始的網絡中，后續幾乎每層的輸入都是接近0，這時的網絡輸出沒有意義；

(2)小權重阻礙了梯度的傳播，使得網絡的初始訓練階段往往要迭代好久才能啟動；

(3)就算網絡啟動完成，由于深度網絡中仿射矩陣(每兩層間的連接邊)近似連乘，訓練過程中網絡也非常容易發生梯度爆炸或彌散問題。

當然，上述這幾點問題本質就是梯度彌散問題。那么如何解決深度CNN網絡的梯度彌散問題呢？當然是膜一下何愷明大神，然后把ResNet的精華拿來用啦！ResNet中提出的shortcut-connection/skip-connection/residual-connection(殘差連接)就是一種非常簡單、合理、有效的解決方案。

類似地，為了使深度網絡的訓練成為可能，作者為了恒等映射，所以使用加法進行shortcutconnections，即z+f(z),其中f用的是兩層的等長卷積。這樣就可以極大的緩解了梯度消失問題。

另外，作者也使用了pre-activation，這個最初在何凱明的“IdentityMappingsinDeepResidualNetworks上提及，有興趣的大家可以看看這個的原理。直觀上，這種“線性”簡化了深度網絡的訓練，類似于LSTM中constanterrorcarousels的作用。而且實驗證明pre-activation優于post-activation。

整體來說，巧妙的結構設計，使得這個模型不需要為了維度匹配問題而擔憂。

Regionembedding

同時DPCNN的底層貌似保持了跟TextCNN一樣的結構，這里作者將TextCNN的包含多尺寸卷積濾波器的卷積層的卷積結果稱之為Regionembedding，意思就是對一個文本區域/片段(比如3gram)進行一組卷積操作后生成的embedding。

另外，作者為了進一步提高性能，還使用了tv-embedding(two-viewsembedding)進一步提高DPCNN的accuracy。

上述介紹了DPCNN的整體架構，可見DPCNN的架構之精美。本文是在原始論文以及知乎上的一篇文章的基礎上進行整理。本文可能也會有很多錯誤，如果有錯誤，歡迎大家指出來！建議大家為了更好的理解DPCNN，看一下原始論文和參考里面的知乎。

用Keras實現DPCNN網絡

這里參考了一下kaggle的代碼，模型一共用了七層，模型的參數與論文不太相同。這里濾波器通道個數為64(論文中為256)，具體的參數可以參考下面的代碼，部分我寫了注釋。

defCNN(x):block=Conv1D(filter_nr,kernel_size=filter_size,padding=same,activation=linear,kernel_regularizer=conv_kern_reg,bias_regularizer=conv_bias_reg)(x)block=BatchNormalization()(block)block=PReLU()(block)block=Conv1D(filter_nr,kernel_size=filter_size,padding=same,activation=linear,kernel_regularizer=conv_kern_reg,bias_regularizer=conv_bias_reg)(block)block=BatchNormalization()(block)block=PReLU()(block)returnblockdefDPCNN():filter_nr=64#濾波器通道個數filter_size=3#卷積核max_pool_size=3#池化層的pooling_sizemax_pool_strides=2#池化層的步長dense_nr=256#全連接層spatial_dropout=0.2dense_dropout=0.5train_embed=Falseconv_kern_reg=regularizers.l2(0.00001)conv_bias_reg=regularizers.l2(0.00001)comment=Input(shape=(maxlen,))emb_comment=Embedding(max_features,embed_size,weights=[embedding_matrix],trainable=train_embed)(comment)emb_comment=SpatialDropout1D(spatial_dropout)(emb_comment)#regionembedding層resize_emb=Conv1D(filter_nr,kernel_size=1,padding=same,activation=linear,kernel_regularizer=conv_kern_reg,bias_regularizer=conv_bias_reg)(emb_comment)resize_emb=PReLU()(resize_emb)#第一層block1=CNN(emb_comment)block1_output=add([block1,resize_emb])block1_output=MaxPooling1D(pool_size=max_pool_size,strides=max_pool_strides)(block1_output)#第二層block2=CNN(block1_output)block2_output=add([block2,block1_output])block2_output=MaxPooling1D(pool_size=max_pool_size,strides=max_pool_strides)(block2_output)#第三層block3=CNN(block2_output)block3_output=add([block3,block2_output])block3_output=MaxPooling1D(pool_size=max_pool_size,strides=max_pool_strides)(block3_output)#第四層block4=CNN(block3_output)block4_output=add([block4,block3_output])block4_output=MaxPooling1D(pool_size=max_pool_size,strides=max_pool_strides)(block4_output)#第五層block5=CNN(block4_output)block5_output=add([block5,block4_output])block5_output=MaxPooling1D(pool_size=max_pool_size,strides=max_pool_strides)(block5_output)#第六層block6=CNN(block5_output)block6_output=add([block6,block5_output])block6_output=MaxPooling1D(pool_size=max_pool_size,strides=max_pool_strides)(block6_output)#第七層block7=CNN(block6_output)block7_output=add([block7,block6_output])output=GlobalMaxPooling1D()(block7_output)#全連接層output=Dense(dense_nr,activation=linear)(output)output=BatchNormalization()(output)output=PReLU()(output)output=Dropout(dense_dropout)(output)output=Dense(6,activation=sigmoid)(output)model=Model(comment,output)model.summary()model.compile(loss=binary_crossentropy,optimizer=optimizers.Adam(),metrics=[accuracy])returnmodel

DPCNN實戰

上面我們用keras實現了我們的DPCNN網絡，這里我們借助kaggle的有毒評論文本分類競賽來實戰下我們的DPCNN網絡。

具體地代碼，大家可以去我的GitHub上面找到源碼：

https://github.com/hecongqing/TextClassification/blob/master/DPCNN.ipynb

總結

以上是生活随笔為你收集整理的好用的cnn网络_DPCNN，究竟是多么牛逼的网络呢？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：存20万到农商银行三年有多少利息？附详细
下一篇：如何修改emcp的sn号_百家号领域选择