日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

NLP深度学习:近期趋势概述(二)

發布時間:2024/8/23 pytorch 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 NLP深度学习:近期趋势概述(二) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

遞歸神經網絡(RNN

RNN是專門用于處理順序信息的神經網絡的方法。RNN將計算應用于以先前計算結果為條件的輸入序列。這些序列通常由固定大小的標記向量表示,他們被順序送至循環單元。下圖說明了一個簡單的RNN框架。

RNN的主要優勢在于能夠記憶先前的計算結果并在當前計算中使用該信息。這使得RNN模型適合于在任意長度的輸入中都具有上下文依賴性,這樣可以為輸入創建適當的組合。RNN已被用于研究各種NLP任務,例如機器翻譯、圖像字幕和語言建模等。

與CNN模型相比,RNN模型在特定的自然語言任務中可以同樣有效甚至更好。因為它們模擬了數據不同的方面,這才會使它們有效,具體的效果取決于任務所需的語義。

RNN期望的輸入通常是單熱(one-hot)編碼或詞嵌入,但在某些情況下,它們與由CNN模型構造的抽象表征耦合。簡單的RNN容易遭受消失的梯度問題,這使得網絡難以學習和調整較早層中的參數。其他變體正在出現已解決這個問題,例如長短期記憶(LSTM)網絡,殘留網絡(ResNets)和門控循環網絡(GRU)后來被引入以克服這一限制。

?

RNN變體

LSTM由三個門(輸入,遺忘和輸出門)組成,并通過三者的組合計算隱藏狀態。GRU類似于LSTM,但只包含兩個門,效率更高,因為它們不那么復雜。一項研究表明,很難說RNN哪些門控更有效,通常只是根據可用的計算能力來挑選它們。研究及實驗表明各種基于LSTM的模型用于序列到序列映射(通過編碼器-解碼器框架),其適用于機器翻譯,文本摘要,人工對話建模,問題回答,基于圖像的語言生成以及其他任務。

總的來說,RNN可以用于許多NLP系統,例如:

  • 字級分類(NER);
  • 語言建模;
  • 句子級別分類(例如,情感極性);
  • 語義匹配(例如,將消息與對話系統中的候選響應相匹配);
  • 自然語言生成(例如,機器翻譯,視覺QA和圖像字幕);

?

注意力機制

本質上,注意力機制是一種技術,其受益于允許上述基于RNN框架的解碼器使用最后隱藏狀態以及基于輸入隱藏狀態序列計算的信息(即上下文矢量)的需要。這對于需要在輸入和輸出文本之間進行某些對齊的任務特別有用。

注意力機制已成功用于機器翻譯,文本摘要,圖像字幕,對話生成和基于內容(aspect-based)的情感分析。并且已經有人提出了各種不同形式和類型的注意力機制,它們仍然是NLP研究人員研究各種應用的重要領域。

?

遞歸神經網絡(Recursive Neural Network

與RNN類似,遞歸神經網絡是對連續數據建模非常適用。這是因為語言可以被視為遞歸結構,其中單詞和短語構成層次結構中其他更高級別的短語。在這種結構中,非終端節點由其所有子節點的表示來表示。下圖說明了下面的一個簡單的遞歸神經網絡。

在基本遞歸神經網絡形式中,組合函數(即網絡)以自下而上的方法組合成分來計算更高級別短語的表示(參見上圖)。在變體MV-RNN中,單詞由矩陣和向量表示,這意味著由網絡學習的參數表示每個成分的矩陣。另一種變型,即遞歸神經張量網絡(RNTN),使得輸入矢量之間的更多交互能夠避免大的參數產生,如MV-RNN的情況。遞歸神經網絡更能顯示出靈活性,并且它們可以與LSTM單元耦合以處理諸如梯度消失之類的問題。

遞歸神經網絡用于各種應用,例如:

  • 解析;
  • 利用短語級表示來進行情緒分析;
  • 語義關系分類(例如,主題消息);
  • 句子相關性;

?

強化學習

強化學習是通過機器學習的方法,訓練代理執行離散動作,然后獎勵。正在通過強化學習來研究幾種自然語言生成(NLG)任務,例如文本摘要。

強化學習在NLP上的應用受到一些問題的阻力。當使用基于RNN的發生器時,標準答案會被模型生成的答案所取代,這會迅速提升錯誤率。此外,對于這樣的模型,詞級訓練的目標不同于測試度量的目標,例如用于機器翻譯和對話系統的n-gram重疊測量,BLEU。由于這種差異,當前的NLG類型系統往往會產生不連貫,重復和枯燥的信息。

為了解決上述問題,業內采用稱為REINFORCE的強化算法來解決NLP任務,例如圖像字幕和機器翻譯。這個強化學習框架由一個代理(基于RNN的生成模型)組成,它與外部環境相互作用(在每個時間步驟看到的輸入詞和上下文向量)。代理根據策略(參數)選擇一個動作,該策略會在每個時間步驟預測序列的下一個單詞。然后代理會更新其內部狀態(RNN的隱藏單元)。這一直持續到達最終計算獎勵序列的結尾。獎勵功能因任務而異,例如,在句子生成任務中,獎勵可以是信息流。

盡管強化學習方法顯示出了希望,但它們需要適當地處理動作和狀態空間,這可能限制模型的表達能力和學習能力。記住,獨立的基于RNN的模型力求表現力和表達語言的自然能力。

對抗訓練也被用來訓練語言生成器,其目的是欺騙訓練有素的鑒別器,以區分生成的序列和真實的序列。如果一個對話系統,通過policy gradient(策略網絡),可以在強化學習范例下構建任務,其中鑒別器就像人類圖靈測試員一樣,鑒別器基本上是受過訓練以區分人類和機器生成的對話。

?

督學

無監督的句子表征學習涉及以無監督的方式將句子映射到固定大小的向量。分布式表征從語言中捕獲語義和句法屬性,并使用輔助任務進行訓練。

研究員與用于學習詞嵌入的算法類似,提出了跳過思維模型,其中任務是基于中心句子預測下一個相鄰句子。使用seq2seq框架訓練該模型,其中解碼器生成目標序列,并且編碼器被視為通用特征提取器-甚至在該過程中學習了字嵌入。該模型基本上學習輸入句子的分布式表征,類似于在先前語言建模技術中如何為每個單詞學習詞嵌入。

?

深度生成模型

諸如變分自動控制器(VAE)和生成對抗網絡(GAN)之類的深度生成模型也可以應用于NLP中,通過從潛在代碼空間生成逼真句子的過程來發現自然語言中的豐富結構。

眾所周知,由于無約束的潛在空間,標準的自動編碼器無法生成逼真的句子。VAE在隱藏的潛在空間上施加先驗分布,使模型能夠生成適當的樣本。VAE由編碼器和發生器網絡組成,編碼器和發生器網絡將輸入編碼到潛在空間中,然后從潛在空間生成樣本。訓練目標是在生成模型下最大化觀測數據的對數似然的變分下界。下圖說明了用于句子生成的基于RNN的VAE。

生成模型對于許多NLP任務是有用的,并且它們本質上是靈活的。例如,與標準自動編碼器相比,基于RNN的VAE生成模型被提出用于產生更多樣化且格式良好的句子。其他模型允許將結構化變量(例如,時態和情感)結合到潛在代碼中以生成合理的句子。

由兩個競爭網絡組成的GAN(生成器和鑒別器)也被用于生成逼真的文本。例如,將LSTM用作生成器,CNN用作區分真實數據和生成樣本的鑒別器。在這種情況下,CNN表示二進制句子分類器。該模型能夠在對抗訓練后生成逼真的文本。

除了鑒別器的梯度不能通過離散變量適當地反向傳播的問題之外,深層生成模型同時也是難以評估的。近年來已經提出了許多解決方案,但這些解決方案尚未標準化。

?

內存增強網絡(Memory-Augmented Network

在輸出結果生成階段由注意力機制訪問的隱藏向量表示模型的“內部存儲器”。神經網絡還可以與某種形式的內存耦合,以解決視覺QA,語言建模,POS標記和情感分析等任務。例如,為了解決QA任務,將支持事實或常識知識作為存儲器的形式提供給模型。動態存儲器網絡是對先前基于存儲器的模型的改進,其采用神經網絡模型用于輸入表征、注意力機制和應答機制。

?

結論

到目前為止,我們現在已經知道了基于神經網絡的模型(如CNN和RNN)的容量和有效性。我們也意識到將強化學習、無監督方法和深度生成模型正在被應用于復雜的NLP任務(如可視化QA和機器翻譯)。注意力機制和記憶增強網絡在擴展基于神經的NLP模型的能力方面是強大的。結合這些強大的技術,我們相信會找到令人信服的方法來處理語言的復雜性。


原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。

總結

以上是生活随笔為你收集整理的NLP深度学习:近期趋势概述(二)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。