日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

复旦大学邱锡鹏教授:词法、句法分析研究进展综述

發(fā)布時間:2024/10/8 56 豆豆
生活随笔 收集整理的這篇文章主要介紹了 复旦大学邱锡鹏教授:词法、句法分析研究进展综述 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.


本文為第十六屆自然語言處理青年學者研討會 YSSNLP2019 報告《詞法、句法分析研究進展綜述》的簡要文字整理,本報告主要回顧詞法、句法領(lǐng)域的最新研究進展

?

關(guān)于報告人:

邱錫鵬,復旦大學計算機科學技術(shù)學院副教授,博士生導師。于復旦大學獲得理學學士和博士學位。主要從事自然語言處理、深度學習等方向的研究,在 ACL、EMNLP、IJCAI 等計算機學會 A/B 類期刊、會議上發(fā)表 50 余篇學術(shù)論文,引用 1600 余次。開源中文自然語言處理工具 FudanNLP 作者。2015 年入選首屆中國科協(xié)人才托舉工程,2017 年 ACL 杰出論文獎,2018 年獲中國中文信息學會“錢偉長中文信息處理科學技術(shù)獎—漢王青年創(chuàng)新獎”。



大家好,我是邱錫鵬。今天非常榮幸給大家簡要分享一下 NLP 中詞法和句法分析領(lǐng)域的最新研究進展。



首先,我們來看一下詞法和句法分析中的任務(wù)定義。我們一般認為詞是語言中的最小語義單位,所以在進行后續(xù)的很多 NLP 任務(wù)的時候,需要先進行(中文)分詞,標注它的詞性,并分析句子的句法結(jié)構(gòu)。像這里給的一個句子“上海計劃發(fā)展金融業(yè)”,首先需要將其進行分詞,然后進行詞性標注和句法分析。這里我們的句法分析主要以依存句法分析為主進行介紹,建立詞與詞之間的依賴關(guān)系。因此我們這里主要涉及三個任務(wù):中文分詞,詞性標注和依存句法分析。



目前用來解決這三個任務(wù)的基本方法可以分為序列標注方法,基于轉(zhuǎn)移的方法和基于圖的方法三種。為了解決錯誤傳播問題,一般來說,我們可以將這三個任務(wù)進行聯(lián)合建模,比如中文分詞和詞性標注的聯(lián)合模型、詞性標注和句法分析的聯(lián)合模型、以及三個任務(wù)的全聯(lián)合模型。



這三個任務(wù)的最新研究進展和 SOTA 模型都可以從 NLP-Progress 這個網(wǎng)站進行查詢。


中文分詞



首先我們來看一下中文分詞。?



目前中文分詞最好的模型是來自 EMNLP 2018 的一篇論文,采用了基于堆疊雙向長短期記憶網(wǎng)絡(luò)的序列標注模型



該方法雖然在模型上并沒有太多的創(chuàng)新,但是其采用了預訓練 bigram embedding 和變分 droupout 方法以及堆疊雙向長短期記憶網(wǎng)絡(luò)的微創(chuàng)新,訓練了一個相對較深的網(wǎng)絡(luò),在解碼時直接使用一個 softmax 分類器,而不用 CRF。在多個數(shù)據(jù)集上達到了最好的效果。



基于序列標注的方法是給字進行打標簽,很難利用到詞級別的信息。為了引入詞級別的信息可以采用以下三種方法:基于轉(zhuǎn)移的方法、Semi-CRF 和 DAG-LSTM/Lattice-LSTM。下面我分別簡要介紹一下這三種方法。



基于轉(zhuǎn)移的方法是通過轉(zhuǎn)移動作序列來進行分詞,即從左往右判斷一個每兩個相鄰的字是分還是不分。這是一種貪婪的方法。在中間某一步時,我們已經(jīng)有之前分好詞的信息,所以可以利用詞級別的信息來進行建模。



第二種利用詞級別信息的方法是利用 Semi-CRF 模型,直接建模不同詞之間的依賴關(guān)系。一般來講,可以先統(tǒng)一通過一個雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)來提取字別的信息,然后使用一個融合方法來生成詞級別的信息,最后輸入 Semi-CRF 層來進行分詞。Semi-CRF 的缺點是候選詞有一個最大長度限制,我們提出了一種改進方法,目前正在投稿中。



第三種利用詞級別信息的方法是是改進 LSTM 模型,將鏈式結(jié)構(gòu)擴展到 DAG 結(jié)構(gòu)。我們可以用一個事先準備好的詞典,對句子進行預分割,把所有的分割可能性都組合出來。這樣我們模型的輸入是有多個字和詞構(gòu)成的混合序列,構(gòu)成一個 DAG 結(jié)構(gòu)。針對這種結(jié)構(gòu),我們提出一種 DAG-LSTM 來進行序列標注。



在中文分詞中,有一個問題是很多不同的分詞標準。之前的方法都是在單個標準上進行訓練模型。我們知道,不同的分詞標準之間有很多共通的特性。如這個表中所示,三個不同標準存在部分重疊,因此我們可以同時利用多個不同標準的數(shù)據(jù)進行聯(lián)合訓練,通過多任務(wù)學習來輔助提高每個單獨標準的分詞能力。



這里介紹一個我們在多標準分詞上面的最新工作,所有不同的標準都共享一個模型,由于 Transformer 的強大能力,我們用一個共享的 Transformer 來進行編碼,解碼用一個共享的 MLP 或 CRF。然后增加一個額外的 Criterion ID,用來指示模型輸出哪個標準的結(jié)果。目前這個模型在所有的分詞任務(wù)上都達到了最好的效果。


詞性標注



詞性標注一般來講比較簡單,所以很少有單獨工作來專門的詞性標注任務(wù)。一般都是詞性標注和其他任務(wù)相結(jié)合。首先我們來看一下聯(lián)合的中文分詞和詞性標注任務(wù)。



第一種方法是基于字的序列標注方法,使用“BMES”和詞性的交叉標簽來給每個字打標簽。比如“B-NN”、“S-NR”等。相比于中文分詞,分詞和詞性的聯(lián)合任務(wù)需要更多的特征,因此我們可以用更復雜的網(wǎng)絡(luò)來進行抽取特征。



第二種方法是基于轉(zhuǎn)移的方法,首先利用一個 BiLSTM 編碼器來提取上下文特征,在解碼時每一步都預測一個動作。動作的候選集合為是否分詞以及詞性。


依存句法分析



接下來介紹下句法分析的最新進展,這里主要以依存句法分析為主。在深度學習之前,依存句法分析就分為基于轉(zhuǎn)移的方法和基于圖的方法。近幾年,分別出現(xiàn)了針對這兩種不同方法的神經(jīng)網(wǎng)絡(luò)模型。



首先來看下基于轉(zhuǎn)移的方法,通過 shift-reduce 兩個基本的動作來將序列轉(zhuǎn)換為樹結(jié)構(gòu)。首先用一個 buffer 來存儲所有未處理的輸入句子,并用一個棧來存儲當前的分析狀態(tài)。


動作可以分為:1)shift,即將 buffer 中的一個詞移到棧中;2)left_arc(x),即棧頂兩個詞 a,b 為 a<-b 的依賴關(guān)系,關(guān)系種類為 x;3)right_arc(x),即棧頂兩個詞 a,b 為 a->b 的依賴關(guān)系,關(guān)系種類為 x。后兩種動作為 reduce 動作。



目前基于轉(zhuǎn)移的方法的最好模型是 Stack LSTM,通過三個 LSTM 來分別建模棧狀態(tài)、待輸入序列和動作序列。 其中因為棧需要入棧和出棧,因此作者提出了一個 Stack LSTM 來建模棧狀態(tài)。



雖然基于 Stack LSTM 取得了非常好的效果,但是在目前的依存句法分析中,最流行的方法是基于圖的方法經(jīng)典的方法是 Biaffine 模型。直接用神經(jīng)網(wǎng)絡(luò)來預測每兩個詞之間存在依存關(guān)系的概率,這樣我們就得到一個全連接圖,圖上每個邊代表了節(jié)點 a 指向節(jié)點 b 的概率。然后使用MST等方法來來將圖轉(zhuǎn)換為一棵樹。


Biaffine 模型其實和我們目前全連接自注意力模型非常類似。Biaffine 模型十分簡單,并且容易理解,并且在很多數(shù)據(jù)集上都取得了目前最好的結(jié)果。



除模型外,目前依存句法分析主要關(guān)注于多語言的依存通用依存分析。目前一個數(shù)據(jù)集是 universal dependenies,其中有很多問題值得研究,比如多任務(wù)學習、遷移學習、通用語言表示等。


詞性標注 & 句法分析



很自然地我們可以將詞性標注和句法分析作為聯(lián)合任務(wù)來進行建模。



聯(lián)合的詞性標注和句法分析方法有很多,可以是基于轉(zhuǎn)移的方法也可以是基于圖的方法。這里介紹一種比較簡單的方法,首先利用 LSTM 來預測詞性,然后用詞性信息和詞信息一起用另外一個 LSTM 進行建模,并用 Biaffine 模型進行句法分析。


中文分詞 & 句法分析



在中文方面,句法分析是基于詞級別的,所以在做句法分析之前要先進行分詞。那么我們是不是可以將中文分詞和句法分析也作為一個聯(lián)合任務(wù)來同時進行呢?



我們提出了一個基于圖方法的統(tǒng)一模型來同時解決中文分詞和句法分析問題。其實方法很簡單,只需要將詞內(nèi)部的字之間加上一個特殊的依賴關(guān)系“app”,然后將詞級別的依存關(guān)系轉(zhuǎn)換為字級別的依存關(guān)系。并且用 biaffine 模型來進行同時預測。



這就是具體的模型結(jié)構(gòu),和 biaffine 模型類似。


fastNLP



最后,上面的模型都將在 fastNLP 中進行實現(xiàn),這里簡單介紹下我們最近的一個工作,基于深度學習的自然語言處理平臺 FastNLP



我們希望做到具有 Spacy 的易用性,AllenNLP 模塊化以及 AutoML 自動模型選擇。



FastNLP 是一個模塊化可擴展的 NLP 框架,提供大量的預訓練模型,可以使大家在五分鐘內(nèi)實現(xiàn) SOTA 模型。另外 NLP 中大量的時間都花在數(shù)據(jù)的預處理和數(shù)據(jù)轉(zhuǎn)換上面,FastNLP 提供了一種非常簡單高效的數(shù)據(jù)預處理方法。面向我們科研工作者,FastNLP 也提供了非常方便的參數(shù)記錄以及實驗過程可視化工具。



最后希望有興趣的老師、同學一起來參與開發(fā),謝謝。




點擊以下標題查看更多往期內(nèi)容:?


  • 用于視覺對話的多步雙重注意力模型

  • 圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應用

  • 基于小樣本學習的意圖識別冷啟動

  • 小樣本學習(Few-shot Learning)綜述

  • 兩行代碼玩轉(zhuǎn) Google BERT 句向量詞向量

  • 基于預訓練自然語言生成的文本摘要方法

  • 自然語言處理中的語言模型預訓練方法

  • 像搭積木一樣構(gòu)建NLP深度學習模型




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發(fā)送?

? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通




?


現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧



關(guān)于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結(jié)

以上是生活随笔為你收集整理的复旦大学邱锡鹏教授:词法、句法分析研究进展综述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。