【NLP】ACL 2010-2020研究趋势总结
作者:哈工大SCIR 車萬翔教授
導讀
2020年5月23日,有幸受邀在中國中文信息學會青年工作委員會主辦的AIS(ACL-IJCAI-SIGIR)2020頂會論文預講會上介紹了ACL會議近年來的研究趨勢,特整理成幻燈片配文字版,希望對相關領域的研究者有所幫助。由于視野所限,時間倉促,特別是ACL 2020的錄用論文列表剛發布不久,因此統計的數據和得出的結論難免有失偏頗,如有不當之處,還敬請指出。另外,特別感謝組內的多位博士生幫助進行數據整理。
首先來看一下2010年到2020年這11年來,ACL長文的錄用情況和趨勢,可以看出從2018年開始,投稿和錄用的數量急劇上升,說明作為人工智能皇冠上的明珠,自然語言處理領域越來越受到研究界的關注。另外,ACL的錄用率多年來基本保持穩定,一直在25%左右。
再來看一下今年錄用文章標題的詞云,從中可以看出大家關注比較多的任務有生成、翻譯、對話、問答、抽取、句法等方向,用到的方法多涉及到神經、網絡、注意力、圖等。另外,從文章作者的詞云可以看出前幾名的基本都是中國的大姓,這也反應出華人作者在ACL頂會上已經占據非常大的比例。
為了更直觀的了解近年來ACL各個研究領域的變化趨勢,我們做了一個領域趨勢競賽圖,幫助大家更好地看出各個研究領域此消彼長的變化過程。特別說明的是,我們的領域是參考ACL 2019進行劃分的,由于其它年份的領域劃分方式不盡相同,我們采用人工的方式進行了映射。另外,由于2020年目前只有文章列表,還沒有領域數據,所以也是人工逐篇文章分的類,因此具有一定的主觀性,有可能不是特別準確。
從這段視頻中,我們可以看到幾個非常明顯的趨勢,比如人機對話等新興領域上升勢頭迅猛,而句法分析、機器翻譯等傳統領域有所衰落。下面,就幾個變化比較明顯的領域分別加以介紹。
人機對話異軍突起
2015年之前,ACL上幾乎沒有人機對話的文章發表,但是從2016年開始,隨著語音識別技術的突破,NLPer開始重視人機對話的研究,今年ACL該方向上的研究重點和研究趨勢如下圖所示。
機器學習持續熱門
可以看到近10年來,機器學習的熱度一直居高不下,特別是隨著預訓練模型的成功,NLP模型大有被大一統的趨勢。下面的一些機器學習研究方向為今年ACL所重點關注。
文本生成強勢上升
嚴格來講自然語言處理應被分為自然語言處理和自然語言生成兩個方向,然而受到技術的限制,傳統的文本生成多采用基于模板的方法,因此在研究上并沒有引起太多的關注。隨著序列到序列模型的產生,人們意識到可以采用類似的方法進行逐詞的文本生成,從而產生了大量的研究和應用問題,因此文本生成也成為了目前自然語言處理的熱門研究領域。今年ACL上的研究熱點如下圖所示。
問答系統絕地反擊
隨著斯坦福大學SQuAD數據集的誕生,以抽取式閱讀理解為代表的問答系統近年來引起了大量的關注。但是為什么說是“絕地反擊”呢?主要是因為在更久之前,問答系統就曾經是信息檢索和自然語言處理領域的熱門研究方向,但是受限于當時的技術手段,答案準確率并不是很高,因此該研究方向曾一度被人們所冷落。經過這幾年的發展,問答系統的模型逐漸被預訓練模型所統一,因此今年ACL上的相關文章更關注問答系統的各個子任務或引入更多資源。
新任務和資源挑戰機器
仍然是受預訓練模型的影響,在很多剛被提出不久的自然語言處理任務上,機器的表現很快超過人類。因此最近有大量的研究工作試圖提出對機器更具有挑戰性的任務和資源,從而逼迫機器更像人一樣“思考”。
機器翻譯有所衰落
幾家歡樂幾家愁,由于上述領域的快速崛起,更重要的是由于模型逐漸為Transformer所統一,使得機器翻譯這一“老牌”自然語言處理任務受關注的程度有所降低。今年ACL的相關研究也分散到不同的翻譯場景設置上。
句法分析逐漸式微
和機器翻譯類似,句法分析這一曾經自然語言處理領域的當家任務也逐漸式微。其背后的原因有兩個:一方面是因為Biaffine Parser的出現證明了結構學習這一自然語言處理的特色問題,對于句法分析并不重要;另一方面,預訓練模型的出現使得句法分析的處境更是雪上加霜。預訓練模型不但能大幅提高句法分析的效果,更重要的是其內部已經蘊含了句法結構信息,因此就無需為下游任務提供顯式的句法結構了。由于這些原因,今年ACL上句法分析的熱點也主要集中在了研究探針任務和句法分析的應用上了。不過蘇州大學李正華老師所提出的高階TreeCRF模型還是能進一步提升句法分析的效果,這一點非常難得。
語義分析
語義分析領域的情況稍顯復雜,對于詞級別的語義分析,當年受到Word2vec模型的啟發,產生了一大批相關的研究,其影響力甚至超出了自然語言處理的范圍,在知識圖譜、推薦系統等領域都廣受關注。而近年的預訓練模型讓大家將研究重點從之前這種靜態詞向量轉移到了動態詞向量等方向。至于句級別語義分析,本身的定義就比較模糊,很多任務都可以歸為語義分析,如AMR、CCG Parsing等,當然它們也可以被歸為結構分析(Parsing)類任務,所以趨勢上有所波動。
其它維度的趨勢
上面這些分析主要是從研究領域的趨勢變化展開的,我們還可以從其它維度進行分析,來幫助我們更全面了解自然語言處理的研究。如下圖所示,我們總結了今年ACL上幾個熱門的研究方向,如對多語言、多模態、多領域和低資源的研究,融入知識的方法,圖神經網絡的應用等。
一些雜想
最后給出我在調研過程中的一些雜想,僅供參考,歡迎大家一起討論,碰撞更多的火花。謝謝!
本期責任編輯:丁 效
本期編輯:賴勇魁
“哈工大SCIR”公眾號
主編:車萬翔
副主編:張偉男,丁效
執行編輯:高建男
責任編輯:張偉男,丁效,崔一鳴,李忠陽
編輯:賴勇魁,李照鵬,馮梓嫻,胡曉毓,王若珂,顧宇軒
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯AI基礎下載(pdf更新到25集)機器學習的數學基礎專輯本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am喜歡文章,點個在看 與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的【NLP】ACL 2010-2020研究趋势总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP系列公开课】详解BERT、知识图
- 下一篇: 【职场经验】算法同学从学校到实习,需要改