AAAI 2020 开源论文 | 语义感知BERT(SemBERT)
作者丨張倬勝
學校丨上海交通大學碩士生
研究方向丨自然語言理解
本文從計算語言學角度,提出使用顯性語義角色信息來改善深度語言模型的建模性能,將語義角色標注用于機器閱讀理解和推理任務中,提供更加豐富和精準的語義信息。本論文來自上海交通大學與云從科技聯合創新實驗室,錄用于 AAAI 2020。
論文地址:https://arxiv.org/abs/1909.02209
開源代碼:https://github.com/cooelf/SemBERT
引言
機器閱讀理解的目標是教會機器學習并理解人類語言、像人一樣思考與交流,是深度學習促進自然語言處理的研究和工程應用后興起的實用性任務。機器閱讀理解融合了文本上的知識表達、語義理解和一定程度上基于知識的推理等一系列挑戰。?
上下文表示是文本理解的核心模塊,最新基于大規模預訓練的深度語言模型有效集成了語境化特征,在大量的自然語言處理任務上獲得巨大的成功,尤其是在各種機器閱讀理解和自然語言推理任務。
然而,許多研究者發現當前許多機器閱讀理解模型未能“真正”地理解語義信息,在一些人類易懂的題目上機器容易犯錯。現有的語言表示模型(包括 ELMO、GPT、BERT、XLNet 等),只利用了簡單的上下文特征,如字符或子詞嵌入,缺乏對結構化語言學信息的考慮,而這些信息可以為語言表達提供豐富的語義和結構化知識,構建更加精確的文本表征。?
為了增強自然語言理解,本文提出通過預訓練的語義角色標注模型引入顯式的上下文語義標簽信息,并引入一種改進的語言表示模型——語義感知 BERT (SemBERT),它能夠在 BERT 為基礎的骨架網絡上,顯性地融合上下文語義信息。SemBERT 保持了 BERT 的易用性,只需進行適應性的微調,而無需對特定任務進行大幅度的模型修改。
與 BERT 相比,SemBERT 在概念上同樣簡單,但性能卻更為強大。SemBERT 在 10 項自然語言理解任務上顯著地提升了基準模型,甚至達到了最佳的水平。
▲?SemBERT模型架構
SemBERT 模型包括三個部分:?
1)語義角色標注器,用于對文本進行標注,給輸入的句子標注謂詞-論元結構(詞級別);?
2)序列編碼模塊,其中使用預訓練的語言模型構建輸入原始文本的向量表示,通過 CNN 將子詞級表示重構為詞級別實現與標簽對齊;同時,將語義角色標簽向量化,構建語義標簽向量表示;
3)語義集成模塊,用于將文本表示與語義標簽向量表示集成融合,以獲得可用于下游任務的聯合表示。
▲?SemBERT輸入數據結構
1. 語義角色標注?
語義角色標注(SRL)旨在發現句子的謂詞-論元結構。它以句子的謂詞為中心,分析句子中各成分與謂詞之間的關系,即句子的謂詞(Predicate)- 論元(Argument)結構。
謂詞是對主語的陳述或說明,指出“做什么”、“是什么”或“怎么樣,代表了一個事件的核心,跟謂詞搭配的名詞稱為論元。語義角色是指論元在動詞所指事件中擔任的角色。主要有:施事者(Agent)、受事者(Patient)、客體(Theme)、經驗者(Experiencer)、受益者(Beneficiary)、工具(Instrument)、處所(Location)、目標(Goal)和來源(Source)等。?
例如:對于文本 {reconstructing dormitories will not be approved by cavanaugh},由于包含 2 個謂詞,因此對應 2 個謂詞-論元結構序列。?
[ARG1: reconstructing dormitories] [ARGM-MOD: will] [ARGM-NEG: not] be [V: approved] [ARG0: by cavanaugh]?
[V: reconstructing] [ARG1: dormitories] will not be approved by cavanaugh}
2. 編碼模塊?
主要分別將自然語言文本和語義角色標簽序列向量化:
1)文本序列:原始文本序列 X 首先被 BERT 的子詞切分器切分為子詞。然后輸入到 Transformer,得到具有上下文的文本向量表示。
2)標簽序列:對于與謂詞數量相對應的 m 個標簽序列?,每個序列??長度等于原始句子 X 的長度 n。將標簽向量輸入到 BiGRU 層以獲得以上 m 個標簽序列在向量空間的表示,然后我們將 m 個標簽序列拼接起來,并將它們輸入到全連接層,獲得多個標簽序列的融合表示。
3. 語義集成模塊?
該集成模塊融合了文本序列表示和標簽表示。由于原始的預訓練 BERT 基于子詞序列(Subword-level),而我們引入的語義標簽基于詞級別(word-level),因此我們在融合前需要將詞語標簽對齊。我們將每個詞語的子詞分組,并使用卷積神經網絡(CNN)提取每個詞語所對應的的子詞特征,從而獲得全局詞級別的表示。?
我們以一個詞為例:假設詞語??由一系列子詞??組成,其中 l 是詞語 ?的子詞數量。經過 BERT 編碼后,將子詞??的向量表示為?,將其輸入到卷積神經網絡 Conv1D 后通過 ReLU 激活和最大池化得到詞級別的表示。
然后將詞級別對齊的文本序列向量和提取的標簽序列向量融合得到語義增強的語言表示。
實驗結果
我們的模型在 10 個基準數據集中進行了評估,這些數據集涉及自然語言推理,機器閱讀理解,語義相似性和文本分類等多種任務。
▲?GLUE實驗結果
▲?SQuAD實驗結果
▲?SNLI實驗結果
結果分析
GLUE 上的實驗顯示了 SemBERT 在所有任務上均有效增強 BERT,并且獲得了領先的結果。SemBERT 模型簡單且有效,通過極少的參數增長,取得了與更復雜的模型相接近,甚至超越了多任務學習模型的性能。對于 SQuAD,SemBERT 在 EM 和 F1 指標上均優于 BERT 基準模型,超越了所有已發表的工作,并取得了與排行榜中的一些未發表的、更復雜模型可比的性能。而在 SNLI 數據集上的實驗顯示 SemBERT 達到了該數據集上的最佳性能,甚至超過所有 Ensemble 模型(SNLI 排行榜:https://nlp.stanford.edu/projects/snli/)。?
本工作揭示了顯性語義信息在自然語言理解上的有效性,這表明顯式上下文語義可以與最新的預訓練語言表示有效地集成融合,從而進一步提高性能。除了這項工作中驗證的各種任務之外,SemBERT 還可以輕松地適應其他語言。
SRL 是 NLP 的一項基本任務,CoNLL 2009 提供了 7 個 SRL 樹庫,因此可以方便地訓練主要語言的標簽。對于那些沒有可用的樹庫的場景,可以有效地應用無監督的 SRL 方法。對于跨領域問題,我們所研究的數據集(GLUE 和 SQuAD)涵蓋了非常不同的領域,并且實驗表明我們的方法仍然有效。
點擊以下標題查看更多期內容:?
博士學位論文 | 機器閱讀理解與文本問答技術研究
從Word2Vec到BERT
JoSE:球面上的詞向量和句向量
后BERT時代的那些NLP預訓練模型
BERT的成功是否依賴于虛假相關的統計線索?
從三大頂會論文看百變Self-Attention
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的AAAI 2020 开源论文 | 语义感知BERT(SemBERT)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 光大兴陇信托和光大信托是一家吗
- 下一篇: 岗位推荐 | 腾讯AI Lab多媒体算法