日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

面向中文短文本的实体链指任务竞赛亚军DeepBlueAI团队技术分享

發布時間:2024/10/8 ChatGpt 155 豆豆
生活随笔 收集整理的這篇文章主要介紹了 面向中文短文本的实体链指任务竞赛亚军DeepBlueAI团队技术分享 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

?PaperWeekly 原創 ·?作者|羅志鵬

學校|深蘭北京AI研發中心

研究方向|物體檢測

全國知識圖譜與語義計算大會(CCKS 2020)11 月 12 日至 15 日在江西南昌舉行,CCKS(China Conference on Knowledge Graph and Semantic Computing)由中國中文信息學會語言與知識計算專委會定期舉辦的全國年度學術會議。CCKS 已經成為國內知識圖譜、語義技術、語言理解和知識計算等領域的核心會議。

CCKS 2020 舉辦的各項挑戰賽公布了最終結果,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲了?3 項冠軍和 1 項亞軍,并獲得了一項技術創新獎。我們可以通過這篇文章了解下 DeepBlueAI 團隊在『CCKS 2020:面向中文短文本的實體鏈指任務』賽題中的解決方案。

賽題介紹

面向中文短文本的實體鏈指,簡稱 EL(Entity Linking),即對于給定的一個中文短文本(如搜索 Query、微博、對話內容、文章/視頻/圖片的標題等),EL 將其中的實體與給定知識庫中對應的實體進行關聯。

此次任務的輸入輸出定義如下:

輸入:中文短文本以及該短文本中的實體集合。

輸出:輸出文本此中文短文本的實體鏈指結果。每個結果包含:實體 mention、在中文短文本中的位置偏移、其在給定知識庫中的 id,如果為 NIL 情況,需要再給出實體的上位概念類型。

團隊成績

評價方式采用 F-1 分值,在最終榜單上我們 f1 達到了 0.89538 與第一名僅相差0.00002。

B 榜成績:

A 榜成績:

比賽難點

針對中文短文本的實體鏈指存在很大的挑戰,主要原因如下:

  • 口語化嚴重,導致實體歧義消解困難;

  • 短文本上下文語境不豐富,須對上下文語境進行精準理解;

  • 相比英文,中文由于語言自身的特點,在短文本的鏈指問題上更有挑戰。

  • 引言

    實體鏈接是一項識別文本中的實體指稱(指文本被識別到的命名實體)并將其映射到知識庫中對應實體上的任務?[1]。

    對于一個給定的實體鏈接任務,首先需要使用命名實體識別方法和工具識別文本中的實體,然后對每個實體指稱利用候選實體生成技術生成對應候選實體集,最后利用文本信息和知識庫的信息消除候選實體的歧義得到相匹配實體,如果最沒有相匹配實體則將該實體指稱標記為 NIL(代表沒有對應實體)。

    一般來講,實體鏈接包括三個主要環節:命名實體識別、候選實體生成、候選實體消歧。

    CCKS 2020 任務,對比 2019 年任務 [2] 去掉了實體識別,專注于中文短文本場景下的多歧義實體消歧技術,增加對新實體(NIL 實體)的上位概念類型判斷,所以 CCKS 2020 任務可以分成兩個子任務,分別為多歧義實體消歧和 NIL 實體類型判斷。

    針對實體消歧任務我們采用了基于 BERT [3] 的二分類方法,對每一個候選實體進行預測,然后對預測的概率進行排序,由于數據集中包含 NIL 實體,我們將 NIL 實體也作為候選實體參與模型訓練和概率排序,進而完成消歧任務。

    對于 NIL 實體類型判斷任務提出了基于問答的 NIL 實體類型判斷模型,模型通過構建問句并依據已知實體信息構建上下文,有效的引入短文本中已知實體的知識庫信息,額外信息的引入能夠顯著提升了模型的性能。

    實體消歧任務

    實體消歧主要是對于給定的實體指稱,利用候選實體生成技術得到相應的候選實體集,然后在利用實體消歧模型找到真正對 應的那個實體。如圖 1 所示,利用短文本中的實體指稱,可以通過候選實體生成的方式得到候選實體集合,然后利用候選實體的描述信息進行實體消歧的得到與實體指稱相對應的實體,如果找不到,則用 NIL 表示。

    ▲ 圖1 實體消歧數據樣例

    實體描述文本

    知識庫中實體的信息為結構化信息,如下所示:

    {"alias":?["承志"],?"subject_id":?"10005",?"data":?[{"predicate":?"摘要",?"object":?"愛新覺羅·承志是輔國公西朗阿之子。"},?{"predicate":?"義項描述",?"object":?"愛新覺羅·承志"},?{"predicate":?"標簽",?"object":?"人物、話題人物、歷史"}],?"type":?"Person",?"subject":?"愛新覺羅·承志" }

    為了方便處理,我們將“predicate”與“object”相連得到描述文本。

    候選實體生成

    候選實體生成最常用的方法是基于字典的方法 [4,5],這種方法需要根據給定的知識庫構建名稱字典,字典的鍵就是實體的名字,而值則是這個名字所對應的所有的具有相同名字的實體。

    對于每個實體指稱去檢索字典的鍵,如果字典的鍵符合要求,則將該鍵對應的值中所有的實體都加入到候選實體集中,其中判斷字典的鍵是否符合要求通常的做法是采用精確匹配的方式,只有當實體指稱和字典鍵彼此完全匹配的情況下才加入到候選實體集。

    基本流程為先通過知識庫中的實體名字以及實體別稱構建實體字典,然后采用精確匹配的方式匹配得到候選實體。

    實體消歧

    現在比較流行的消歧模型常用的方案是提取實體所在短文本的上下文特征,以及候選實體描述文本的特征,在將這兩類特征經過全連接網絡,最后進行二分類 [6,7]。

    這類方法對于長文本很有效,但是對于短文本的消歧效果不是很好,主要是因為短文本內容較短,上下文太少,難以提取有效的上下文特征,而候選實體的描述文本過長,這種情況造成傳統的實體消歧模型效果并不理想。考慮到短文本的特性,我們采用了基于 BERT 和實體特征的消歧模型。

    ▲ 圖2 實體消歧模型圖

    模型圖如圖 2 所示,模型采用的思想主要是為利用 BERT 模型 [CLS] 符號的輸出向量,以及實體指稱所在開始位置的向量和結束位置的向量,經過全連接層,然后經過 sigmoid 進行二分類。

    其中 [CLS] 符號的輸出向量可以用來判斷短文本和候選實體的描述文本是否處在同一語義場景,實體位置的向量可以代表實體的上下文特征。模型的輸入為短文本以及候選實體的描述文本,形式為:[CLS] 短文本 [SEP] 候選實體描述文本 [SEP]。

    優化點:

  • 動態負采樣:不同于以往在訓練前選取固定的負樣本,模型采用動態負采樣技術,在模型訓練中每個 batch 選取不同的負樣本參與訓練,通過這種方式能夠極大的提高模型的泛化能力。

  • NIL 排序:由于增加了 NIL 實體,對NIL 實體也作為候選實體參與訓練和排序。

  • 模型融合:采用了百度 ERNIE-1.0 [8] 和 Roberta-wwm [9] 模型兩個預訓練模型,并采用交叉驗證的方式對最后的結果進行平均融合。

  • 實體類型判斷

    對于實體類型判斷任務大家通用的思路也就是 baseline 思路為,通過提取 mention 位置的向量,然后經過全連接分類,得到實體的類型。

    這種方案的最大缺點就是僅僅用短文本的信息去對 NIL 實體進行類型分類,沒有利用到已知實體信息的特征,為了利用上其他不是 NIL 實體的信息,我們構建了基于問答的實體類型判斷模型。模型基于問答的思想,通過構建問句和上下文將已知實體的信息輸入到模型中,來提升實體類別判斷的性能。

    {"text_id":?"456",?"text":?"神探加杰特,和彭妮長得一模一樣,竟想要霸占泰龍的位置",?"mention_data":?[{"kb_id":?"283448",?"mention":?"神探加杰特",?"offset":?"0"},?{"kb_id":?"NIL_VirtualThings",?"mention":?"彭妮",?"offset":?"7"},?{"kb_id":?"NIL_VirtualThings",?"mention":?"泰龍",?"offset":?"21"},?{"kb_id":?"88355",?"mention":?"位置",?"offset":?"24"}] }

    對于上述例子,其中實體有 “神探加杰特” 、“彭妮”,“泰龍”,“位置” 4 個實體,需要預測類型的 NIL 實體有“彭妮”,“泰龍”,對于實體 “彭妮”,“泰龍”,“彭妮” 根據命名習慣很容易判斷為類型為 Person 類型, 就算根據短文本的語義分析判斷“彭妮”依舊是 Person 類型,同樣模型學習到的也是 Person 類型。而“彭妮”的真實類型為 VirtualThings 類型,可以看出在沒有其他額外信息的情況下,很難準確預測“彭妮”的類型。

    當前任務為:對于輸入文本 ,其中存在 NIL 實體集合 {},求 NIL 實體 對應的類型 。在經過實體消歧后,已經知道部分實體的知識庫信息和類型信息,那么任務可以變為:對于輸入文本 ,其中存在實體集合 {},已知實體 的知識庫信息 ,其中知識庫信息 會包含對應的類型信息 ,求出 NIL 實體 對應的類型 。對于改變后的任務主要是利用上已知實體的信息,對于這種任務我們采用問答的形式,對于上述例子根據短文本以及 mention 構建問句為兩個:

    Question1:神探加杰特,和彭妮長得一模一樣,竟想要霸占泰龍的位置,彭妮的類型是什么? Question2:神探加杰特,和彭妮長得一模一樣,竟想要霸占泰龍的位置,泰龍的類型是什么?

    根據已知的實體信息構建相關上下文為:

    Context:神探加杰特的類型是作品,描述為?1983--1985?年美國播出的動畫片,位置類型為其他,描述為詞語釋義

    通過上下文信息,可以得知“神探加杰特”為一個動畫片,而不是電視劇電影等其他作品,那么模型則可以輕易學出,動畫片中的人物為 VirtualThings 類型。本文將已知實體的信息分為實體類型和實體的描述(實體的描述僅僅使用了知識庫信息中“義項描述”這一項),后續會對此進行實驗分析。

    具體任務為,根據 question 和 context 去做多分類來識別問句中要識別 NIL 實體的類型,模型基于 BERT 模型,輸入形式為 [CLS]question[SEP]context[SEP],對于上述例子模型圖如下,模型利用 BERT[CLS] 符號的輸出向量,以及實體所在的開始位置向量和結束位置向量,經過全連接層,然后經過 softmax 激活函數進行多分類。

    ▲ 圖3 類型判斷模型圖

    優化點:

  • 對抗學習:在類型判斷模型訓練過程中,加入了 FGM [10] 對抗訓練,通過在 word embedding 上添加擾動,提升模型魯棒性和泛化能力。

  • 模型融合:采用了百度 ERNIE-1.0 和 Roberta-wwm 模型兩個預訓練模型,并采用交叉驗證的方式對最后的結果進行平均融合。

  • 實驗

    實體消歧任務

    在實體消歧實驗階段,我們對 NIL 實體類型不做識別,下述試驗結果沒有加入 NIL 類型的評價。其中實驗中參數配置如下:batch size 為 32,針對不同層采用不同的學習率,其中 BERT 模型初始學習率為 1e-5,其他模型參數初始學習率為 5e-4,為了更好地收斂到最優,采用了基于指數衰減的學習率衰減策略,每輪衰減為原來的 0.5 倍。

    NIL 實體判定策略:針對某個實體,有三種情況會判定為 NIL 實體,1. 沒有候選實體 2. 候選實體得分排序,最高得分是NIL,3. 候選實體得分排序,最高得分是不是 NIL,但是得分小于 0.05。

    編號

    模型

    F1

    1

    Model-static- neg2-ernie

    0.7376

    2

    Model-dyanmic- neg2-ernie

    0.7415

    3

    Model-dyanmic- neg1-ernie

    0.7402

    4

    Model-dyanmic- neg3-ernie

    0.7393

    5

    Model-dyanmic- neg2-bert

    0.7380

    6

    Model-dyanmic- neg2-roberta

    0.7383

    我們對以下幾個維度進行了實驗分析,1. 動態負采樣與靜態負采樣 2.負采樣的個數? 3.不同預訓練模型。實驗結果如表 1 所示,static 代表靜態負采樣,dyanmic 代表動態負采樣,neg2 代表負采樣的個數為 2。

    對比模型 1 與模型 2,動態負采樣對比靜態負采樣有著巨大的提升,靜態負采樣之所以不好是沒有利用上更多負樣本的信息,對比模型 2、3、4 可以得出,負樣本個數并不是越多越好,當負樣本太多時會造成類別不均衡導致最終性能下降,并且負樣本增多也會導致數據變大,訓練時間增加,綜合考慮本文最終采用 2 個負樣本。

    對比模型 4、5、6 可以看出不同的預訓練模型對最終的結果也有著很大的影響,由于數據集由百度提供,數據中知識庫來源大多來自百度百科,所有百度開源的 ERNIE 模型性能最佳,roberta 次之,綜合考慮最終本文采取的方案為 ernie 模型與 roberta-wwt 融合。融合方案比較簡單,采用交叉驗證求平均的方式。

    實體類型判斷任務

    對于實體類型判斷任務,我們采用準確率作為評價標準,在實驗設計方向本文主要設計了一下幾個方面的對照實驗,模型1:采用 baseline 思路,將實體位置的向量特征輸出分類,模型2:僅僅加入已知實體的類型信息,不加入其他信息,模型3:加入簡短的實體描述信息,模型4:即加入實體類型信息,又加入實體描述信息。模型5:加入對抗訓練。

    編號

    模型

    準確率

    1

    Model-baseline

    0.8628

    2

    Model-type

    0.8793

    3

    Model-desc

    0.8782

    4

    Model-type+desc

    0.8800

    5

    Model- type+desc+FGM

    0.8819

    由模型 1、2、3、4 可以發現,相比于 baseline 加入已知實體的信息能夠顯著提升模型的性能,說明已知實體的信息對短文本 NIL 實體的類別判斷有著很大的幫助。對比模型 2 和模型 3 可以發現,已知實體的類別信息更為重要,這可能與僅僅采用了實體簡短描述信息而沒有使用實體的全部描述信息。

    從模型 4 可以得出將實體的類型信息與描述信息相結合則能夠達到更好的效果。從模型 5 可以看出加入對抗訓練能夠提升模型的泛化能力,對最終的結果也有很大的提升。

    實體鏈接結果

    最終將兩個模型合在一起得到最終的實體鏈接效果表如下所示,其中測試集 A 和測試集 B 為多個模型交叉驗證求平均的結果。

    編號

    模型

    F1

    1

    開發集

    0.88010

    2

    測試集A

    0.89193

    3

    測試集B

    0.89538

    總結

    我們在 2020(全國知識圖譜與語義計算大會)舉辦的“面向中文短文本的實體鏈指”評測任務中取得了 A 榜第一名的成績,B 榜第二名的成績,其中基于問答的實體類型判斷模型巧妙的利用到了已知實體的信息,此模型對后續此類型的任務提供了借鑒意義。

    但是本文依舊有些地方需要改進,如知識庫給定的數據具有一定的結構信息,直接連在一起當文本使用,會損失這部分特征,可以設計更好的網絡來利用這部分結構化信息。

    參考文獻

    [1] Rao, Delip, Paul McNamee, and Mark Dredze. Entity linking: Finding extracted entities in a knowledge base[J]. Multi-source, multilingual information extraction andsummarization. Springer, Berlin, Heidelberg, 2013. 93-115

    [2] https://www.biendata.xyz/competition/ccks_2019_el/

    [3] Devlin J, Chang M W, Lee K, et al. BERT: ? Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.

    [4] Zhang W, Su J, Tan C L, et al. Entity Linking Leveraging Automatically Generated Annotation[C]. COLING 2010, 23rd International Conference on Computational Linguistics, Proceedings?of?the Conference, 23-27 August 2010, Beijing, China. DBLP, 2010.

    [5] Zhang W, Sim Y C, Su J, et al. Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling[C]. IJCAI 2011, Proceedings of the 22nd International Joint Conference on Artificial Intelligence, Barcelona, Catalonia, Spain, July 16-22, 2011. AAAI Press, 2011.

    [6] Chen Z, Ji H. Collaborative Ranking: A Case Study on Entity Linking[C]. Proceedings of the 2011 Conference on?Empirical Methods in Natural Language Processing, ?EMNLP 2011, 27-31 July 2011

    [7] Pilz A, Gerhard Paa?. From names to entities using?thematic context distance[C]. ?Acm Conference on Information & Knowledge Management. ACM, 2011.

    [8] Sun, Yu, et al. "Ernie: Enhanced representation through knowledge integration." arXiv preprint arXiv:1904.09223 (2019).

    [9] Cui, Yiming, et al. "Revisiting Pre-Trained Models for Chinese Natural Language Processing." arXiv preprint arXiv:2004.13922 (2020).

    [10] Miyato, Takeru, Andrew M. Dai, and Ian Goodfellow. "Adversarial training methods for semi-supervised text classification." arXiv preprint arXiv:1605.07725 (2016).

    更多閱讀

    #投 稿?通 道#

    ?讓你的論文被更多人看到?

    如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

    總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?

    PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。

    ?????來稿標準:

    ? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

    ? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

    ? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志

    ?????投稿郵箱:

    ? 投稿郵箱:hr@paperweekly.site?

    ? 所有文章配圖,請單獨在附件中發送?

    ? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通

    ????

    現在,在「知乎」也能找到我們了

    進入知乎首頁搜索「PaperWeekly」

    點擊「關注」訂閱我們的專欄吧

    關于PaperWeekly

    PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

    總結

    以上是生活随笔為你收集整理的面向中文短文本的实体链指任务竞赛亚军DeepBlueAI团队技术分享的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。