日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 >

基于知识图谱的问答系统入门—NLPCC2016KBQA数据集

發布時間:2024/10/8 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 基于知识图谱的问答系统入门—NLPCC2016KBQA数据集 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.


作者丨郭雅志

學校丨北京化工大學

研究方向丨NLP、知識圖譜、對話/問答系統


本人認為學習一樣東西,直接上手跑實驗是最有效提升的方法之一。看了那么多的理論介紹文章,抽象的說辭,最后還是似懂非懂。所以,直接上手數據集跑實驗,與理論結合,能有更深刻的了解。同時也記錄下學習 KBQA 的過程,也希望對同入門的同學有些幫助。


引言


本人最近在做 KBQA 相關的的工作,有些大致的了解和想法后希望能夠在實驗中學習更多。?


目前研究的 KBQA 暫時專注在簡單知識庫問答上:即根據一個問題,抽出一條三元組,生成 Sparql 語句,進而進行知識圖譜查詢返回答案。?


最終選擇了 NLPCC2016KBQA 數據集,基線模型采用 BERT。


數據集介紹


NLPCC 全稱自然語言處理與中文計算會議(The Conference on Natural Language Processing and Chinese Computing),它是由中國計算機學會(CCF)主辦的 CCF 中文信息技術專業委員會年度學術會議,專注于自然語言處理及中文計算領域的學術和應用創新。?


此次使用的數據集來自 NLPCC ICCPOL 2016 KBQA 任務集,其包含 14,609 個問答對的訓練集和包含 9870 個問答對的測試集。并提供一個知識庫,包含 6,502,738 個實體、 587,875 個屬性以及 43,063,796 個三元組。


知識庫文件中每行存儲一個事實(fact),即三元組 ( 實體、屬性、屬性值) 。各文件統計如下:



知識庫樣例如下所示:



原數據中本只有問答對(question-answer),并無標注三元組(triple),本人所用問答對數據來自該比賽第一名的預處理:


http://github.com/huangxiangzhou/NLPCC2016KBQA


構造 Triple 的方法為從知識庫中反向查找答案,根據問題過濾實體,最終篩選得到,也會存在少量噪音數據。該 Triple 之后用于構建實體識別和屬性選擇等任務的數據集。


問答對樣例如下所示:



數據集本身存在的問題


知識庫實體間的歧義


以“貝拉克·奧巴馬”為例,涉及該實體的問答對如下:



在知識庫中查詢包含該實體的三元組,結果如下(部分):



首先,知識庫中存在“貝拉克·奧巴馬”的多條實體,有可能是多數據來源的融合或其他原因,從而并不能完全保證信息的對齊。我們查看“妻子”這一屬性,發現有的是“米歇爾·拉沃恩·奧巴馬”有的是“米歇爾·奧巴馬”,而我們問答對中給出的答案是“米歇爾·奧巴馬”。因此當我們的模型檢索到正確三元組時:



雖然在實體和屬性都映射正確的情況下,最終答案仍可能被判定為錯誤。


問題中的實體歧義


以“博士來拜”為例,涉及該實體的問答對如下:



在知識庫中查詢包含該實體的三元組,結果如下(部分):



問句中的問題是:“博士來拜是什么年代的作品?“,涉及到”年代“這個屬性,而這幅作品被不同時期的很多人創作過,我們無法從當前問句下得到要詢問的是哪位藝術家的創作年代。


因此該問題的涉及的實體具有歧義性,同樣的,當模型檢索到我們認為的正確實體和正確屬性后,依然有可能會被判定為錯誤答案。


在知識庫中相關實體三元組數量過多的情況下,對檢索模型的效果、效率也是個挑戰。


在具有 4300W 條三元組的知識庫中,同一個實體會檢索出大量(幾十、幾百條)的相關三元組,而且在存在上述兩個歧義性問題的情況下,識別的效果和效率都是很大的問題。


以上的兩個問題在實體識別實驗部分和屬性抽取部分的影響較小,但在實體鏈接知識庫檢索最終答案三元組的部分會有較大的影響。


數據集預處理及實驗結果


清洗訓練數據、測試數據、知識庫


過濾屬性,去除‘-’,‘?’,空格等噪音符號,同時把每一行 lower() 轉成小寫。



分別保存為:train_clean.csv, test_clean.csv, nlpcc-iccpol-2016-clean.kbqa.kb。


構造開發集


原始訓練集數量為 14,609,Shuffle 后抽出 2609 作為開發集,其余作為訓練集,如下。



分別保存為:train_clean.csv, dev_clean.csv, test_clean.csv。


構造實體識別的訓練集、開發集、測試集


構造實體識別數據集需要根據三元組-Enitity 反向標注問題,給 Question 打標簽。由于我們希望從單問題中抽取單個實體,并未采用 BIO 的標注,直接采用 0/1 標注法,即 0 表示非實體,1 表示實體。


同時需要確保其實體完整出現在問題中,對于未出現的樣例,我們直接刪除忽略。錯誤樣例如下所示:



過濾后的數據集信息如下:



過濾后的數據集樣例如下所示:



分別保存為:entity_train.csv, entity_dev.csv, entity_test.csv。


基于 BERT+BiLSTM+CRF 模型的實驗結果如下所示,其中 accuracy 是從 9556 個問句識別出完全匹配實體的準確率。



未完全匹配的實體樣例如下,部分是識別錯誤,部分是同義詞,部分是噪音問題。



構造屬性抽取的訓練集、開發集、測試集?


1. 構造測試集的整體屬性集合,提取+去重,獲得 4373 個屬性 RelationList;


2. 一個 sample 由“問題+屬性+Label”構成,原始數據中的屬性值置為 1;


3. 從 RelationList 中隨機抽取五個屬性作為 Negative Samples。


數據集大小如下:



數據集 samples 如下:



分別保存為:relation_train.csv, relation_dev.csv, relation_test.csv。


之前構造的數據進行訓練,在這個測試集上測試的結果。基于BERT的訓練結果如下所示,其中 accuracy 是真正的準確率。



模型沒有識別出的測試樣例如下,可以看出缺少深度語義匹配的能力。



結束語


之后也會把相關代碼和預處理數據開源到我的 Github 上:


https://github.com/supergyz




點擊以下標題查看更多往期內容:?


  • 自動機器學習(AutoML)最新綜述

  • 圖神經網絡綜述:模型與應用

  • 近期值得讀的10篇GAN進展論文

  • 自然語言處理中的語言模型預訓練方法

  • 從傅里葉分析角度解讀深度學習的泛化能力

  • 兩行代碼玩轉Google BERT句向量詞向量

  • 近期知識圖譜頂會論文推薦,你都讀過哪幾篇?

  • TensorSpace:超酷炫3D神經網絡可視化框架

  • 深度長文:NLP的巨人肩膀(上)

  • NLP的巨人肩膀(下):從CoVe到BERT




#投 稿 通 道#

?讓你的論文被更多人看到?



如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。


總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?


PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得技術干貨。我們的目的只有一個,讓知識真正流動起來。


??來稿標準:

? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?

? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志


? 投稿郵箱:

? 投稿郵箱:hr@paperweekly.site?

? 所有文章配圖,請單獨在附件中發送?

? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通




?


現在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧



關于PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。


▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結

以上是生活随笔為你收集整理的基于知识图谱的问答系统入门—NLPCC2016KBQA数据集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。