开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
OpenKG地址:http://openkg.cn/dataset/csdqa
開源地址:http://zscl.xjtudlc.com:888/CSDQA/
開放許可協議:CC BY-SA 4.0 (署名相似共享)
貢獻者:西安交通大學(王紹偉、張玲玲、楊祎、胡欣、秦濤、魏筆凡、劉均)
1. 摘要
CSDQA (Computer Science Diagram Question Answering)數據集是計算機科學領域幾何圖形類示意圖問答數據集,由陜西省天地網技術重點實驗室貢獻。本數據集示意圖來自教科書、百科、博客等教育場景,包含十二個類別共計1294張示意圖,3494個問答對以及超過20000條對象信息標注。該數據集能為示意圖問答等相關研究提供良好的數據支持。?
2.?示意圖
示意圖明確表達某個特定主題或概念,傳遞可推理的規則或邏輯信息,使用抽象的圖形化符號而不是真實圖片來呈現元素的一種表示。相比自然圖像,示意圖不包含陰影、紋理、背景等,視覺要素表達更加凝練簡潔,包含豐富的信息。根據構成要素,示意圖可劃分為兩類。已有研究主要集中于第一類:來自生物學、地理學等自然學科示意圖,其對象主要由抽象化的動物、植物等事物構成,表達方式與自然圖類似。本數據集聚焦于第二類:幾何圖形類示意圖,其對象主要由圓形、矩形、箭頭等符號組成,如圖1所示。該類示意圖抽象化程度更高,對象表達方式多樣,包含復雜的邏輯結構,例如二叉樹中根節點與葉節點間具有父子拓撲關系。理解該類示意圖具有極大挑戰,也是實現智慧教育等應用的重要基礎。
圖1?CSDQA全類別示意圖樣例
3. 數據集
示意圖來源稀缺,為了收集到高質量的數據,CSDQA采取了多來源、半自動化的收集方式。針對教科書、百科等來源進行人工收集,針對網絡爬取數據構建過濾器濾除低質量樣本。
為了適應示意圖多樣的表達方式和復雜的邏輯,我們設計了多維度的數據集標注規則,包含:全局屬性-對象屬性-關系屬性,如圖2所示。其中全局屬性宏觀描述了示意圖所表達的知識;后兩者則更細粒度描述示意圖中的對象和對象間的關系信息。
圖2?CSDQA示意圖屬性標注樣例
示意圖問答任務是指:計算機在給定一張示意圖和相關的知識文本內容下回答自然語言問題。在數據集中,知識文本是以是示意圖類別為關鍵字爬取的維基百科相關信息。我們共設計了兩種難度的問題。簡單問題:計算機僅需要一次推理即可給出答案;復雜問題:計算機需要兩次推理才能給出答案,在所有標注問題中,復雜問題所占比為22.98%。形式上,標注的問題還可劃分為四選一問題和判斷題,示例如圖3所示。
圖3?CSDQA示意圖問答標注樣例
相較于已有的示意圖數據集,CSDQA的特點在于:
(1)CSDQA是首個包含高質量幾何圖形類示意圖的數據集,填補了示意圖數據集在高等教育領域的空白。
(2)CSDQA包含細粒度的標注信息和區分難度及類別的問答對,可適應多樣化的示意圖理解相關任務。
4.?結語及致謝
為推進課程領域示意圖研究,我們提出了示意圖問答任務,并為社區貢獻了一個人工標注的計算機科學領域示意圖問答數據集。在此,感謝西安交通大學劉均教授、張玲玲老師在數據集構建方案中提供的寶貴意見,感謝西安交通大學計算機科學與技術學院的楊祎、吳文俊、胡欣等同學在數據標注過程中提供的支持。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 具有图卷积网络和顺序注意力
- 下一篇: 论文浅尝 | 神经协同推理