英文对话数据集总结
這個網站里也可以找到各種類型的數據https://parl.ai/docs/tasks.html
開放領域對話數據集
Dialogue NLI
Dialogue NLI 是一個解決對話模型一致性問題的數據集。
相關論文:Dialogue Natural Language Inference
數據地址:https://wellecks.github.io/dialogue_nli/(須某種手段才可以打開,你懂的)
Cmu Document Grounded Conversations
用于文本對話的基于文檔的數據集,其中文檔是關于流行電影的維基百科文章。包含 4112 個對話,每個對話平均 21.43 輪。
論文:A Dataset for Document Grounded Conversations
Kangyan Zhou, Shrimai Prabhumoye, Alan W Black
數據集地址:https://github.com/festvox/datasets-CMU_DoG
persona-chat數據集
數據集通過亞馬遜勞務眾包平臺“Amazon MechanicalTurk”收集,包含來自人類的162064個對話語句,單個語句每句最多15個詞。其中的人類是隨機配對的,每個人被隨機分配個性化角色,此時每個人只知道自己的個性化角色,不知道對方的個性化角色。每個人要按照被分配的個性化角色進行自然的對話,并且在談話中了解對方。這就使對話代理可以試著學習模仿有趣和有吸引力的談話。
數據收集由三個階段項目組成:
1、構建個性化角色:共構建1155種個性化角色,每個個性化角色至少有5個Profile簡介信息描述句,每句最多15個詞,留出100個個性化角色用于驗證,100個用于測試,其他的用于訓練
2、調整個性化角色:解決人類會不知不覺地重復Profile簡介信息或者逐字的重復使用某單詞的現象,我們將這1155種個性化角色的Profile簡介信息利用改寫、泛化或專業化等方式重寫,重寫后的結果如圖。用簡單的字符串匹配來防止單詞重復,“My father worked for Ford.” 可以被修改為 “My dad worked in the car industry”, 但不能被改為 “My dad was employed by Ford.”
3、個性化角色聊天:我們將兩個人隨機配對,并隨機給他們分配初始構建的個性化角色,來進行聊天,每組對話最少6-8輪,每句最多15個詞。由此構建了一個在10907組對話中有162064個句子的數據集,其中15602句子 (1000 組對話) 用于驗證,和5024句子 (968 組對話)進行測試
論文:ACL2018. Personalizing dialogue agents: I have a dog, do you have pets too?
未找到數據源但是另一個類似數據集Convai
Convai3一個基于 PersonaChat 的聊天數據集,用于 NIPS 2018 比賽。
比賽的鏈接:http://convai.io/
數據集的地址:https://github.com/aliannejadi/ClariQ
WebQuestions
WebQuestions數據集(2013年提出)是由斯坦福大學研究人員通過Google Suggest API構建得到的,數據集本身共包含5810條(問題,答案)對,其中簡單問題占比在84%,復雜的多跳和推理問題相對較少。根據提出者的最初數據劃分方式,WebQuestions被分為訓練集和測試集兩個集合,其中訓練集包含3778條數據,測試集包含2032條數據。
數據格式:json
論文:Semantic Parsing on Freebase from Question-Answer Pairs
數據集地址:https://worksheets.codalab.org/worksheets/0xba659fe363cb46e7a505c5b6a774dc8a
但該數據集有 2 點不足:
① 數據集中只有問答對,沒有包含邏輯形式;
② 簡單問題占比在 84%,缺乏復雜的多跳和推理型問題;
針對第一類問題,微軟基于該數據集構建了 WebquestionsSP,為每一個答案標注了 SPARQL 查詢語句,并去除了部分有歧義、意圖不明或者沒有明確答案的問題。
針對第二類問題,為了增加問題的復雜性,ComplexQuestions在 WebQuestions 基礎上,引入包含類型約束、顯式或者隱式的時間約束、多實體約束、聚合類約束(最值和求和)等問題,并提供邏輯形式的查詢。
ComplexQuestions
ComplexQuestions數據集(2016年提出)是一個專門針對復雜問題而構建的數據集,在構建該數據集過程中,作者從一個實際使用的搜索引擎(具體哪個暫未知)中篩選并得到了878條可用的問答對。除了這878條數據,作者還從WebQuestions等數據集上額外選出了1222條數據,由此共得到了2100條復雜問題對。總體來說,該數據集共包含2100條問答對,其中訓練集個數為1300條,測試集個數為800條。
論文:Constraint-Based Question Answering with Knowledge Graph
數據集地址:https://github.com/JunweiBao/MulCQA/tree/ComplexQuestions
SimpleQuestions
SimpleQuestions數據集(2015年提出)是一個針對簡單問題而構建的數據集,它采用人工標注的方法根據知識庫中的事實生成對應的問句,并且以Freebase作為答案來源。該數據集共包含108,442條數據(包含關系標注),其中訓練集為75910條(70%),驗證集為10845條(10%),測試集為21687條(20%)。
論文:Large-scale Simple Question Answering with Memory Networks
數據集地址:https://research.fb.com/downloads/babi/
ComplexWebQuestions
ComplexWebQuestions數據集基于WebQuestionsSP數據集而建立的。建立方式為:首先根據WebQuestionsSP數據集的SPARQL語句涉及模板進行擴展形成模式化的復雜問句,然后人工將復雜問句進行轉述形成自然語言問句。該數據使用場景包含知識圖譜問答和閱讀理解兩個任務,共包含34,689條數據,其中訓練集27,734條,驗證集3,480條,測試集3,475條。
論文:The web as a knowledge-base for answering complex questions
數據集地址:https://www.tau-nlp.org/compwebq
QALD數據集
QALD評測數據集的全稱為Question Answering over Linked Data ,是多語言的鏈接數據問答系統的評測競賽活動。
QALD-9 中的問題相比之前更復雜,除了事實類問題,還包括:
計數問題, e.g., How many children does Eddie Murphy have?
最高級, e.g., Which museum in New York has the most visitors?
比較級,e.g., Is Lake Baikal bigger than the Great Bear Lake?
時間聚合, e.g., How many companies were founded in the same year as Google?
數據集格式:xml文件
評測工具:http://gerbil-qa.aksw.org/gerbil/
數據集地址:https://github.com/ag-sc/QALD
Large-Scale Complex Question Answering Dataset (LcQuAD)數據集
Trivedi等人在 2017 年公布了一個針對 DBpedia 的復雜問題數據集,該數據集中簡單的單跳問題占比 18%,典型的問句形式如:“What are the mascots of the teams participating in the turkish handball super league?”。
該數據集的構建,先利用一部分 SPARQL 模板,一些種子實體和部分關聯屬性通過 DBpedia 生成具體的 SPARQL,然后再利用定義好的問句模板半自動利用 SPARQL 生成問句,最后通過眾包形成最后的標注問題。
特點:通過SPARQL自動構建再人工修正。
數據格式:json格式,如下圖。
論文:Lc-quad: A corpus for complex question answering over knowledge graphs
數據集地址:https://github.com/AskNowQA/LC-QuAD
任務型對話數據集
CrossWOZ數據集
語言:中文
相比于之前的任務導向對話數據集(特別是MultiWOZ),CrossWOZ有三大特點:
在對話中,用戶在某個領域的選擇可能會影響到與之相關的領域的選擇。如上面的這個例子,用戶選擇了北京歡樂谷作為景點領域的結果,那么之后選擇的酒店就要在它附近。不同的景點選擇會對酒店產生不同的約束。這種跨領域約束隨著對話的進行而具體化,需要對話雙方都能對上下文有更好的理解,因而更具有挑戰性。
這是第一個中文大規模多領域任務導向對話數據集,包含 6K 個對話,102K 個句子,涉及 5 個領域(景點、酒店、餐館、地鐵、出租)。平均每個對話涉及 3.2 個領域,遠超之前的多領域對話數據集,增添了對話管理的難度。
標注信息全面,可以用于研究任務導向對話系統中各個方面。除了提供對話雙方的對話意圖、系統端的對話狀態這些信息之外,還額外提供了每輪用戶端的對話狀態。用戶端狀態記錄了目標的完成情況,每輪根據系統回復動態更新,可用于研究用戶模擬器的搭建。
論文: CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset
數據集鏈接:https://github.com/thu-coai/CrossWOZ
總結
- 上一篇: 前端学习(100):float注意点整理
- 下一篇: Flurry 统计(国际版)