对话数据集
A Natural Language Corpus of Common Grounding underContinuous and Partially-Observable Context
任務:根據對話描述,找出兩個speaker可以共同看見的實體
構建6760對話數據集
https://arxiv.org/abs/1907.03399
RadioTalk: a large-scale corpus of talk radio transcripts
無線電轉錄的大量對話數據集
284000無線電自動轉錄語音
https://arxiv.org/abs/1907.07073
- Large Scale Question Answering using Tourism Data
標題:基于旅游數據的大規模問答
作者: Danish Contractor, Parag Singla
鏈接:https://arxiv.org/abs/1909.03527
我們收集了一份QA數據集,其中包含48,147個段落大小的真實用戶問題,這些問題來自尋求酒店,景點和餐館推薦的旅行者。每個候選答案都與一組非結構化評論相關聯。
- Taskmaster-1: Toward a Realistic and Diverse Dialog Dataset
標題:Taskmaster-1:走向現實和多樣化的對話數據集
作者: Bill Byrne, Kyu-Young Kim
備注:To appear at EMNLP 2019
鏈接:https://arxiv.org/abs/1909.05358
其中包括13,215個基于任務的對話框,包含六個域。
-
Generating Challenge Datasets for Task-Oriented Conversational Agents through Self-Play
標題:通過自玩為面向任務的會話代理生成挑戰數據集
作者: Sourabh Majumdar, Serra Sinem Tekiroglu
備注:Proceedings of Recent Advances in Natural Language Processing (RANLP) Conference, 2019
鏈接:https://arxiv.org/abs/1910.07357
-
The Eighth Dialog System Technology Challenge
標題:第八屆對話系統技術挑戰
作者: Seokhwan Kim, Raghav Gupta
備注:Submitted to NeurIPS 2019 3rd Conversational AI Workshop
鏈接:https://arxiv.org/abs/1911.06394
-
The JDDC Corpus: A Large-Scale Multi-Turn Chinese Dialogue Dataset forE-commerce Customer Service
標題:JDDC語料庫:一個大規模的多回合中文對話數據集電子商務客戶服務
作者: Meng Chen, Bowen Zhou
鏈接:https://arxiv.org/abs/1911.09969
-
Filling Conversation Ellipsis for Better Social Dialog Understanding
標題:填充會話省略以更好地理解社會對話
作者: Xiyuan Zhang, Zhou Yu
備注:Accepted to AAAI 2020
鏈接:https://arxiv.org/abs/1911.10776
針對于省略號問題,我們還提供了一個開放域的人機對話數據集,其中包含手動完成的用戶話語和手動完成后的帶注釋的語義角色標簽。
-
SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization
標題:SAMSum語料庫:用于摘要的人類標注對話數據集
作者: Bogdan Gliwa, Aleksander Wawer
鏈接:https://arxiv.org/abs/1911.12237
-
Introducing MANtIS: a novel Multi-Domain Information Seeking Dialogues Dataset
標題:介紹螳螂:一種新的多領域信息搜索對話數據集
作者: Gustavo Penha, Claudia Hauff
鏈接:https://arxiv.org/abs/1912.04639
-
Characterizing the dynamics of learning in repeated reference games
標題:在重復參照游戲中刻畫學習的動力
作者: Robert D. Hawkins, Noah D. Goodman
鏈接:https://arxiv.org/abs/1912.07199
-
I love your chain mail! Making knights smile in a fantasy game world: ?Open-domain goal-orientated dialogue agents
標題:我喜歡你的鎖甲!讓騎士在幻想游戲世界中微笑:開放領域目標導向的對話代理
作者:Shrimai Prabhumoye, ?Arthur Szlam
鏈接:https://arxiv.org/abs/2002.02878
-
WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection
標題:WAC:用于在線濫用檢測的維基百科對話語料庫
作者:Noé Cecillon (LIA), ?Georges Linares (LIA)
鏈接:https://arxiv.org/abs/2003.06190
-
MedDialog: A Large-scale Medical Dialogue Dataset
標題:MedDialog:一個大規模醫學對話數據集
作者: Shu Chen, ?Pengtao Xie
鏈接:https://arxiv.org/abs/2004.03329
-
KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation
標題:KdConv:一個面向多輪知識驅動會話的中文多域對話數據集
作者: Hao Zhou, Xiaoyan Zhu
鏈接:https://arxiv.org/abs/2004.04100
-
Molweni: A Challenge Multiparty Dialogues-based Machine Reading Comprehension Dataset with Discourse Structure
標題:Molweni:一個具有語篇結構的基于多方對話的機器閱讀理解數據集
作者: Jiaqi Li, Bing Qin
鏈接:https://arxiv.org/abs/2004.05080
-
A New Dataset for Natural Language Inference from Code-mixed Conversations
標題:一種新的基于代碼混合會話的自然語言推理數據集
作者: Simran Khanuja, Monojit Choudhury
備注:To appear in CALCS, LREC 2020
鏈接:https://arxiv.org/abs/2004.05051
-
Dialogue-Based Relation Extraction
標題:基于對話的關系抽取
作者:Dian Yu, ?Dong Yu
備注:To appear in ACL 2020
鏈接:https://arxiv.org/abs/2004.08056
-
Grounding Conversations with Improvised Dialogues
標題:以即興對話為基礎的對話
作者: Hyundong Cho, Jonathan May
備注:ACL2020; 9 pages + 1 page appendix
鏈接:https://arxiv.org/abs/2004.09544
-
?
總結
- 上一篇: 【数据库】数据库入门(二): 关系型数据
- 下一篇: 挂断电话的实现(即类似于电话号码黑名单)