权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点
自然語言生成是人工智能的重要前沿技術,該技術在落地時會面臨一個難題:如何保證模型生成的文本與輸入具有事實層面的一致性,即避免生成錯誤、臆想的信息?為推動相關研究,中國中文信息學會自然語言生成專委會與千言開源數據集項目(www.luge.ai)聯合舉辦“面向事實一致性的生成評測比賽”。比賽于8月3日開啟報名,并將在11月7日首屆中國自然語言生成大會(CCNLG-2021)召開評測研討會并舉行頒獎儀式。
本屆比賽以事實一致性為核心,將提供三個對事實一致性有較高要求的典型生成任務:文案生成[1]、摘要生成[2]和問題生成[3],結合文本流暢性和事實一致性兩項指標,綜合評估參賽系統的效果。
除了有挑戰性的賽題,百度將贊助賽事為獲獎團隊提供豐厚的獎金:第一名20000人民幣、第二名10000人民幣、第三名5000人民幣。
報名及競賽詳情鏈接:
https://aistudio.baidu.com/aistudio/competition/detail/105
1、賽題背景及事實一致性簡介
隨著深度神經網絡文本生成模型、預訓練語言模型的迅速發展,自然語言生成的可讀性和流暢性不斷提升。然而,自動生成的文本中經常出現不符合輸入的錯誤事實。這個問題被稱為“自然語言生成的事實一致性問題”,以自動摘要任務為例,以下描述一個具體的樣例:
輸入: 研究機構此前曾發布報告稱2013年長期黃金牛市或將終結,下調黃金3個月、6個月和12個月價格預估分別至1825美元、1805美元、1800美元。近日,大宗商品分析師Damien Courvalin的研究報告進一步預期國際金價到2018年或跌至1200美元/盎。理由是除了實際利率之外,黃金與各貨幣之間的聯動同樣影響著黃金價格,不過,三個月黃金價格預估仍然看漲。
參考摘要: 近漲遠跌,金價2018年或跌至1200美元/盎
這是取自LCSTS數據集[2]的一個樣例,對輸入的文本,算法需要得出精簡的摘要結果。
接下來,我們看兩個由自然語言生成算法得到的結果:
結果A(事實一致): 研究機構預計國際金價近漲遠跌
結果B(事實不一致): 分析師:金價2018年或跌至1800美元
可以看到,結果A正確,結果B粗看似乎也比較流暢,但事實和原文表達的內容存在事實偏差(“1800美元”vs“1200美元”)。
目前常用于評估自然語言生成效果的BLEU或ROUGE等指標,其思路均為計算生成文本與參考答案的字面匹配度。然而對結果A和結果B計算與參考摘要的字面匹配度,反而錯誤的結果B可以獲得更高的分數,針對這個問題,我們設計和發起了本比賽。
2、賽程安排
為確保比賽公平性,正式賽將分為3個階段開展:
階段1:開放測試集1,參賽隊伍可在測試集1上優化模型效果,提交結果到千言平臺后,會在線給出結果并更新實時榜單1;
階段2-最終測試提交:開放測試集2,參賽隊伍計算測試集2上的結果并提交到千言平臺;
階段3-人工評估:以階段2的自動評測結果為準,排名前10的隊伍進入人工評估階段,為避免自動評估指標本身的評估偏差,將以人工評估為依據確認和公布最終排名。
3、參賽獎勵
千言-面向事實一致性的生成評測比賽的最終獲獎團隊將獲得:
(1)豐厚獎金:第一名20000人民幣、第二名10000人民幣、第三名5000人民幣。
(2)榮譽證書:獲獎團隊將由賽事主辦方頒發權威獲獎證書。
同時,參賽者也將獲得以下福利:
(1)學習交流機會:在賽事群中與參賽者、組織者深入交流;
(2)前沿學習資料:獲取自然語言生成事實準確性提升方法和評估指標的前沿進展學習材料。
(3)精美禮品&參賽證明:正式報名參賽并提交最終結果的隊伍每位成員將獲得千言數據集精美的定制周邊一份,并發放參賽證明。
4、比賽組織
指導單位:中國中文信息學會
主辦單位:中國中文信息學會自然語言生成專委會(籌)
承辦單位:清華大學、哈爾濱工業大學(深圳)、百度
評測委員會:黃民烈(清華大學), 戶保田(哈爾濱工業大學(深圳))、肖欣延(百度)
5、交流群
掃碼添加微信,備注“生成“即可加入競賽交流群。
點擊“閱讀原文“,即可了解競賽詳情并報名!
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1].Zhihong Shao, Minlie Huang, Jiangtao Wen, Wenfei Xu, Xiaoyan Zhu. 2019. Long and Diverse Text Generation with Planning-based Hierarchical Variational Model. In Proceedings of EMNLP 2019.
[2].Baotian Hu, Qingcai Chen, Fangze Zhu. 2015. LCSTS: A Large Scale Chinese Short Text Summarization Dataset. In Proceedings of EMNLP 2015.
[3].Wei He, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu, Yizhong Wang, Hua Wu, Qiaoqiao She, Xuan Liu, Tian Wu, Haifeng Wang. 2019. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications. In Proceedings of ACL 2018 MRQA Workshop.
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么搜索与推荐场景用AUC评价模型好坏
- 下一篇: 他读书时挣了五十万,找工作时收获阿里腾讯