权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点
自然語言生成是人工智能的重要前沿技術(shù),該技術(shù)在落地時(shí)會(huì)面臨一個(gè)難題:如何保證模型生成的文本與輸入具有事實(shí)層面的一致性,即避免生成錯(cuò)誤、臆想的信息?為推動(dòng)相關(guān)研究,中國(guó)中文信息學(xué)會(huì)自然語言生成專委會(huì)與千言開源數(shù)據(jù)集項(xiàng)目(www.luge.ai)聯(lián)合舉辦“面向事實(shí)一致性的生成評(píng)測(cè)比賽”。比賽于8月3日開啟報(bào)名,并將在11月7日首屆中國(guó)自然語言生成大會(huì)(CCNLG-2021)召開評(píng)測(cè)研討會(huì)并舉行頒獎(jiǎng)儀式。
本屆比賽以事實(shí)一致性為核心,將提供三個(gè)對(duì)事實(shí)一致性有較高要求的典型生成任務(wù):文案生成[1]、摘要生成[2]和問題生成[3],結(jié)合文本流暢性和事實(shí)一致性兩項(xiàng)指標(biāo),綜合評(píng)估參賽系統(tǒng)的效果。
除了有挑戰(zhàn)性的賽題,百度將贊助賽事為獲獎(jiǎng)團(tuán)隊(duì)提供豐厚的獎(jiǎng)金:第一名20000人民幣、第二名10000人民幣、第三名5000人民幣。
報(bào)名及競(jìng)賽詳情鏈接:
https://aistudio.baidu.com/aistudio/competition/detail/105
1、賽題背景及事實(shí)一致性簡(jiǎn)介
隨著深度神經(jīng)網(wǎng)絡(luò)文本生成模型、預(yù)訓(xùn)練語言模型的迅速發(fā)展,自然語言生成的可讀性和流暢性不斷提升。然而,自動(dòng)生成的文本中經(jīng)常出現(xiàn)不符合輸入的錯(cuò)誤事實(shí)。這個(gè)問題被稱為“自然語言生成的事實(shí)一致性問題”,以自動(dòng)摘要任務(wù)為例,以下描述一個(gè)具體的樣例:
輸入: 研究機(jī)構(gòu)此前曾發(fā)布報(bào)告稱2013年長(zhǎng)期黃金牛市或?qū)⒔K結(jié),下調(diào)黃金3個(gè)月、6個(gè)月和12個(gè)月價(jià)格預(yù)估分別至1825美元、1805美元、1800美元。近日,大宗商品分析師Damien Courvalin的研究報(bào)告進(jìn)一步預(yù)期國(guó)際金價(jià)到2018年或跌至1200美元/盎。理由是除了實(shí)際利率之外,黃金與各貨幣之間的聯(lián)動(dòng)同樣影響著黃金價(jià)格,不過,三個(gè)月黃金價(jià)格預(yù)估仍然看漲。
參考摘要: 近漲遠(yuǎn)跌,金價(jià)2018年或跌至1200美元/盎
這是取自LCSTS數(shù)據(jù)集[2]的一個(gè)樣例,對(duì)輸入的文本,算法需要得出精簡(jiǎn)的摘要結(jié)果。
接下來,我們看兩個(gè)由自然語言生成算法得到的結(jié)果:
結(jié)果A(事實(shí)一致): 研究機(jī)構(gòu)預(yù)計(jì)國(guó)際金價(jià)近漲遠(yuǎn)跌
結(jié)果B(事實(shí)不一致): 分析師:金價(jià)2018年或跌至1800美元
可以看到,結(jié)果A正確,結(jié)果B粗看似乎也比較流暢,但事實(shí)和原文表達(dá)的內(nèi)容存在事實(shí)偏差(“1800美元”vs“1200美元”)。
目前常用于評(píng)估自然語言生成效果的BLEU或ROUGE等指標(biāo),其思路均為計(jì)算生成文本與參考答案的字面匹配度。然而對(duì)結(jié)果A和結(jié)果B計(jì)算與參考摘要的字面匹配度,反而錯(cuò)誤的結(jié)果B可以獲得更高的分?jǐn)?shù),針對(duì)這個(gè)問題,我們?cè)O(shè)計(jì)和發(fā)起了本比賽。
2、賽程安排
為確保比賽公平性,正式賽將分為3個(gè)階段開展:
階段1:開放測(cè)試集1,參賽隊(duì)伍可在測(cè)試集1上優(yōu)化模型效果,提交結(jié)果到千言平臺(tái)后,會(huì)在線給出結(jié)果并更新實(shí)時(shí)榜單1;
階段2-最終測(cè)試提交:開放測(cè)試集2,參賽隊(duì)伍計(jì)算測(cè)試集2上的結(jié)果并提交到千言平臺(tái);
階段3-人工評(píng)估:以階段2的自動(dòng)評(píng)測(cè)結(jié)果為準(zhǔn),排名前10的隊(duì)伍進(jìn)入人工評(píng)估階段,為避免自動(dòng)評(píng)估指標(biāo)本身的評(píng)估偏差,將以人工評(píng)估為依據(jù)確認(rèn)和公布最終排名。
3、參賽獎(jiǎng)勵(lì)
千言-面向事實(shí)一致性的生成評(píng)測(cè)比賽的最終獲獎(jiǎng)團(tuán)隊(duì)將獲得:
(1)豐厚獎(jiǎng)金:第一名20000人民幣、第二名10000人民幣、第三名5000人民幣。
(2)榮譽(yù)證書:獲獎(jiǎng)團(tuán)隊(duì)將由賽事主辦方頒發(fā)權(quán)威獲獎(jiǎng)證書。
同時(shí),參賽者也將獲得以下福利:
(1)學(xué)習(xí)交流機(jī)會(huì):在賽事群中與參賽者、組織者深入交流;
(2)前沿學(xué)習(xí)資料:獲取自然語言生成事實(shí)準(zhǔn)確性提升方法和評(píng)估指標(biāo)的前沿進(jìn)展學(xué)習(xí)材料。
(3)精美禮品&參賽證明:正式報(bào)名參賽并提交最終結(jié)果的隊(duì)伍每位成員將獲得千言數(shù)據(jù)集精美的定制周邊一份,并發(fā)放參賽證明。
4、比賽組織
指導(dǎo)單位:中國(guó)中文信息學(xué)會(huì)
主辦單位:中國(guó)中文信息學(xué)會(huì)自然語言生成專委會(huì)(籌)
承辦單位:清華大學(xué)、哈爾濱工業(yè)大學(xué)(深圳)、百度
評(píng)測(cè)委員會(huì):黃民烈(清華大學(xué)), 戶保田(哈爾濱工業(yè)大學(xué)(深圳))、肖欣延(百度)
5、交流群
掃碼添加微信,備注“生成“即可加入競(jìng)賽交流群。
點(diǎn)擊“閱讀原文“,即可了解競(jìng)賽詳情并報(bào)名!
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
?
[1].Zhihong Shao, Minlie Huang, Jiangtao Wen, Wenfei Xu, Xiaoyan Zhu. 2019. Long and Diverse Text Generation with Planning-based Hierarchical Variational Model. In Proceedings of EMNLP 2019.
[2].Baotian Hu, Qingcai Chen, Fangze Zhu. 2015. LCSTS: A Large Scale Chinese Short Text Summarization Dataset. In Proceedings of EMNLP 2015.
[3].Wei He, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu, Yizhong Wang, Hua Wu, Qiaoqiao She, Xuan Liu, Tian Wu, Haifeng Wang. 2019. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications. In Proceedings of ACL 2018 MRQA Workshop.
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为什么搜索与推荐场景用AUC评价模型好坏
- 下一篇: 他读书时挣了五十万,找工作时收获阿里腾讯