當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

权威赛事来了！千言-文本生成评测启动，聚焦NLG技术痛点

發(fā)布時(shí)間：2024/7/5 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了权威赛事来了！千言-文本生成评测启动，聚焦NLG技术痛点小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

自然語言生成是人工智能的重要前沿技術(shù)，該技術(shù)在落地時(shí)會(huì)面臨一個(gè)難題：如何保證模型生成的文本與輸入具有事實(shí)層面的一致性，即避免生成錯(cuò)誤、臆想的信息？為推動(dòng)相關(guān)研究，中國(guó)中文信息學(xué)會(huì)自然語言生成專委會(huì)與千言開源數(shù)據(jù)集項(xiàng)目(www.luge.ai)聯(lián)合舉辦“面向事實(shí)一致性的生成評(píng)測(cè)比賽”。比賽于8月3日開啟報(bào)名，并將在11月7日首屆中國(guó)自然語言生成大會(huì)（CCNLG-2021）召開評(píng)測(cè)研討會(huì)并舉行頒獎(jiǎng)儀式。

本屆比賽以事實(shí)一致性為核心，將提供三個(gè)對(duì)事實(shí)一致性有較高要求的典型生成任務(wù)：文案生成[1]、摘要生成[2]和問題生成[3]，結(jié)合文本流暢性和事實(shí)一致性兩項(xiàng)指標(biāo)，綜合評(píng)估參賽系統(tǒng)的效果。

除了有挑戰(zhàn)性的賽題，百度將贊助賽事為獲獎(jiǎng)團(tuán)隊(duì)提供豐厚的獎(jiǎng)金：第一名20000人民幣、第二名10000人民幣、第三名5000人民幣。

報(bào)名及競(jìng)賽詳情鏈接：
https://aistudio.baidu.com/aistudio/competition/detail/105

1、賽題背景及事實(shí)一致性簡(jiǎn)介

隨著深度神經(jīng)網(wǎng)絡(luò)文本生成模型、預(yù)訓(xùn)練語言模型的迅速發(fā)展，自然語言生成的可讀性和流暢性不斷提升。然而，自動(dòng)生成的文本中經(jīng)常出現(xiàn)不符合輸入的錯(cuò)誤事實(shí)。這個(gè)問題被稱為“自然語言生成的事實(shí)一致性問題”，以自動(dòng)摘要任務(wù)為例，以下描述一個(gè)具體的樣例：

輸入： 研究機(jī)構(gòu)此前曾發(fā)布報(bào)告稱2013年長(zhǎng)期黃金牛市或?qū)⒔K結(jié)，下調(diào)黃金3個(gè)月、6個(gè)月和12個(gè)月價(jià)格預(yù)估分別至1825美元、1805美元、1800美元。近日，大宗商品分析師Damien Courvalin的研究報(bào)告進(jìn)一步預(yù)期國(guó)際金價(jià)到2018年或跌至1200美元/盎。理由是除了實(shí)際利率之外,黃金與各貨幣之間的聯(lián)動(dòng)同樣影響著黃金價(jià)格，不過，三個(gè)月黃金價(jià)格預(yù)估仍然看漲。

參考摘要： 近漲遠(yuǎn)跌，金價(jià)2018年或跌至1200美元/盎

這是取自LCSTS數(shù)據(jù)集[2]的一個(gè)樣例，對(duì)輸入的文本，算法需要得出精簡(jiǎn)的摘要結(jié)果。

接下來，我們看兩個(gè)由自然語言生成算法得到的結(jié)果：

結(jié)果A（事實(shí)一致）： 研究機(jī)構(gòu)預(yù)計(jì)國(guó)際金價(jià)近漲遠(yuǎn)跌
結(jié)果B（事實(shí)不一致）： 分析師：金價(jià)2018年或跌至1800美元

可以看到，結(jié)果A正確，結(jié)果B粗看似乎也比較流暢，但事實(shí)和原文表達(dá)的內(nèi)容存在事實(shí)偏差（“1800美元”vs“1200美元”）。

目前常用于評(píng)估自然語言生成效果的BLEU或ROUGE等指標(biāo)，其思路均為計(jì)算生成文本與參考答案的字面匹配度。然而對(duì)結(jié)果A和結(jié)果B計(jì)算與參考摘要的字面匹配度，反而錯(cuò)誤的結(jié)果B可以獲得更高的分?jǐn)?shù)，針對(duì)這個(gè)問題，我們?cè)O(shè)計(jì)和發(fā)起了本比賽。

2、賽程安排

為確保比賽公平性，正式賽將分為3個(gè)階段開展：

階段1：開放測(cè)試集1，參賽隊(duì)伍可在測(cè)試集1上優(yōu)化模型效果，提交結(jié)果到千言平臺(tái)后，會(huì)在線給出結(jié)果并更新實(shí)時(shí)榜單1；
階段2-最終測(cè)試提交：開放測(cè)試集2，參賽隊(duì)伍計(jì)算測(cè)試集2上的結(jié)果并提交到千言平臺(tái)；
階段3-人工評(píng)估：以階段2的自動(dòng)評(píng)測(cè)結(jié)果為準(zhǔn)，排名前10的隊(duì)伍進(jìn)入人工評(píng)估階段，為避免自動(dòng)評(píng)估指標(biāo)本身的評(píng)估偏差，將以人工評(píng)估為依據(jù)確認(rèn)和公布最終排名。

3、參賽獎(jiǎng)勵(lì)

千言-面向事實(shí)一致性的生成評(píng)測(cè)比賽的最終獲獎(jiǎng)團(tuán)隊(duì)將獲得：

（1）豐厚獎(jiǎng)金：第一名20000人民幣、第二名10000人民幣、第三名5000人民幣。

（2）榮譽(yù)證書：獲獎(jiǎng)團(tuán)隊(duì)將由賽事主辦方頒發(fā)權(quán)威獲獎(jiǎng)證書。

同時(shí)，參賽者也將獲得以下福利：

（1）學(xué)習(xí)交流機(jī)會(huì)：在賽事群中與參賽者、組織者深入交流；

（2）前沿學(xué)習(xí)資料：獲取自然語言生成事實(shí)準(zhǔn)確性提升方法和評(píng)估指標(biāo)的前沿進(jìn)展學(xué)習(xí)材料。

（3）精美禮品&參賽證明：正式報(bào)名參賽并提交最終結(jié)果的隊(duì)伍每位成員將獲得千言數(shù)據(jù)集精美的定制周邊一份，并發(fā)放參賽證明。

4、比賽組織

指導(dǎo)單位：中國(guó)中文信息學(xué)會(huì)

主辦單位：中國(guó)中文信息學(xué)會(huì)自然語言生成專委會(huì)（籌）

承辦單位：清華大學(xué)、哈爾濱工業(yè)大學(xué)(深圳)、百度

評(píng)測(cè)委員會(huì)：黃民烈(清華大學(xué)), 戶保田(哈爾濱工業(yè)大學(xué)(深圳))、肖欣延(百度)

5、交流群

掃碼添加微信，備注“生成“即可加入競(jìng)賽交流群。

點(diǎn)擊“閱讀原文“，即可了解競(jìng)賽詳情并報(bào)名！

后臺(tái)回復(fù)關(guān)鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】

獲取ACL、CIKM等各大頂會(huì)論文集！

[1].Zhihong Shao, Minlie Huang, Jiangtao Wen, Wenfei Xu, Xiaoyan Zhu. 2019. Long and Diverse Text Generation with Planning-based Hierarchical Variational Model. In Proceedings of EMNLP 2019.

[2].Baotian Hu, Qingcai Chen, Fangze Zhu. 2015. LCSTS: A Large Scale Chinese Short Text Summarization Dataset. In Proceedings of EMNLP 2015.

[3].Wei He, Kai Liu, Jing Liu, Yajuan Lyu, Shiqi Zhao, Xinyan Xiao, Yuan Liu, Yizhong Wang, Hua Wu, Qiaoqiao She, Xuan Liu, Tian Wu, Haifeng Wang. 2019. DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications. In Proceedings of ACL 2018 MRQA Workshop.

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的权威赛事来了！千言-文本生成评测启动，聚焦NLG技术痛点的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：为什么搜索与推荐场景用AUC评价模型好坏
下一篇：他读书时挣了五十万，找工作时收获阿里腾讯