全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!
文 | 小軼
(大家好,我是已經鴿了夕總仨月沒寫文章了的小軼(yì)!新的一年一定改過自新,多讀paper多寫稿,望廣大讀者敦促(? ??_??)?)
今天要和大家分享的是賣萌屋學術站上的本月最熱paper。何以最熱,看它頭上頂了多少大廠tag大概就知道了:
點開paper以后,小鐵我更是直呼好家伙.....
超長author list——55位作者眾星云集,來自共計全球44家不同機構。并且,在paper末尾更是花了近兩頁紙的篇幅詳細記錄每一位作者的貢獻。足見項目之龐大,工作量之大。
這個集結了這么多各地大佬的神仙項目,致力于打造一個最強自然語言生成(NLG)評測基準——GEM。同名ACL 2021 workshop正在征稿,workshop的目標亦在于進一步強化完善GEM的評測體系。不出意外的話,GEM未來很可能成為NLG community中主流認可的評測基準。
論文題目:
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics
論文鏈接:
https://arxiv.org/pdf/2102.01672.pdf
項目主頁:
https://gem-benchmark.com/
Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0301】 下載論文PDF~
NLG評測困境
NLG評測一直以來都存在諸多困難。我們可以從數據集和評測指標兩方面來總結一下。
首先是 數據集 。一方面是數據集的易用性。作者提倡每個數據集都配有一張Data Card,清晰地說明它的任務、語言、數據格式、潛在問題和局限性等等 [1]。另一方面是數據集的研究意義。隨著NLG技術的不斷發展,一些早期提出的數據集已經能夠被很好地解決了。相應地,繼續在這樣的數據集上進行評測就意義不大了,不能因為這個數據集citation高就堅持用它。而那些真正具有進一步研究意義的數據集應該被加以更多的重視。
除了數據集,還有就是 評測指標 的問題。大家其實都知道BLEU、ROUGE等傳統自動化指標的評測是不全面的。模型的更多特性,例如公平性、安全性、魯棒性等等,都不能夠通過它們準確度量。但大家還是用得義無反顧,因為測試成本低,也便于和prior works比較。當然,人工評測是一種解決辦法。但人工畢竟成本高昂。另一個比較大的問題就是人工評測存在難以復現、標準不統一的問題。
那么,究竟哪些數據集是當前NLG領域最具代表性研究意義的?又應該采用哪些評測指標呢?
GEM的提出就意在解決上述兩個問題。顯然,這兩個問題的答案是有時效性的。隨著NLG技術的發展、新的數據集和評測指標的不斷提出,問題的答案自然也會相應變化。所以,作者在論文中一再強調:GEM是一個將會不斷更新的“活”基準(living benchmark)。
GEM的作者團隊已經根據NLG領域當前的發展現狀,初步探討了GEM_1.0版本應該包含的數據集和評測指標。同時,更是為之舉辦了同名ACL workshop,邀請NLG community的同僚們對GEM進行測評,并提出完善建議。
GEM的數據集
為了確定GEM應該包含哪些數據集,作者團隊精挑細選,經歷了一個漫長的討論過程。首先由作者團隊中每個人提議若干數據集作為候選。然后,在團隊中進行問卷調查,并不斷討論,確立了一系列數據集挑選準則,例如:
所選數據集應覆蓋多個NLG代表性任務
所選數據集應覆蓋多語種
multi-reference者優先
high-resource和low-resource的數據集應同時兼具
.....
最后,團隊成員根據挑選準則為候選數據集打分。其中11個數據集脫穎而出,有幸得到了GEM_1.0官方蓋章。
▲GEM的11個數據集為了進一步提高所選數據集的質量,作者團隊對其中多個數據集進行了清洗和加工,并為每一個數據集配上Data Card,說明它針對的任務、語言、數據格式和局限性等等。
GEM的評測指標
由于workshop還在征稿,GEM的測試集細節和評測指標并沒有完全披露。目前已公布的自動化評測指標如下圖所示。
▲GEM已經公布的評測指標其中,在語義相似度方面,GEM推薦了兩個較新的指標——BERTScore[2]和BLEURT[3],分別發表于ICLR'20和ACL'20,都是基于預訓練模型構建的。作者認為,GEM的存在能夠快速推廣新的、更有效的評測指標,解決研究者們總是停滯于使用早期指標的問題。
除此之外,GEM workshop舉辦后,將公布一些系統在測試集上的輸出和相應的人工評測結果。這些數據可以用于研究與人工評測結果一致性更高的新指標。
小結與感想
為解決NLG評測困境,55位大佬聯合打造NLG評測基準GEM,收錄了當今NLG領域最具代表性的11個數據集和多個評測指標。除了評測NLG系統,GEM亦可用于支持新的自動化評測指標研究。
能夠看到來自全球的各路大佬,為一份有意義的工作集結在一起,感覺很酷乁( ˙ ω˙乁)!
萌屋作者:小軼
剛剛本科畢業于北大計算機系的美少女學霸!目前在騰訊天衍實驗室做NLP研究實習生。原計劃是要赴美國就讀CMU的王牌碩士項目MCDS,不過因為疫情正處于gap year,于是就來和小夕愉快地玩耍啦~文風溫柔優雅,偶爾暴露呆萌屬性,文如其人哦!知乎ID:小軼。
作品推薦:
1.有錢可以多任性?OpenAI提出人肉模型訓練,文本摘要全面超越人類表現!
2.ACL20 Best Paper揭曉!NLP模型評價體系或將迎來重大轉折
3.Attention模型:我的注意力跟你們人類不一樣
4.谷歌重磅:可以優化自己的優化器!手動調參或將成為歷史!?
5.EMNLP'20最佳論文揭曉!八塊肌肉=能打電話?!
6.這篇頂會paper,講述了疫情期間憋瘋的你和我
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1] https://gem-benchmark.com/data_cards/MLSum
[2] https://arxiv.org/abs/1904.09675
[3] https://arxiv.org/pdf/2004.04696.pdf
總結
以上是生活随笔為你收集整理的全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 非常适合初学者的机器学习的数学基础笔记.
- 下一篇: 从点到线:逻辑回归到条件随机场