當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

全球44家机构，55位大佬，历时两年，打造最强NLG评测基准！

發布時間：2024/7/5 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了全球44家机构，55位大佬，历时两年，打造最强NLG评测基准！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 小軼

（大家好，我是已經鴿了夕總仨月沒寫文章了的小軼（yì）！新的一年一定改過自新，多讀paper多寫稿，望廣大讀者敦促(? ??_??)?）

今天要和大家分享的是賣萌屋學術站上的本月最熱paper。何以最熱，看它頭上頂了多少大廠tag大概就知道了：

點開paper以后，小鐵我更是直呼好家伙.....

超長author list——55位作者眾星云集，來自共計全球44家不同機構。并且，在paper末尾更是花了近兩頁紙的篇幅詳細記錄每一位作者的貢獻。足見項目之龐大，工作量之大。

這個集結了這么多各地大佬的神仙項目，致力于打造一個最強自然語言生成（NLG）評測基準——GEM。同名ACL 2021 workshop正在征稿，workshop的目標亦在于進一步強化完善GEM的評測體系。不出意外的話，GEM未來很可能成為NLG community中主流認可的評測基準。

論文題目：
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

論文鏈接:
https://arxiv.org/pdf/2102.01672.pdf

項目主頁：
https://gem-benchmark.com/

Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞【0301】下載論文PDF~

NLG評測困境

NLG評測一直以來都存在諸多困難。我們可以從數據集和評測指標兩方面來總結一下。

首先是 數據集 。一方面是數據集的易用性。作者提倡每個數據集都配有一張Data Card，清晰地說明它的任務、語言、數據格式、潛在問題和局限性等等 [1]。另一方面是數據集的研究意義。隨著NLG技術的不斷發展，一些早期提出的數據集已經能夠被很好地解決了。相應地，繼續在這樣的數據集上進行評測就意義不大了，不能因為這個數據集citation高就堅持用它。而那些真正具有進一步研究意義的數據集應該被加以更多的重視。

除了數據集，還有就是 評測指標 的問題。大家其實都知道BLEU、ROUGE等傳統自動化指標的評測是不全面的。模型的更多特性，例如公平性、安全性、魯棒性等等，都不能夠通過它們準確度量。但大家還是用得義無反顧，因為測試成本低，也便于和prior works比較。當然，人工評測是一種解決辦法。但人工畢竟成本高昂。另一個比較大的問題就是人工評測存在難以復現、標準不統一的問題。

那么，究竟哪些數據集是當前NLG領域最具代表性研究意義的？又應該采用哪些評測指標呢？

GEM的提出就意在解決上述兩個問題。顯然，這兩個問題的答案是有時效性的。隨著NLG技術的發展、新的數據集和評測指標的不斷提出，問題的答案自然也會相應變化。所以，作者在論文中一再強調：GEM是一個將會不斷更新的“活”基準（living benchmark）。

GEM的作者團隊已經根據NLG領域當前的發展現狀，初步探討了GEM_1.0版本應該包含的數據集和評測指標。同時，更是為之舉辦了同名ACL workshop，邀請NLG community的同僚們對GEM進行測評，并提出完善建議。

GEM的數據集

為了確定GEM應該包含哪些數據集，作者團隊精挑細選，經歷了一個漫長的討論過程。首先由作者團隊中每個人提議若干數據集作為候選。然后，在團隊中進行問卷調查，并不斷討論，確立了一系列數據集挑選準則，例如：

所選數據集應覆蓋多個NLG代表性任務
所選數據集應覆蓋多語種
multi-reference者優先
high-resource和low-resource的數據集應同時兼具
.....

最后，團隊成員根據挑選準則為候選數據集打分。其中11個數據集脫穎而出，有幸得到了GEM_1.0官方蓋章。

▲GEM的11個數據集

為了進一步提高所選數據集的質量，作者團隊對其中多個數據集進行了清洗和加工，并為每一個數據集配上Data Card，說明它針對的任務、語言、數據格式和局限性等等。

GEM的評測指標

由于workshop還在征稿，GEM的測試集細節和評測指標并沒有完全披露。目前已公布的自動化評測指標如下圖所示。

▲GEM已經公布的評測指標

其中，在語義相似度方面，GEM推薦了兩個較新的指標——BERTScore[2]和BLEURT[3]，分別發表于ICLR'20和ACL'20，都是基于預訓練模型構建的。作者認為，GEM的存在能夠快速推廣新的、更有效的評測指標，解決研究者們總是停滯于使用早期指標的問題。

除此之外，GEM workshop舉辦后，將公布一些系統在測試集上的輸出和相應的人工評測結果。這些數據可以用于研究與人工評測結果一致性更高的新指標。

小結與感想

為解決NLG評測困境，55位大佬聯合打造NLG評測基準GEM，收錄了當今NLG領域最具代表性的11個數據集和多個評測指標。除了評測NLG系統，GEM亦可用于支持新的自動化評測指標研究。

能夠看到來自全球的各路大佬，為一份有意義的工作集結在一起，感覺很酷乁( ˙ ω˙乁)！

萌屋作者：小軼

剛剛本科畢業于北大計算機系的美少女學霸！目前在騰訊天衍實驗室做NLP研究實習生。原計劃是要赴美國就讀CMU的王牌碩士項目MCDS，不過因為疫情正處于gap year，于是就來和小夕愉快地玩耍啦~文風溫柔優雅，偶爾暴露呆萌屬性，文如其人哦！知乎ID：小軼。

作品推薦：

1.有錢可以多任性？OpenAI提出人肉模型訓練，文本摘要全面超越人類表現！

2.ACL20 Best Paper揭曉！NLP模型評價體系或將迎來重大轉折

3.Attention模型：我的注意力跟你們人類不一樣

4.谷歌重磅：可以優化自己的優化器！手動調參或將成為歷史！？

5.EMNLP'20最佳論文揭曉！八塊肌肉=能打電話？！

6.這篇頂會paper，講述了疫情期間憋瘋的你和我

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

[1] https://gem-benchmark.com/data_cards/MLSum

[2] https://arxiv.org/abs/1904.09675

[3] https://arxiv.org/pdf/2004.04696.pdf

總結

以上是生活随笔為你收集整理的全球44家机构，55位大佬，历时两年，打造最强NLG评测基准！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：非常适合初学者的机器学习的数学基础笔记.
下一篇：从点到线：逻辑回归到条件随机场