日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!

發布時間:2024/7/5 编程问答 52 豆豆
生活随笔 收集整理的這篇文章主要介紹了 全球44家机构,55位大佬,历时两年,打造最强NLG评测基准! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 小軼

(大家好,我是已經鴿了夕總仨月沒寫文章了的小軼(yì)!新的一年一定改過自新,多讀paper多寫稿,望廣大讀者敦促(? ??_??)?)

今天要和大家分享的是賣萌屋學術站上的本月最熱paper。何以最熱,看它頭上頂了多少大廠tag大概就知道了:

點開paper以后,小鐵我更是直呼好家伙.....

超長author list——55位作者眾星云集,來自共計全球44家不同機構。并且,在paper末尾更是花了近兩頁紙的篇幅詳細記錄每一位作者的貢獻。足見項目之龐大,工作量之大。

這個集結了這么多各地大佬的神仙項目,致力于打造一個最強自然語言生成(NLG)評測基準——GEM。同名ACL 2021 workshop正在征稿,workshop的目標亦在于進一步強化完善GEM的評測體系。不出意外的話,GEM未來很可能成為NLG community中主流認可的評測基準。

論文題目
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics

論文鏈接:
https://arxiv.org/pdf/2102.01672.pdf

項目主頁
https://gem-benchmark.com/

Arxiv訪問慢的小伙伴也可以在 【夕小瑤的賣萌屋】訂閱號后臺回復關鍵詞 【0301】 下載論文PDF~

NLG評測困境

NLG評測一直以來都存在諸多困難。我們可以從數據集評測指標兩方面來總結一下。

首先是 數據集 。一方面是數據集的易用性。作者提倡每個數據集都配有一張Data Card,清晰地說明它的任務、語言、數據格式、潛在問題和局限性等等 [1]。另一方面是數據集的研究意義。隨著NLG技術的不斷發展,一些早期提出的數據集已經能夠被很好地解決了。相應地,繼續在這樣的數據集上進行評測就意義不大了,不能因為這個數據集citation高就堅持用它。而那些真正具有進一步研究意義的數據集應該被加以更多的重視。

除了數據集,還有就是 評測指標 的問題。大家其實都知道BLEU、ROUGE等傳統自動化指標的評測是不全面的。模型的更多特性,例如公平性、安全性、魯棒性等等,都不能夠通過它們準確度量。但大家還是用得義無反顧,因為測試成本低,也便于和prior works比較。當然,人工評測是一種解決辦法。但人工畢竟成本高昂。另一個比較大的問題就是人工評測存在難以復現、標準不統一的問題。

那么,究竟哪些數據集是當前NLG領域最具代表性研究意義的?又應該采用哪些評測指標呢?

GEM的提出就意在解決上述兩個問題。顯然,這兩個問題的答案是有時效性的。隨著NLG技術的發展、新的數據集和評測指標的不斷提出,問題的答案自然也會相應變化。所以,作者在論文中一再強調:GEM是一個將會不斷更新的“活”基準(living benchmark)

GEM的作者團隊已經根據NLG領域當前的發展現狀,初步探討了GEM_1.0版本應該包含的數據集和評測指標。同時,更是為之舉辦了同名ACL workshop,邀請NLG community的同僚們對GEM進行測評,并提出完善建議。

GEM的數據集

為了確定GEM應該包含哪些數據集,作者團隊精挑細選,經歷了一個漫長的討論過程。首先由作者團隊中每個人提議若干數據集作為候選。然后,在團隊中進行問卷調查,并不斷討論,確立了一系列數據集挑選準則,例如:

  • 所選數據集應覆蓋多個NLG代表性任務

  • 所選數據集應覆蓋多語種

  • multi-reference者優先

  • high-resource和low-resource的數據集應同時兼具

  • .....

最后,團隊成員根據挑選準則為候選數據集打分。其中11個數據集脫穎而出,有幸得到了GEM_1.0官方蓋章。

▲GEM的11個數據集

為了進一步提高所選數據集的質量,作者團隊對其中多個數據集進行了清洗和加工,并為每一個數據集配上Data Card,說明它針對的任務、語言、數據格式和局限性等等。

GEM的評測指標

由于workshop還在征稿,GEM的測試集細節和評測指標并沒有完全披露。目前已公布的自動化評測指標如下圖所示。

▲GEM已經公布的評測指標

其中,在語義相似度方面,GEM推薦了兩個較新的指標——BERTScore[2]和BLEURT[3],分別發表于ICLR'20和ACL'20,都是基于預訓練模型構建的。作者認為,GEM的存在能夠快速推廣新的、更有效的評測指標,解決研究者們總是停滯于使用早期指標的問題。

除此之外,GEM workshop舉辦后,將公布一些系統在測試集上的輸出和相應的人工評測結果。這些數據可以用于研究與人工評測結果一致性更高的新指標

小結與感想

為解決NLG評測困境,55位大佬聯合打造NLG評測基準GEM,收錄了當今NLG領域最具代表性的11個數據集和多個評測指標。除了評測NLG系統,GEM亦可用于支持新的自動化評測指標研究。

能夠看到來自全球的各路大佬,為一份有意義的工作集結在一起,感覺很酷乁( ˙ ω˙乁)!

萌屋作者:小軼

剛剛本科畢業于北大計算機系的美少女學霸!目前在騰訊天衍實驗室做NLP研究實習生。原計劃是要赴美國就讀CMU的王牌碩士項目MCDS,不過因為疫情正處于gap year,于是就來和小夕愉快地玩耍啦~文風溫柔優雅,偶爾暴露呆萌屬性,文如其人哦!知乎ID:小軼。

作品推薦:

1.有錢可以多任性?OpenAI提出人肉模型訓練,文本摘要全面超越人類表現!

2.ACL20 Best Paper揭曉!NLP模型評價體系或將迎來重大轉折

3.Attention模型:我的注意力跟你們人類不一樣

4.谷歌重磅:可以優化自己的優化器!手動調參或將成為歷史!?

5.EMNLP'20最佳論文揭曉!八塊肌肉=能打電話?!

6.這篇頂會paper,講述了疫情期間憋瘋的你和我

后臺回復關鍵詞【入群

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會

獲取ACL、CIKM等各大頂會論文集!

?

[1] https://gem-benchmark.com/data_cards/MLSum

[2] https://arxiv.org/abs/1904.09675

[3] https://arxiv.org/pdf/2004.04696.pdf

總結

以上是生活随笔為你收集整理的全球44家机构,55位大佬,历时两年,打造最强NLG评测基准!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。