日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ChineseGLUE(CLUE):针对中文自然语言理解任务的基准平台

發(fā)布時間:2024/10/8 编程问答 31 豆豆
生活随笔 收集整理的這篇文章主要介紹了 ChineseGLUE(CLUE):针对中文自然语言理解任务的基准平台 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

導語

2018 年,來自紐約大學、華盛頓大學、DeepMind 機構的研究者創(chuàng)建了一個多任務自然語言理解基準和分析平臺——GLUE(General Language Understanding Evaluation)。GLUE 包含九個英文數(shù)據(jù)集,目前已經成為衡量模型在語言理解方面最為重要的一個評價體系之一。

然而對于中文 NLP 來說,目前缺少相對應的成熟的平臺。針對這個問題,中文 NLP 熱心人士發(fā)起了 ChineseGLUE(簡稱為 CLUE)項目。開展 CLUE 項目,一方面希望通過對中文 NLP 資源精心的整合為同學們的工作與研究提升效率,另一方面希望通過建立 leaderboard 榜單機制,為大家提供一個高質量的衡量模型效果的平臺,促進模型在中文語言理解能力上的提升。

?

中文GLUE

相對于英文,中文 NLP 的資源比較匱乏并缺少有價值的整合。相信很多同學在做中文 NLP 相關工作的時候,都遇到過下面這些問題:

?

  • 找不到官方的數(shù)據(jù)集下載鏈接;論文中的資源鏈接過期

  • 數(shù)據(jù)集有好幾個版本,大家報的結果也五花八門,不知道信哪一個

  • 原始數(shù)據(jù)集需要繁瑣的預處理

  • 復現(xiàn)實驗困難,預處理和模型的細節(jié)可能對最終的結果帶來非常顯著的影響

?

上面這些問題會花掉 NLP 同學很多的時間,嚴重影響工作效率,對初學者來說更是如此。我們寶貴的時間就在這些瑣碎的令人頭大的事情中流逝過去。

?

為了解決上述問題,一群熱心的同學發(fā)起了 ChineseGLUE(簡稱為 CLUE),它的 Github 地址是:

https://github.com/chineseGLUE/chineseGLUE

https://github.com/CLUEbenchmark/CLUE

注意到目前有兩個地址,后續(xù)會做出整合。

ChineseGLUE (CLUE) 如它的名字所示,是中文版的GLUE?[1]。ChineseGLUE (CLUE) 為大家:1)收集處理了一系列性質各異的中文數(shù)據(jù)集(不同領域、不同規(guī)模、不同難度);2)構建了在線提交評測平臺。這個平臺能幫助我們橫向比較不同的中文 NLP 模型,為大家選擇模型提供依據(jù);3)正在整理基準模型,幫助大家輕易地復現(xiàn)經典模型在一系列數(shù)據(jù)集上的結果。

?

▲?ChineseGLUE(CLUE)的github截圖

?

希望通過這些工作,讓 NLP 同學能把更多的時間放在模型的學習與改進上,而不是浪費在尋找數(shù)據(jù)集等瑣碎的事情之上。除此之外,我們希望 ChineseGLUE (CLUE) 能夠以 leaderboard 榜單的形式促進更高質量的中文模型的產生以及針對中文 NLP 的優(yōu)化。希望 ChineseGLUE 也能像 GLUE 見證 BERT [2],SpanBERT?[3],ALBERT?[4]?等重要模型出現(xiàn)一樣,見證更好的中文 NLP 模型的出現(xiàn)。

?

ChineseGLUE Leaderboard

目前,ChineseGLUE 的 leaderboard 已經上線,地址為http://106.13.187.75:8003/leaderBoard。已經相繼有隊伍在上面驗證不同模型的效果,不斷提升榜單上的表現(xiàn)。下圖展示了目前榜單的情況。通過榜單我們可以得到不少有價值的結論。

?

▲?根據(jù)綜合成績進行排序

?

▲?根據(jù)LCQMC數(shù)據(jù)集成績進行排序

首先可以看到,目前榜單上已經包括了豐富的 NLP 模型,包括 BERT?[2]、 BERT-WWM?[5]、RoBERTa?[6]、ALBERT?[4]、ERNIE?[7, 8]?等一系列模型,并且吸引了多個機構在上面提交自己的成績。通過榜單我們可以看到不同模型在不同數(shù)據(jù)集上的成績以及綜合成績(榜單支持針對綜合成績以及不同數(shù)據(jù)集的成績進行排序)。這對于我們選擇模型是非常重要的參考。

另外,我們可以看到目前榜單上表現(xiàn)最好的模型是混合語料 BERT 模型?[9, 10],是由騰訊 & 人大提供的。這個預訓練模型在 BERT-WWM [5]?上疊加預訓練,使用了百科類、新聞類、圖書類、社交類語料的混合(語料可以從 https://github.com/brightmart/nlp_chinese_corpus?獲取)。

這個預訓練模型相對于 Google BERT 已經取得了一定的進步:分別在 TNEWS、LCQMC、XNLI、INEWS 數(shù)據(jù)集上提升了 2.0/0.6/2.7/3.9 個點的準確率。除了 LCQMC 之外,模型在另外幾個數(shù)據(jù)集上的提升還是很顯著的。當然,這個提升相對于英文上的提升還是小了很多 (RoBERTa [7]、ALBERT?[4]、Google T5?[11]?在 BERT 的基礎上提高了接近 10 個點)。我們也與提交榜單的隊伍進行了溝通。

目前 ChineseGLUE (CLUE) 榜單上的結果其實還是比較低的,仍然有巨大的提升空間。目前在預處理、預訓練、微調等方面仍有大量的技術可以去嘗試,從而進一步提升效果。比如在預處理階段可以使用數(shù)據(jù)增強;在預訓練階段可以使用多種預訓練模型技術的組合;在微調階段可以使用半監(jiān)督的方式微調或者使用多任務微調;最后還可以進行模型的集成。

此外,在計算量和語料方面,雖然榜單上的很多模型都超過了去年 10 月份 Google 推出的中文 BERT-base 模型,但是目前中文模型的計算量和語料大小遠遠達不到目前英文 SOTA 模型的水準。因此我們非常相信,現(xiàn)在的結果遠遠沒有到達天花板,仍有巨大的進步空間。

?

PaddleHub RoBERTa-wwm-ext-large (AutoFinetune) 模型在 RoBERTa-wwm-ext-large 的基礎上,采用了 Discriminative Fine-tuning 分層學習率策略,同時,模型采用 PaddleHub AutoDL Finetuner 功能進行超參優(yōu)化,對學習率,分層策略進行自動化搜索,進一步提升了模型性能,模型在 XNLI 數(shù)據(jù)集上的表現(xiàn)達到了 SOTA 的成績。

此外,我們也鼓勵使用小模型去在榜單上進行提交。后續(xù)我們會考慮把參數(shù)量、FLOPs 等指標加上,把模型分成不同量級,去比較模型之間的效果。在目前的榜單中,有一個極小的模型 ALBERT_tiny。ALBERT [4]?通過編碼層參數(shù)共享和詞向量層分解這兩項技術減少了模型的參數(shù)量,ALBERT_tiny 只有 4M 大小,約是 BERT-base 模型大小的百分之一,但是仍然在一些數(shù)據(jù)集上取得不錯的成績。

在很多情況下,我們需要對模型的效率和效果進行權衡。在這種情況下,ChineseGLUE 榜單可以給我們提供很好的參考。我們非常期待通過技術的進步,讓一個比 BERT 小很多的模型,能在榜單上取得和 BERT 相似甚至更好的成績。

?

目前,榜單上的數(shù)據(jù)集以及提交接口是完全對外開放的,大家可以隨時用自己的模型去上面刷榜,驗證自己工作的效果。希望后面能看到大家在榜單上激烈的競爭,從而促進中文 NLP 領域的發(fā)展。

此外有一點需要注意的是,目前榜單上的測試集是對外開放的(后續(xù)我們會維護 privately-held 測試集)。因此建議大家在榜單上拿到 SOTA 效果的同時,不要忘記分享自己模型的改進以及各種細節(jié)。這樣能讓其他人也能受益于您的工作成果,從而更好的促進中文 NLP 領域的發(fā)展。目前榜單只包括四個數(shù)據(jù)集,我們會盡快加入更多的數(shù)據(jù)集。

?

未來規(guī)劃

1. 我們計劃在 12 月 5 號前后發(fā)布新版的測評基準,包括 12 大任務、基線模型及代碼、toolkit(工具包)、測評系統(tǒng);

2. 繼續(xù)向大家征集數(shù)據(jù)集,并(依據(jù)數(shù)據(jù)集領域、規(guī)模、難度等因素)從中選出合適的數(shù)據(jù)集構成 ChineseGLUE (CLUE);

3. 逐步構建 privately-held 測試集,使得 ChineseGLUE (CLUE) 的榜單更加的客觀可靠;

4. 根據(jù)模型參數(shù)數(shù)量,FLOPs,語料大小等指標,對模型進行分級。這種方式能夠引導我們在提升模型效果的同時也考慮到效率,而不是一味的追求大語料和大計算量。

?

結語

得益于熱心中文 NLP 人士的努力和關注,ChineseGLUE (CLUE) 慢慢成長起來,在 Github 上突破了 700 星,并收到了很多留言與反饋。我們深知 ChineseGLUE 是一個長期的、復雜且瑣碎的工作。為此我們制定了詳細的發(fā)展規(guī)劃。在未來的工作中,我們會繼續(xù)努力,嚴格把關項目質量,為中文 NLP 模型提供一套可靠的評價指標,以及一個易于使用,良性競爭的平臺。希望 ChineseGLUE (CLUE) 的工作能為中文 NLP 領域的發(fā)展做出一些貢獻。

參考文獻

[1] Wang A, Singh A, Michael J, et al. Glue: A multi-task benchmark andanalysis platform for natural language understanding[J]. arXiv preprintarXiv:1804.07461, 2018.

[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deepbidirectional transformers for language understanding[J]. arXiv preprintarXiv:1810.04805, 2018.

[3] Joshi M, Chen D, Liu Y, et al. Spanbert: Improving pre-training byrepresenting and predicting spans[J]. arXiv preprint arXiv:1907.10529, 2019.

[4] Lan Z, Chen M, Goodman S, et al. Albert: A lite bert forself-supervised learning of language representations[J]. arXiv preprintarXiv:1909.11942, 2019.

[5] Cui Y, Che W, Liu T, et al. Pre-Training with Whole Word Maskingfor Chinese BERT[J]. arXiv preprint arXiv:1906.08101, 2019.

[6] Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bertpretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.

[7] Sun Y, Wang S, Li Y, et al. ERNIE: Enhanced Representation throughKnowledge Integration[J]. arXiv preprint arXiv:1904.09223, 2019.

[8] Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-trainingframework for language understanding[J]. arXiv preprint arXiv:1907.12412, 2019.

[9] https://github.com/dbiir/UER-py/

[10] Zhao Z, Chen H, Zhang J, et al. UER: An Open-Source Toolkit forPre-training Models[J]. arXiv preprint arXiv:1909.05658, 2019.

[11] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits oftransfer learning with a unified text-to-text transformer[J]. arXiv preprintarXiv:1910.10683, 2019.

????

現(xiàn)在,在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 訪問項目主頁

總結

以上是生活随笔為你收集整理的ChineseGLUE(CLUE):针对中文自然语言理解任务的基准平台的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。