日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

【NLP】DataCLUE: 国内首个以数据为中心的AI测评

發(fā)布時(shí)間:2025/3/12 ChatGpt 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【NLP】DataCLUE: 国内首个以数据为中心的AI测评 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

DataCLUE

以數(shù)據(jù)為中心的AI測(cè)評(píng)(含模型和數(shù)據(jù)分析報(bào)告)

DataCLUE: A Chinese Data-centric Language Evaluation Benchmark

Github項(xiàng)目地址:

https://github.com/CLUEbenchmark/DataCLUE

官網(wǎng):

www.CLUEbenchmarks.com/dataclue.html?或 www.clue.ai

內(nèi)容導(dǎo)引

章節(jié)描述
簡(jiǎn)介介紹以數(shù)據(jù)為中心的AI測(cè)評(píng)(DataCLUE)的背景
任務(wù)描述任務(wù)描述
實(shí)驗(yàn)結(jié)果針對(duì)各種不同方法,在FewCLUE上的實(shí)驗(yàn)對(duì)比
實(shí)驗(yàn)分析對(duì)人類表現(xiàn)、模型能力和任務(wù)進(jìn)行分析
數(shù)據(jù)為中心的AI_方法論介紹數(shù)據(jù)為中心的AI:方法論介紹
DataCLUE有什么特點(diǎn)特點(diǎn)介紹
基線模型及運(yùn)行支持多種基線模型
DataCLUE測(cè)評(píng)及規(guī)則DataCLUE測(cè)評(píng)及規(guī)則
數(shù)據(jù)集介紹介紹數(shù)據(jù)集及示例
貢獻(xiàn)與參與如何參與項(xiàng)目或反饋問題

簡(jiǎn)介

以數(shù)據(jù)為中心(Data-centric)的AI,是一種新型的AI探索方向。它的核心問題是如何通過系統(tǒng)化的改造你的數(shù)據(jù)(無論是輸入或者標(biāo)簽)來提高最終效果。傳統(tǒng)的AI是以模型為中心(Model-centric)的,主要考慮的問題是如何通過改造或優(yōu)化模型來提高最終效果,它通常建立在一個(gè)比較固定的數(shù)據(jù)集上。最新的數(shù)據(jù)顯示超過90%的論文都是以模型為中心的,通過模型創(chuàng)新或?qū)W習(xí)方法改進(jìn)提高效果,即使不少改進(jìn)影響可能效果并不是特別明顯。有些人認(rèn)為當(dāng)前的人工智能領(lǐng)域, 無論是自然語(yǔ)言處理(如BERT) 或計(jì)算機(jī)視覺(ResNet), 已經(jīng)存在很多成熟高效模型,并且模型可以很容易從開源網(wǎng)站如github獲得;而與此同時(shí),工業(yè)界實(shí)際落地 過程中可能有80%的時(shí)間用于 清洗數(shù)據(jù)、構(gòu)建高質(zhì)量數(shù)據(jù)集,或在迭代過程中獲得更多數(shù)據(jù),從而提升模型效果。正是看到了這種巨大的差別,在吳恩達(dá)等人的推動(dòng)下這種 以數(shù)據(jù)為中心 (Data-centric)的AI進(jìn)一步的系統(tǒng)化,并成為一個(gè)有具有巨大實(shí)用價(jià)值方法論。

DataCLUE是一個(gè)以數(shù)據(jù)為中心的AI測(cè)評(píng)。它基于CLUE benchmark,結(jié)合Data-centric的AI的典型特征,進(jìn)一步將Data-centric的AI應(yīng)用于 NLP領(lǐng)域,融入文本領(lǐng)域的特定并創(chuàng)造性豐富和發(fā)展了Data-centric的AI。在原始數(shù)據(jù)集外,它通過提供額外的高價(jià)值的數(shù)據(jù)和數(shù)據(jù)和模型分析報(bào)告(增值服務(wù))的形式, 使得融入人類的AI迭代過程(Human-in-the-loop AI pipeline)變得更加高效,并能較大幅度的提升最終效果。

任務(wù)描述

參與測(cè)評(píng)者需要改進(jìn)任務(wù)下的數(shù)據(jù)集來提升任務(wù)的最終效果;將使用固定的模型和程序代碼(公開)來訓(xùn)練數(shù)據(jù)集,并得到任務(wù)效果的數(shù)據(jù)。可以對(duì)訓(xùn)練集、驗(yàn)證集進(jìn)行修改或者移動(dòng)訓(xùn)練集和驗(yàn)證集建的數(shù)據(jù),也可以通過非爬蟲類手段新增數(shù)據(jù)來完善數(shù)據(jù)集。可以通過算法或程序或者結(jié)合人工的方式來改進(jìn)數(shù)據(jù)集。參與測(cè)評(píng)者需提交修改后的訓(xùn)練集和驗(yàn)證的壓縮包。

任務(wù)描述和統(tǒng)計(jì)

實(shí)驗(yàn)結(jié)果


IFLYTEK(acc)
Human80.30
Baseline56.42
Model-centric59.31
Data-centricReport?on 2021-09-15

實(shí)驗(yàn)分析

TODO 這里是實(shí)驗(yàn)分析 需要結(jié)合實(shí)驗(yàn)數(shù)據(jù)做一些說明。以模型為中心、以數(shù)據(jù)為中心效果是否一樣的呢,或者某種方式可以得到更好的效果。

數(shù)據(jù)為中心的AI-方法論介紹

這里簡(jiǎn)單介紹一下以數(shù)據(jù)為中心的AI的方法論。包括一張圖介紹一下流程,并做一下說明;可以附加tips。

流程圖:1.定義任務(wù)-->2.收集數(shù)據(jù)--->3.訓(xùn)練模型-->4.部署模型

系統(tǒng)化方式、通過迭代形式改進(jìn)數(shù)據(jù)集: #1.訓(xùn)練模型; #2.錯(cuò)誤分析:發(fā)現(xiàn)算法模型在哪些類型的數(shù)據(jù)上表現(xiàn)不佳(如:數(shù)據(jù)過短導(dǎo)致語(yǔ)義沒有表達(dá)完全、一些類別間概念容易混淆導(dǎo)致標(biāo)簽可能不正確) #3.改進(jìn)數(shù)據(jù):1)更多數(shù)據(jù):數(shù)據(jù)增強(qiáng)、數(shù)據(jù)生成或搜集更多數(shù)據(jù)--->獲得更多的輸入數(shù)據(jù)。2)更一致的標(biāo)簽定義:當(dāng)有些類別容易混淆的時(shí)候,改進(jìn)標(biāo)簽的定義--->基于清晰的標(biāo)簽定義,糾正部分?jǐn)?shù)據(jù)的標(biāo)簽。 #4.重復(fù)#1-#3的步驟。

DataCLUE有什么特點(diǎn)

1、國(guó)內(nèi)首個(gè)以數(shù)據(jù)為中心的AI測(cè)評(píng)。之前的測(cè)評(píng)一般是在固定的數(shù)據(jù)集下使用不同的模型或?qū)W習(xí)方式來提升效果,而DataCLUE是需要改進(jìn)數(shù)據(jù)集。

2、它是中文NLP任務(wù)在以數(shù)據(jù)為中心的思想下的實(shí)踐。

3、更豐富的信息:除了常規(guī)的訓(xùn)練、驗(yàn)證和測(cè)試集外,它還額外提供了標(biāo)簽的定義、訓(xùn)練集中進(jìn)一步標(biāo)注后的高質(zhì)量數(shù)據(jù)。結(jié)合這些額外的信息,使得 融入人類的AI迭代閉環(huán)(Human-in-the-loop AI pipeline)可以變得更加高效,并且在發(fā)揮算法模型在數(shù)據(jù)迭代過程中可以有更多空間和潛力。

4、增值服務(wù):我們還額外提供模型訓(xùn)練和預(yù)測(cè)過程中的分析報(bào)告,為以數(shù)據(jù)為中心的AI的迭代過程變得更有方向和系統(tǒng)化。

基線模型及運(yùn)行

一鍵運(yùn)行.基線模型與代碼 Baseline with codes

使用方式: 1、克隆項(xiàng)目 git clone https://github.com/CLUEbenchmark/DataCLUE.git進(jìn)入到項(xiàng)目目錄 cd DataCLUE 2、進(jìn)入到相應(yīng)的目錄分類任務(wù) 例如:cd ./baselines/models_pytorch/classifier_pytorch 3、運(yùn)行對(duì)應(yīng)任務(wù)的腳本(GPU方式): 會(huì)自動(dòng)下載模型和任務(wù)數(shù)據(jù)并開始運(yùn)行。bash run_classifier_xxx.sh如運(yùn)行: bash run_classifier_iflytek.sh 會(huì)開始iflytek任務(wù)的訓(xùn)練。訓(xùn)練完后也會(huì)得到在驗(yàn)證集上的效果,見 ./output_dir/bert/checkpoint_eval_results.txt

DataCLUE測(cè)評(píng)及規(guī)則

1.測(cè)評(píng)方式:

修改訓(xùn)練集和驗(yàn)證集,并將壓縮包上傳到CLUE benchmark

使用如下命令得到壓縮包: zip dataclue_<team_name>_<data_string>.zip train.json dev.json 具體格式見:提交樣例

2.測(cè)評(píng)規(guī)則:

1.1 可以對(duì)訓(xùn)練集、驗(yàn)證集進(jìn)行修改(輸入文本或標(biāo)簽),或者移動(dòng)訓(xùn)練集和驗(yàn)證集的數(shù)據(jù);
1.2 可以通過非爬蟲類手段增加數(shù)據(jù)來完善訓(xùn)練和驗(yàn)證集。增加數(shù)據(jù)方式,包括但不限于:數(shù)據(jù)增強(qiáng)、文本生成、結(jié)合分析定向生成或添加。
1.3 可以通過算法或程序,或者結(jié)合人工的方式來改進(jìn)數(shù)據(jù)集;
2.1 鼓勵(lì)通過結(jié)合算法、模型和程序來改進(jìn)數(shù)據(jù)集,也同樣鼓勵(lì)算法模型結(jié)合人工進(jìn)行數(shù)據(jù)改進(jìn);但純?nèi)斯し绞降臄?shù)據(jù)改進(jìn),評(píng)審環(huán)節(jié)將不得分。

3.測(cè)評(píng)時(shí)間規(guī)劃:2021年9月12日---2021年12月12日

1) 報(bào)名開始與截止:2021年9月12日--2021年10月25日2) 初賽:2021年9月12日--2021年10月30日。前80名并超過Data-centric的baseline進(jìn)入到復(fù)賽。初始選手,也將獲得數(shù)據(jù)和模型的分析報(bào)告(簡(jiǎn)稱增值服務(wù))訓(xùn)練集 & 驗(yàn)證集提供:2021年9月12;提交入口開放:2021年9月15日;每天22點(diǎn)更新一次在線成績(jī)。3) 復(fù)賽:2021年11月1日--2021年12月5日。復(fù)賽時(shí),將提供額外高質(zhì)量標(biāo)注數(shù)據(jù)。前15名進(jìn)入到線上評(píng)審,進(jìn)行在線答辯。4) 線上評(píng)審:2021年12月12日(下午2點(diǎn)-5點(diǎn))。最終成績(jī):線上得分* 0.65 + 線上方案評(píng)審 * 0.35線上方案評(píng)審:方案評(píng)審?fù)ㄟ^考察參賽隊(duì)伍提交方案的新穎性、實(shí)用性和解釋答辯表現(xiàn)力來打分,由5位評(píng)審老師打分;每只隊(duì)伍有10分鐘的時(shí)間講解方案,5分鐘來回答問題。方案評(píng)審將以直播方法進(jìn)行。

數(shù)據(jù)集介紹

1、IFLYTEK 長(zhǎng)文本分類數(shù)據(jù)集 Long Text classification 該數(shù)據(jù)集關(guān)于app應(yīng)用描述的長(zhǎng)文本標(biāo)注數(shù)據(jù),包含和日常生活相關(guān)的各類應(yīng)用主題,共119個(gè)類別:"打車":0,"地圖導(dǎo)航":1,"免費(fèi)WIFI":2,"租車":3,…. ,"女性":115,"經(jīng)營(yíng)":116,"收款":117,"其他":118(分別用0-118表示)。

數(shù)量,訓(xùn)練集:12133 ;驗(yàn)證集:2599 例子: {"label": "110", "label_des": "社區(qū)超市", "sentence": "樸樸快送超市創(chuàng)立于2016年,專注于打造移動(dòng)端30分鐘即時(shí)配送一站式購(gòu)物平臺(tái),商品品類包含水果、蔬菜、肉禽蛋奶、海鮮水產(chǎn)、糧油調(diào)味、酒水飲料、休閑食品、日用品、外賣等。樸樸公司希望能以全新的商業(yè)模式,更高效快捷的倉(cāng)儲(chǔ)配送模式,致力于成為更快、更好、更多、更省的在線零售平臺(tái),帶給消費(fèi)者更好的消費(fèi)體驗(yàn),同時(shí)推動(dòng)中國(guó)食品安全進(jìn)程,成為一家讓社會(huì)尊敬的互聯(lián)網(wǎng)公司。,樸樸一下,又好又快,1.配送時(shí)間提示更加清晰友好2.保障用戶隱私的一些優(yōu)化3.其他提高使用體驗(yàn)的調(diào)整4.修復(fù)了一些已知bug"} 每一條數(shù)據(jù)有三個(gè)屬性,從前往后分別是 類別ID,類別名稱,文本內(nèi)容。

學(xué)習(xí)資料

1、吳恩達(dá)新課:從以模型為中心到以數(shù)據(jù)為中心的AI(1小時(shí))

貢獻(xiàn)與參與

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)筆記專輯《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)專輯黃海廣老師《機(jī)器學(xué)習(xí)課程》視頻課 本站qq群851320808,加入微信群請(qǐng)掃碼:

總結(jié)

以上是生活随笔為你收集整理的【NLP】DataCLUE: 国内首个以数据为中心的AI测评的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。