日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 人工智能 > pytorch >内容正文

pytorch

如何评估深度学习模型效果?阿里工程师这么做

發(fā)布時(shí)間:2025/7/25 pytorch 36 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何评估深度学习模型效果?阿里工程师这么做 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

小嘰導(dǎo)讀:復(fù)雜的深度模型中,如果效果不好,是因?yàn)榫W(wǎng)絡(luò)設(shè)計(jì)的欠缺?還是數(shù)據(jù)天然缺陷?是訓(xùn)練代碼的bug?還是Tensorflow自身的問題?基于此,阿里工程師推出了DeepInsight深度學(xué)習(xí)質(zhì)量平臺(tái),致力于解決當(dāng)前模型調(diào)試和問題定位等一系列問題。接下來,阿里巴巴高級(jí)技術(shù)專家、DeepInsight深度學(xué)習(xí)質(zhì)量平臺(tái)技術(shù)負(fù)責(zé)人:孫凱(花名:路宸),帶我們一起探索。

1. 背景

機(jī)器學(xué)習(xí)訓(xùn)練過程的調(diào)試、可視化以及訓(xùn)練效果的評(píng)估一直是業(yè)界難題。在數(shù)據(jù)較少,模型較簡(jiǎn)單,如LR、GBDT、SVM,超參不多的情況下,模型的可調(diào)性和可解釋性都有一定保障,那么我們用簡(jiǎn)單的訓(xùn)練,再觀察召回/精度/AUC等指標(biāo)就可以應(yīng)對(duì)。

而深度學(xué)習(xí)時(shí)代,模型的復(fù)雜性遠(yuǎn)遠(yuǎn)超乎想象,層層嵌套的網(wǎng)絡(luò)結(jié)構(gòu),優(yōu)化器和大量超參的選擇,特征的連續(xù)化,一起構(gòu)建了復(fù)雜的深度模型。如果效果不好,其原因是多樣的,為了定位和解決這些問題,算法研發(fā)同學(xué)需要花費(fèi)大量精力反復(fù)嘗試,而且很可能得不到準(zhǔn)確的答案。簡(jiǎn)單來說,網(wǎng)絡(luò)模型近似于黑盒。

2. DeepInsight

通過研究,我們發(fā)現(xiàn)訓(xùn)練和評(píng)估過程中大量中間指標(biāo)與模型效果能產(chǎn)生關(guān)系,通過系統(tǒng)的分析建模張量、梯度、權(quán)重和更新量,能夠?qū)λ惴ㄕ{(diào)優(yōu)、問題定位起到輔助決策作用。而且,通過改進(jìn)AUC算法,分析ROC、PR、預(yù)估分布等更多評(píng)估指標(biāo),能夠更全面地評(píng)估模型效果。

通過2個(gè)多月的努力,我們推出了DeepInsight平臺(tái),致力于解決當(dāng)前模型調(diào)試和問題定位等一系列問題。提交模型開始訓(xùn)練之后,用戶可以通過DeepInsight平臺(tái),能一站式查看并分析訓(xùn)練過程,從訓(xùn)練中間指標(biāo)到預(yù)測(cè)指標(biāo),再到性能數(shù)據(jù),一應(yīng)俱全。對(duì)于訓(xùn)練中明顯的問題,平臺(tái)也會(huì)高亮給予提示。未來,我們希望平臺(tái)能更好地幫助用戶發(fā)現(xiàn)和定位訓(xùn)練中的問題,并能給予適當(dāng)提示(如更改某些子網(wǎng)絡(luò)的最優(yōu)化算法、更改學(xué)習(xí)率動(dòng)量等),就如同GDB之于C++一樣。

2.1 目標(biāo)

沉淀并持久化訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)的數(shù)據(jù)非常寶貴,每次訓(xùn)練的網(wǎng)絡(luò)拓?fù)洹?shù)、訓(xùn)練中間過程、模型評(píng)估指標(biāo)都會(huì)持久存儲(chǔ),方便后續(xù)人工分析和二次建模;

沉淀對(duì)模型訓(xùn)練的認(rèn)識(shí),提供分析調(diào)優(yōu)手段,輔助決策,同時(shí)規(guī)避各類已知問題;

利用大數(shù)據(jù)分析建模,尋找中間過程指標(biāo)的關(guān)系,更好地輔助決策,我們稱這個(gè)目標(biāo)為Model on Model,即利用新的模型來分析評(píng)估深度模型;

在大數(shù)據(jù)分析建模的基礎(chǔ)上,嘗試對(duì)已有模型進(jìn)行深度強(qiáng)化學(xué)習(xí)(DRL),提高深度學(xué)習(xí)調(diào)試效率。

2.2 架構(gòu)

系統(tǒng)主要分為四層:輸入層、解析層、評(píng)估層、輸出層;

同時(shí)包括五大組件:Tensorboard+可視化分析;TensorViewer日志展示對(duì)比;TensorDealer集成配置;TensorTracer數(shù)據(jù)透出;TensorDissection分析調(diào)優(yōu)。

2.3 進(jìn)展

2.3.1 高性能可視化組件TensorBoard+

Google的TensorBoard(簡(jiǎn)稱為TB)是TensorFlow(簡(jiǎn)稱為TF)的可視化組件,可以查看深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)、中間指標(biāo)等。原生的TB是單機(jī)版命令行方式運(yùn)行,無法多用戶使用;易用性差,每次切換日志路徑都需要kill掉當(dāng)前進(jìn)程;同時(shí)性能也很差,加載工業(yè)模型數(shù)據(jù)立即卡死;指標(biāo)分層混亂,幾千個(gè)指標(biāo)全都羅列,無法查看;用法復(fù)雜功能較弱,不支持已展示圖形的二次數(shù)據(jù)對(duì)比,不支持X軸浮點(diǎn)數(shù)據(jù)展示等。

因此,我們重構(gòu)了TB的核心代碼,支持GB級(jí)日志加載和數(shù)據(jù)分層,將整個(gè)服務(wù)改造成多用戶版本,利用Docker靈活管理資源并自動(dòng)回收。UI上支持了高亮自定義指標(biāo)、分層展示、數(shù)據(jù)對(duì)比、日志上傳等,具體如下:

支持在線更改TF日志路徑:

支持圖形數(shù)據(jù)在線聚合對(duì)比:

支持X軸浮點(diǎn)數(shù)值類型展示:

支持圖形數(shù)據(jù)Hightlight分維度顯示:

支持手動(dòng)調(diào)整前端定時(shí)刷新時(shí)間,實(shí)時(shí)展示數(shù)據(jù):

2.3.2 集成配置日志管理系統(tǒng)TensorViewer

TF的任務(wù)缺乏有效管理,用戶無法按需查看和分析數(shù)據(jù),更無法回顧歷史數(shù)據(jù)。我們打通了TF與DeepInsight的通路,收集了所有任務(wù)的信息,用戶可以查看每次訓(xùn)練的實(shí)時(shí)數(shù)據(jù)和所有歷史數(shù)據(jù),支持多任務(wù)對(duì)比分析;同時(shí)支持一鍵跳轉(zhuǎn)到Tensorboard+,直接對(duì)當(dāng)前日志數(shù)據(jù)進(jìn)行可視化展示。

2.3.3 改進(jìn)TensorFlow的可視化數(shù)據(jù)透出

我們定義了一套數(shù)據(jù)透出方式,可以把所有內(nèi)部數(shù)據(jù)透出成統(tǒng)一的Summary格式,并被Tensorboard+處理。由于PS架構(gòu)沒有Master集中處理中間數(shù)據(jù),再加上張量、梯度等指標(biāo)的透出是極為消耗資源的,所以,如何透出數(shù)據(jù)是值得深入研究的。當(dāng)前我們?cè)赪orker0上透出數(shù)據(jù),能滿足一般模型訓(xùn)練的要求,未來,會(huì)研究Snapshot數(shù)據(jù)透出方案,在大規(guī)模網(wǎng)絡(luò)下也能取得較好效果。

當(dāng)前,我們已經(jīng)初步解析了Tensorflow透出的過程指標(biāo),正在這些海量指標(biāo)上進(jìn)行有監(jiān)督和無監(jiān)督的建模探索。

2.3.4 改進(jìn)模型評(píng)估指標(biāo)

Tensorflow自帶的AUC計(jì)算方式分桶較少,計(jì)算精度有bug,在處理大量數(shù)據(jù)時(shí)性能不夠,而且,僅僅能計(jì)算AUC,無法繪制ROC、PR等曲線。

我們改進(jìn)了計(jì)算方式,引入更多桶,并提升計(jì)算效率,同時(shí),繪制了更多新的指標(biāo)。當(dāng)前繪制的指標(biāo)包括AUC、ROC、PR、波動(dòng)率、正負(fù)樣本分桶分布。通過觀察正負(fù)樣本的分布,我們發(fā)現(xiàn)Tensorflow異步計(jì)算的缺陷,導(dǎo)致某些桶的樣本數(shù)量有誤差,會(huì)帶來AUC上極小波動(dòng),這個(gè)bug目前尚未解決。所有的預(yù)估指標(biāo)都無縫接入DeepInsight平臺(tái)。

2.3.5 研究模型訓(xùn)練中間指標(biāo)

通過深入觀察和建模大規(guī)模Embedding子網(wǎng)絡(luò)的訓(xùn)練指標(biāo),我們發(fā)現(xiàn)權(quán)重(偏置)值的變化可以反應(yīng)出相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)是否被有效訓(xùn)練。權(quán)重(偏置)值變化微弱的區(qū)域即為訓(xùn)練的“盲區(qū)”—該部分網(wǎng)絡(luò)沒有被訓(xùn)練起來。通過觀察權(quán)重(偏置)的梯度,可以幫助我們?cè)\斷梯度彌散或梯度爆炸等問題,分析了解訓(xùn)練該部分網(wǎng)絡(luò)的難易程度,有針對(duì)性地調(diào)整優(yōu)化器以及學(xué)習(xí)率等設(shè)置。通過全面考察整個(gè)網(wǎng)絡(luò)各部分的激活以及梯度,可以幫助我們深入了解整個(gè)網(wǎng)絡(luò)前后向多路信息相互耦合、協(xié)同傳導(dǎo)的復(fù)雜機(jī)制,從而更有效地進(jìn)行模型結(jié)構(gòu)的設(shè)計(jì)調(diào)優(yōu)。

對(duì)中間指標(biāo)的研究會(huì)沉淀回流到DeepInsight,在訓(xùn)練指標(biāo)產(chǎn)出后,對(duì)用戶給予提示,做到輔助決策的作用。



本文作者:孫凱

閱讀原文

本文來自云棲社區(qū)合作伙伴“?阿里技術(shù)”,如需轉(zhuǎn)載請(qǐng)聯(lián)系原作者。

總結(jié)

以上是生活随笔為你收集整理的如何评估深度学习模型效果?阿里工程师这么做的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。