當(dāng)前位置：首頁(yè) >

拒绝暴力调参！推荐一个模型Debug神器！

發(fā)布時(shí)間：2024/7/5 47 豆豆

生活随笔收集整理的這篇文章主要介紹了拒绝暴力调参！推荐一个模型Debug神器！小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

近些年深度學(xué)習(xí)在視覺(jué)、自然語(yǔ)言處理、語(yǔ)音等各個(gè)技術(shù)方向都誕生了不少創(chuàng)新應(yīng)用，如智能識(shí)別醫(yī)療圖像中的病灶，輔助醫(yī)生做病情診斷；智能判別生產(chǎn)線上有質(zhì)量問(wèn)題的產(chǎn)品，減輕人工質(zhì)檢壓力；對(duì)政務(wù)、金融等流程中的證件票據(jù)進(jìn)行信息識(shí)別，加速審批并實(shí)現(xiàn)流程電子化；識(shí)別用戶輸入的語(yǔ)句，與知識(shí)庫(kù)中相應(yīng)的問(wèn)答進(jìn)行匹配，實(shí)現(xiàn)智能客服問(wèn)答等。

隨著智能應(yīng)用的爆發(fā)式發(fā)展，構(gòu)建高精模型成為每個(gè)企業(yè)都在持續(xù)探索的命題。然而，在構(gòu)建深度學(xué)習(xí)模型的過(guò)程中，當(dāng)遇到模型效果不能滿足要求，需要進(jìn)一步定位問(wèn)題和調(diào)優(yōu)效果時(shí)，由于深度學(xué)習(xí)模型是一個(gè)“黑盒”，開(kāi)發(fā)者并不知道它做出錯(cuò)誤決策的準(zhǔn)確原因，因此很難采取有針對(duì)性的效果優(yōu)化策略。這個(gè)時(shí)候就非常讓人頭疼了。

不用慌，本文就專門(mén)針對(duì)神經(jīng)網(wǎng)絡(luò)模型的黑箱特性，構(gòu)建了一個(gè)模型debug神器，可以輕松幫助從業(yè)者“解釋”模型的效果，甚至透視模型的決策。

針對(duì)這一訴求，百度飛槳企業(yè)版EasyDL零門(mén)檻AI開(kāi)發(fā)平臺(tái)在原有完善詳實(shí)的模型評(píng)估報(bào)告基礎(chǔ)上，進(jìn)一步新增上線了 ?混淆矩陣 和 CNN熱力圖 功能，即使大家對(duì)深度學(xué)習(xí)了解不多，也可以快速依據(jù)可視化評(píng)估結(jié)果制定更為精準(zhǔn)的優(yōu)化方案。下面將為大家逐一介紹模型指標(biāo)、錯(cuò)誤示例（BadCase）、混淆矩陣、CNN熱力圖等各個(gè)功能。

EasyDL模型評(píng)估提供多項(xiàng)指標(biāo)，多角度展現(xiàn)模型效果信息

EasyDL基于飛槳開(kāi)源深度學(xué)習(xí)平臺(tái)，面向企業(yè)AI應(yīng)用開(kāi)發(fā)者提供零門(mén)檻AI開(kāi)發(fā)平臺(tái)，實(shí)現(xiàn)零算法基礎(chǔ)定制高精度AI模型。EasyDL提供一站式的智能標(biāo)注、模型訓(xùn)練、服務(wù)部署等全流程功能，內(nèi)置豐富的預(yù)訓(xùn)練模型，支持公有云、設(shè)備端、私有服務(wù)器、軟硬一體方案等靈活的部署方式。

目前，EasyDL通過(guò)百度智能云已經(jīng)服務(wù)超過(guò)80萬(wàn)企業(yè)用戶，在工業(yè)制造、安全生產(chǎn)、零售快消、智能硬件、文化教育、政府政務(wù)、交通物流、互聯(lián)網(wǎng)等領(lǐng)域廣泛落地。

在EasyDL完成模型開(kāi)發(fā)后可以獲得平臺(tái)提供的各項(xiàng)詳細(xì)的模型評(píng)估指標(biāo)，以圖像分類模型為例，除了整體的準(zhǔn)確率之外，還可以看精確率、召回率、F1-score、TOP5準(zhǔn)確率等。

除了模型整體的指標(biāo)之外，還可以看每一項(xiàng)類別的F1-score值，從而幫助開(kāi)發(fā)者發(fā)現(xiàn)具體哪一類別的識(shí)別效果較差。針對(duì)這些較差的類別，開(kāi)發(fā)者可以有針對(duì)性地去看那些被預(yù)測(cè)錯(cuò)誤的樣本，也就是常說(shuō)的BadCase。開(kāi)發(fā)者可以檢查這些類別是否樣本量過(guò)少，需要補(bǔ)充數(shù)據(jù)；是否有臟數(shù)據(jù)存在，影響了模型學(xué)習(xí)。

在物體檢測(cè)上也類似，整體指標(biāo)上可以觀測(cè)mAP、最佳閾值下檢測(cè)的精確率、召回率等。因?yàn)闄z測(cè)模型會(huì)輸出很多的檢測(cè)框，而有相當(dāng)一部分檢測(cè)框的概率比較低，一般會(huì)設(shè)置一個(gè)閾值來(lái)過(guò)濾掉那些低概率的檢測(cè)框。通過(guò)設(shè)置不同的閾值，模型便會(huì)有不同的精確率、召回率和F1-score。在模型預(yù)測(cè)時(shí)，通常取F1-score最高的閾值當(dāng)做最佳閾值，這樣能夠較好地平衡精確率和召回率，盡量減少漏檢、錯(cuò)檢等問(wèn)題。

與分類任務(wù)類似，在物體檢測(cè)模型的評(píng)估中也可以查看各個(gè)類別的精度，來(lái)判斷哪些類別的檢測(cè)效果欠佳。找到這些問(wèn)題比較大的類別之后，同樣也可以查看BadCase。檢測(cè)問(wèn)題里的BadCase詳細(xì)區(qū)分了“誤識(shí)別”和“漏識(shí)別”這兩種情況，從而方便開(kāi)發(fā)者看檢測(cè)出錯(cuò)的各類情況。開(kāi)發(fā)者可以檢查對(duì)應(yīng)類別的標(biāo)注框是否過(guò)少，是否有框標(biāo)注錯(cuò)誤需要修正。

新增混淆矩陣與熱力圖兩大功能，高效展示模型效果問(wèn)題

除了上面這些經(jīng)典常用的方法外，為了更有針對(duì)性地比較易混淆的類別，EasyDL近期重磅上線了混淆矩陣的功能。在混淆矩陣中，開(kāi)發(fā)者可以方便地看到具體哪兩種類別之間容易產(chǎn)生混淆，例如，類別A較多地被識(shí)別成了類別B。根據(jù)這些信息，開(kāi)發(fā)者可以發(fā)現(xiàn)是不是訓(xùn)練數(shù)據(jù)存在問(wèn)題，例如相似類別的圖片有標(biāo)注錯(cuò)誤；或是這些相似類別的圖片太少，導(dǎo)致模型沒(méi)有學(xué)習(xí)充分。開(kāi)發(fā)者可以依據(jù)混淆矩陣提供的信息，對(duì)模型數(shù)據(jù)進(jìn)行補(bǔ)充與調(diào)整。

看到這里，你會(huì)發(fā)現(xiàn)，EasyDL在評(píng)估模型效果時(shí)，通常是從數(shù)據(jù)的角度去發(fā)現(xiàn)現(xiàn)有模型的問(wèn)題，通過(guò)優(yōu)化數(shù)據(jù)來(lái)優(yōu)化模型效果的。為什么會(huì)選擇這樣的策略呢？在深度學(xué)習(xí)領(lǐng)域有一句話很流行，“Garbage in , garbage out.”意思就是說(shuō)如果開(kāi)發(fā)者給了深度學(xué)習(xí)模型一堆標(biāo)注質(zhì)量差的“垃圾”數(shù)據(jù)，就會(huì)得到一個(gè)精度很低的“垃圾”模型，這句話時(shí)刻提醒開(kāi)發(fā)者，數(shù)據(jù)質(zhì)量與模型效果直接相關(guān)。因此，從數(shù)據(jù)角度進(jìn)行模型效果的問(wèn)題定位、并配合相應(yīng)數(shù)據(jù)的調(diào)整，往往是最直接高效的。對(duì)于EasyDL的企業(yè)應(yīng)用級(jí)開(kāi)發(fā)者而言，從數(shù)據(jù)角度解決問(wèn)題，不要求用戶進(jìn)行高深的算法研究，可以零代碼快速提升模型精度。

除了上面這些方法外，還有一些更專業(yè)的透視模型手段，被業(yè)界稱之為模型可解釋性方法。飛槳開(kāi)源了業(yè)界主流的可解釋性方法在GitHub上，這里面既包括基于輸入特征的方法（如Intergrated Gradients, SmoothGrad, LIME等），也包括基于中間特征的方法（如GradCAM，ScoreCAM等）。大家可以通過(guò)以下鏈接查閱：

https://github.com/PaddlePaddle/InterpretDL

在這些方法中，針對(duì)CNN網(wǎng)絡(luò)有一個(gè)觀察網(wǎng)絡(luò)中激活情況的技術(shù)，可以更深入地了解模型的行為。這也是EasyDL模型評(píng)估熱力圖功能的技術(shù)基礎(chǔ)。

以CAM算法為例，在CNN網(wǎng)絡(luò)的最后一個(gè)特征圖（Feature Map）上，哪些位置被激活是非常重要的信息，它直接影響后續(xù)網(wǎng)絡(luò)中分類器的判斷。但是這些特征圖除了長(zhǎng)寬兩個(gè)維度外，還有一個(gè)通道的維度，開(kāi)發(fā)者如何才能把不同通道的特征圖疊加到一起呢？CAM提供一種加權(quán)的方法，即根據(jù)最后一個(gè)全連接層中的權(quán)重來(lái)加權(quán)。如上圖示例，如果開(kāi)發(fā)者想觀察“狗”這個(gè)類別的激活情況，那么就把全連接層中各個(gè)通道到狗這個(gè)類別的權(quán)重W1, W2, …, Wn找出來(lái)，然后用這些權(quán)重對(duì)各通道特征圖進(jìn)行加權(quán)求和，就會(huì)得到一個(gè)兩維的激活狀態(tài)圖。從這個(gè)狀態(tài)圖中，開(kāi)發(fā)者可以看到原圖里狗出現(xiàn)的位置被激活了，而其他區(qū)域（如人）則數(shù)值很小，沒(méi)有對(duì)預(yù)測(cè)起作用。通過(guò)這樣的“透視”，開(kāi)發(fā)者可以更深入地了解模型內(nèi)部的運(yùn)作情況，一定程度地理解模型為什么得到了某個(gè)預(yù)測(cè)結(jié)果。根據(jù)這些信息，開(kāi)發(fā)者可以選擇通過(guò)補(bǔ)充、優(yōu)化數(shù)據(jù)來(lái)引導(dǎo)模型學(xué)習(xí)地更好，也可以選擇通過(guò)調(diào)整模型結(jié)構(gòu)來(lái)優(yōu)化模型的表現(xiàn)。

有些方法不僅適用于CNN的視覺(jué)模型，也適用于自然語(yǔ)言處理模型和傳統(tǒng)機(jī)器學(xué)習(xí)模型。EasyDL也會(huì)不斷集成相關(guān)能力。比如NLP的情感分類任務(wù)中，我們想知道為什么文本模型對(duì)一句話預(yù)測(cè)為正面或負(fù)面的評(píng)論。利用積分梯度（Integrated Gradients）的方法，在文本模型中把全零的嵌入向量作為基線，得到當(dāng)前嵌入向量的積分梯度。從而反應(yīng)不同輸入詞對(duì)預(yù)測(cè)結(jié)果的影響，可視化結(jié)果如下圖：

使用EasyDL進(jìn)行模型開(kāi)發(fā)，在模型的評(píng)估中不僅可以參考各項(xiàng)詳細(xì)指標(biāo)來(lái)進(jìn)行模型效果判斷，還可以參考全新上線的混淆矩陣和熱力圖，以可視化、更精準(zhǔn)的方式來(lái)定位模型效果不佳的原因，從而采取有針對(duì)性的效果提升策略。

后臺(tái)回復(fù)關(guān)鍵詞【入群】

加入賣(mài)萌屋NLP/IR/Rec與求職討論群

后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】

獲取ACL、CIKM等各大頂會(huì)論文集！

總結(jié)

以上是生活随笔為你收集整理的拒绝暴力调参！推荐一个模型Debug神器！的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：别只关注GPT3！细如发丝的模型更具现实
下一篇： 1000层的Transformer，诞生

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

拒绝暴力调参！推荐一个模型Debug神器！

總結(jié)