當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【杂谈】关于数据和模型，初学者极容易忽视的两个问题！

發(fā)布時間：2025/3/20 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了【杂谈】关于数据和模型，初学者极容易忽视的两个问题！小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

說起深度學(xué)習(xí)與CNN，想必大家很熟悉；說起計算機視覺中的目標(biāo)檢測等各個方向，相比大家平時也接觸過不少東西了；不過有兩個小的方向，雖然相關(guān)的論文、項目、甚至研究方法都不多，卻是做研究與實際項目落地中非常重要的技術(shù)，那就是對數(shù)據(jù)使用方法的掌握與模型的理解，這是容易被大家忽視的問題，下面我們簡單說道說道。

關(guān)于數(shù)據(jù)你應(yīng)該知道

大數(shù)據(jù)本來就是一個專門的學(xué)科，不過我們這里說的不是專指大數(shù)據(jù)，而是指在深度學(xué)習(xí)項目中數(shù)據(jù)的使用，至少有好幾個方向有非常多的內(nèi)容值得掌握。

數(shù)據(jù)的獲取

數(shù)據(jù)是深度學(xué)習(xí)系統(tǒng)的糧食，當(dāng)前的大部分工業(yè)落地模型，都依賴于大量數(shù)據(jù)進行學(xué)習(xí)，所以獲取是第一步！如果沒有超越百萬級圖片數(shù)量的ImageNet數(shù)據(jù)集的整理提出，深度學(xué)習(xí)計算機視覺算法的落地進程肯定會被推遲！

那ImageNet數(shù)據(jù)集從何而來！靠的就是數(shù)據(jù)爬蟲和在線的眾籌標(biāo)注平臺！其實大部分圖片開源數(shù)據(jù)集都是依靠數(shù)據(jù)爬蟲獲取然后進行整理的，所以爬蟲是你必須掌握的。

數(shù)據(jù)的整理與標(biāo)注

隨著各類基礎(chǔ)算法的成熟，決定模型能否上線的關(guān)鍵，很大程度上取決于數(shù)據(jù)的質(zhì)量以及數(shù)據(jù)是否被正確地使用！你和大廠差的往往并不是算法的先進性，而是數(shù)據(jù)的多少與使用方法！拿到數(shù)據(jù)之后怎么用，絕對是一個必須要好好思考的問題。舉一個簡單的例子，數(shù)據(jù)的來源是很廣泛的，不同類型數(shù)據(jù)的難度不一樣，我們在公開數(shù)據(jù)集中經(jīng)常會看到hard，medium，easy這樣的分級，而在我們的項目中，也是經(jīng)常需要這樣去進行分級的，不同類型的數(shù)據(jù)其實不能簡單地就混在一起使用，這個問題你有好好想過嗎？有真的去做了嗎？

沒有算法能取得百分之百的精度，我們往往是用簡單的數(shù)據(jù)先進行方案認證，中等難度的數(shù)據(jù)精度作為上線標(biāo)準(zhǔn)，而高難度的數(shù)據(jù)作為后續(xù)的技術(shù)攻關(guān)，不能因為無法解決一些超級難的案例而否定模型，數(shù)據(jù)的整理與使用絕對是非常需要工程經(jīng)驗的。

另外一方面，數(shù)據(jù)的標(biāo)注雖然不算是高技術(shù)壁壘的活兒，但如何提高效率，顯然也是值得重視的，相關(guān)的行業(yè)，可并不小！國內(nèi)有很多的數(shù)據(jù)標(biāo)注基地和公司，比如百度山西數(shù)據(jù)標(biāo)注基地。

自動化的標(biāo)注工具與平臺，也是一個非常重要的小方向，像NVIDIA和百度這樣的大公司，就從事相關(guān)的研究。

數(shù)據(jù)增強使用

數(shù)據(jù)增強方法的重要性，我想已經(jīng)無須再做過多的介紹了，因為做過算法落地、打過競賽的朋友一定深有體會！同樣的模型，因為數(shù)據(jù)使用方法的不同，精度可能天差地別；數(shù)據(jù)增強做得好，100張圖片也能浪；數(shù)據(jù)增強做不好，模型妥妥的過擬合；數(shù)據(jù)增強沒選對方法，模型上線肯定出問題。

數(shù)據(jù)增強方法眾多，從有監(jiān)督到無監(jiān)督，從單樣本到多樣本，從基于規(guī)則到自動化，是一個需要系統(tǒng)性掌握的領(lǐng)域。

再回過頭來看，你對數(shù)據(jù)的掌握，有多么熟練呢，平時做相關(guān)的工作時，花了多少心思重視數(shù)據(jù)相關(guān)的使用技巧呢？

如果覺得有所缺失，我們平臺推出了《深度學(xué)習(xí)之?dāng)?shù)據(jù)使用》的課程，主講老師為言有三，目標(biāo)是幫助大家掌握好深度學(xué)習(xí)中的數(shù)據(jù)使用，課程價格只有99，頂一頓火鍋。

本課程內(nèi)容包括數(shù)據(jù)的獲取，數(shù)據(jù)的整理，數(shù)據(jù)的標(biāo)注，數(shù)據(jù)增強，數(shù)據(jù)的分析等領(lǐng)域，覆蓋了深度學(xué)習(xí)中數(shù)據(jù)使用的各個方向，大綱如下：

詳細的課程內(nèi)容介紹，請點擊下圖跳至閱讀：

關(guān)于理解模型你應(yīng)該知道

深度學(xué)習(xí)模型使用的門檻雖然低，但模型參數(shù)多，網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜，模型結(jié)構(gòu)的設(shè)計以及訓(xùn)練過程中超參數(shù)的調(diào)試，都非常依賴于經(jīng)驗。結(jié)果不好，是數(shù)據(jù)的問題還是模型的問題，往往分析起來比較困難。如果是數(shù)據(jù)問題，那到底是什么問題？如果只憑經(jīng)驗，沒有很科學(xué)的分析工具，仍然會有盲人摸象的感覺。

提起模型，我們不能僅僅知道模型的名字和大小，那太粗淺了，先了解它，才能用好它！對模型進行相關(guān)的分析是非常重要的，至少有幾個方向需要掌握。

可視化分析

模型結(jié)構(gòu)的可視化是基本操作、我們不可能只依靠代碼去想象模型的拓撲結(jié)構(gòu)，各個網(wǎng)絡(luò)層的連接方式與參數(shù)細節(jié)配置，需要能夠隨時進行可視化，這樣方便我們了解模型調(diào)整時的變化。

模型的權(quán)重以及所學(xué)習(xí)到的特征，對于了解模型的內(nèi)在是必備技術(shù)。這樣我們就能知道模型到底學(xué)習(xí)到了什么特征，是不是我們期望的特征，從而不再僅僅將模型當(dāng)作是一個黑盒子來使用。

復(fù)雜度分析

深度學(xué)習(xí)模型很復(fù)雜，那到底有多復(fù)雜，用什么指標(biāo)來衡量，怎么計算，有什么工具可以使用呢？

怎么更精確地統(tǒng)計模型的速度，怎么分析模型的速度瓶頸在哪個地方從而進行后續(xù)的優(yōu)化，對優(yōu)化模型來說，這都是需要考慮的問題！這些你存儲了多少相關(guān)的技能呢？

如果覺得有所缺失，我們平臺推出了《深度學(xué)習(xí)之模型分析》的課程，主講老師為言有三，目標(biāo)是幫助大家掌握好深度學(xué)習(xí)模型分析的常用方法。課程價格只有99，頂一頓火鍋。

本課程包括模型分析的幾個重要方向的理論與實踐（基于Pytorch），大綱如下：

詳細的課程內(nèi)容介紹，請點擊下圖跳至閱讀：

尾記

萬丈高樓平地起，雖然現(xiàn)在的信息非常繁雜，我們平時在工作和學(xué)習(xí)過程中面臨著各種快速出結(jié)果的KPI，但是磨刀不誤砍柴工，只有基礎(chǔ)扎實，才能游刃有余！我們一直強調(diào)大家要系統(tǒng)性地掌握好知識，而不是練快刀，因為走捷徑式的領(lǐng)先，終將后繼乏力！

以上的兩門課程目前加起來一共6個多小時，屬于我們平臺最基礎(chǔ)最便宜的課程，在目前的每一個CV季劃大專欄中都會配置，就是希望大家無論做什么方向，都要掌握好這兩項基本技術(shù)。

其他相關(guān)的基礎(chǔ)課程，大家還可以關(guān)注CV基礎(chǔ)合集，包括《深度學(xué)習(xí)之圖像分類-理論實踐篇》，《深度學(xué)習(xí)之目標(biāo)檢測-理論實踐篇》，《深度學(xué)習(xí)之圖像分割-理論實踐篇》，共計50余小時，深度和寬度，都足夠讓大家修煉好內(nèi)功了。

詳細的課程內(nèi)容介紹，請點擊下圖跳至閱讀：

轉(zhuǎn)載文章請后臺聯(lián)系

侵權(quán)必究

往期精選

【視頻課】超全深度學(xué)習(xí)路線圖，有三AI所有免費與付費的視頻課程內(nèi)容匯總！

總結(jié)

以上是生活随笔為你收集整理的【杂谈】关于数据和模型，初学者极容易忽视的两个问题！的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【视频课】深度掌握模型剪枝+模型量化+知
下一篇：【视频课】模型剪枝+模型量化+知识蒸馏典