【杂谈】关于数据和模型,初学者极容易忽视的两个问题!
說起深度學習與CNN,想必大家很熟悉;說起計算機視覺中的目標檢測等各個方向,相比大家平時也接觸過不少東西了;不過有兩個小的方向,雖然相關的論文、項目、甚至研究方法都不多,卻是做研究與實際項目落地中非常重要的技術,那就是對數據使用方法的掌握與模型的理解,這是容易被大家忽視的問題,下面我們簡單說道說道。
關于數據你應該知道
大數據本來就是一個專門的學科,不過我們這里說的不是專指大數據,而是指在深度學習項目中數據的使用,至少有好幾個方向有非常多的內容值得掌握。
數據的獲取
數據是深度學習系統的糧食,當前的大部分工業落地模型,都依賴于大量數據進行學習,所以獲取是第一步!如果沒有超越百萬級圖片數量的ImageNet數據集的整理提出,深度學習計算機視覺算法的落地進程肯定會被推遲!
那ImageNet數據集從何而來!靠的就是數據爬蟲和在線的眾籌標注平臺!其實大部分圖片開源數據集都是依靠數據爬蟲獲取然后進行整理的,所以爬蟲是你必須掌握的。
數據的整理與標注
隨著各類基礎算法的成熟,決定模型能否上線的關鍵,很大程度上取決于數據的質量以及數據是否被正確地使用!你和大廠差的往往并不是算法的先進性,而是數據的多少與使用方法!拿到數據之后怎么用,絕對是一個必須要好好思考的問題。舉一個簡單的例子,數據的來源是很廣泛的,不同類型數據的難度不一樣,我們在公開數據集中經常會看到hard,medium,easy這樣的分級,而在我們的項目中,也是經常需要這樣去進行分級的,不同類型的數據其實不能簡單地就混在一起使用,這個問題你有好好想過嗎?有真的去做了嗎?
沒有算法能取得百分之百的精度,我們往往是用簡單的數據先進行方案認證,中等難度的數據精度作為上線標準,而高難度的數據作為后續的技術攻關,不能因為無法解決一些超級難的案例而否定模型,數據的整理與使用絕對是非常需要工程經驗的。
另外一方面,數據的標注雖然不算是高技術壁壘的活兒,但如何提高效率,顯然也是值得重視的,相關的行業,可并不小!國內有很多的數據標注基地和公司,比如百度山西數據標注基地。
自動化的標注工具與平臺,也是一個非常重要的小方向,像NVIDIA和百度這樣的大公司,就從事相關的研究。
數據增強使用
數據增強方法的重要性,我想已經無須再做過多的介紹了,因為做過算法落地、打過競賽的朋友一定深有體會!同樣的模型,因為數據使用方法的不同,精度可能天差地別;數據增強做得好,100張圖片也能浪;數據增強做不好,模型妥妥的過擬合;數據增強沒選對方法,模型上線肯定出問題。
數據增強方法眾多,從有監督到無監督,從單樣本到多樣本,從基于規則到自動化,是一個需要系統性掌握的領域。
再回過頭來看,你對數據的掌握,有多么熟練呢,平時做相關的工作時,花了多少心思重視數據相關的使用技巧呢?
如果覺得有所缺失,我們平臺推出了《深度學習之數據使用》的課程,主講老師為言有三,目標是幫助大家掌握好深度學習中的數據使用,課程價格只有99,頂一頓火鍋。
本課程內容包括數據的獲取,數據的整理,數據的標注,數據增強,數據的分析等領域,覆蓋了深度學習中數據使用的各個方向,大綱如下:
詳細的課程內容介紹,請點擊下圖跳至閱讀:
關于理解模型你應該知道
深度學習模型使用的門檻雖然低,但模型參數多,網絡結構復雜,模型結構的設計以及訓練過程中超參數的調試,都非常依賴于經驗。結果不好,是數據的問題還是模型的問題,往往分析起來比較困難。如果是數據問題,那到底是什么問題?如果只憑經驗,沒有很科學的分析工具,仍然會有盲人摸象的感覺。
提起模型,我們不能僅僅知道模型的名字和大小,那太粗淺了,先了解它,才能用好它!對模型進行相關的分析是非常重要的,至少有幾個方向需要掌握。
可視化分析
模型結構的可視化是基本操作、我們不可能只依靠代碼去想象模型的拓撲結構,各個網絡層的連接方式與參數細節配置,需要能夠隨時進行可視化,這樣方便我們了解模型調整時的變化。
模型的權重以及所學習到的特征,對于了解模型的內在是必備技術。這樣我們就能知道模型到底學習到了什么特征,是不是我們期望的特征,從而不再僅僅將模型當作是一個黑盒子來使用。
復雜度分析
深度學習模型很復雜,那到底有多復雜,用什么指標來衡量,怎么計算,有什么工具可以使用呢?
怎么更精確地統計模型的速度,怎么分析模型的速度瓶頸在哪個地方從而進行后續的優化,對優化模型來說,這都是需要考慮的問題!這些你存儲了多少相關的技能呢?
如果覺得有所缺失,我們平臺推出了《深度學習之模型分析》的課程,主講老師為言有三,目標是幫助大家掌握好深度學習模型分析的常用方法。課程價格只有99,頂一頓火鍋。
本課程包括模型分析的幾個重要方向的理論與實踐(基于Pytorch),大綱如下:
詳細的課程內容介紹,請點擊下圖跳至閱讀:
尾記
萬丈高樓平地起,雖然現在的信息非常繁雜,我們平時在工作和學習過程中面臨著各種快速出結果的KPI,但是磨刀不誤砍柴工,只有基礎扎實,才能游刃有余!我們一直強調大家要系統性地掌握好知識,而不是練快刀,因為走捷徑式的領先,終將后繼乏力!
以上的兩門課程目前加起來一共6個多小時,屬于我們平臺最基礎最便宜的課程,在目前的每一個CV季劃大專欄中都會配置,就是希望大家無論做什么方向,都要掌握好這兩項基本技術。
其他相關的基礎課程,大家還可以關注CV基礎合集,包括《深度學習之圖像分類-理論實踐篇》,《深度學習之目標檢測-理論實踐篇》,《深度學習之圖像分割-理論實踐篇》,共計50余小時,深度和寬度,都足夠讓大家修煉好內功了。
詳細的課程內容介紹,請點擊下圖跳至閱讀:
轉載文章請后臺聯系
侵權必究
往期精選
【視頻課】超全深度學習路線圖,有三AI所有免費與付費的視頻課程內容匯總!
總結
以上是生活随笔為你收集整理的【杂谈】关于数据和模型,初学者极容易忽视的两个问题!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【视频课】深度掌握模型剪枝+模型量化+知
- 下一篇: 【视频课】模型剪枝+模型量化+知识蒸馏典