如何系统性掌握深度学习中的数据使用
數(shù)據(jù)是深度學習系統(tǒng)的輸入,對深度學習的發(fā)展起著至關重要的作用,但是又容易被很多人忽視,尤其是缺少實戰(zhàn)的理論派。
今天便來談談這個問題,同時介紹一個好的學習社區(qū)供大家討論與提升。
文/編輯 | 言有三?
1 需要掌握哪些內容
在公司實戰(zhàn)項目做久了的同學,應該都有這個感慨。吾本欲在算法領域大展拳腳,奈何清洗和增加數(shù)據(jù)就可以讓模型性能突飛猛進。我們確實會花費很多的時間去折騰數(shù)據(jù),總的來說包括:
(1) 獲取數(shù)據(jù)。
(2) 整理數(shù)據(jù)。
(3) 分析數(shù)據(jù)。
(4) 使用數(shù)據(jù)。
(5) 迭代數(shù)據(jù)。
所謂獲取數(shù)據(jù),包括公開數(shù)據(jù)集的搜索和下載,使用爬蟲等工具從零建立數(shù)據(jù)集。
所謂整理數(shù)據(jù),包括格式化,重命名,去重,標注等。
所謂分析數(shù)據(jù),包括數(shù)據(jù)的統(tǒng)計和可視化分析等。
所謂使用數(shù)據(jù),包括在開源框架中數(shù)據(jù)集的接口定義,數(shù)據(jù)增強策略的使用等。
所謂數(shù)據(jù)迭代,主要就是針對自己的任務不斷調整數(shù)據(jù)以優(yōu)化模型等。
2 有三AI已經做了什么
作為這么重要的一個課題,我們當然已經分享過很多的內容了,下面匯總一下。
2.1 數(shù)據(jù)獲取
關于數(shù)據(jù)獲取問題,我們給大家介紹過許多領域的數(shù)據(jù)集以及數(shù)據(jù)集對深度學習的影響,相關文章如下:
【技術綜述】一文道盡“人臉數(shù)據(jù)集”
【數(shù)據(jù)集】自動駕駛都有什么測試基準?
【數(shù)據(jù)集】一文道盡醫(yī)學圖像數(shù)據(jù)集與競賽
【數(shù)據(jù)】短視頻識別,都有那些行業(yè)標準?
【數(shù)據(jù)】深度學習從“數(shù)據(jù)集”開始
也多次介紹過爬蟲算法,推薦過不少好的項目,相關文章如下:
【雜談】深度學習必備,各路免費爬蟲一舉拿下
【AI白身境】學深度學習你不得不知的爬蟲基礎
2.2 數(shù)據(jù)整理
關于數(shù)據(jù)整理問題,我們在開源GitHub項目yousan.ai中提供了整套的python和shell腳本,覆蓋圖像遍歷,重命名,隨機打亂,去重等功能。
2.3?數(shù)據(jù)分析
關于數(shù)據(jù)分析問題,我們已經多次介紹過數(shù)據(jù)可視化相關的內容,相關文章如下:
【AI白身境】深度學習中的數(shù)據(jù)可視化
【技術綜述】“看透”神經網(wǎng)絡
2.4?數(shù)據(jù)使用
關于數(shù)據(jù)使用問題,我們已經在yousan.ai中對12個常用的深度學習開源項目如何從頭開始定義數(shù)據(jù)讀取和增強API進行了詳細的解讀,相關文章如下
【完結】給新手的12大深度學習開源框架快速入門項目
【技術綜述】深度學習中的數(shù)據(jù)增強方法都有哪些?
【開源框架】一文道盡主流開源框架中的數(shù)據(jù)增強
關于數(shù)據(jù)迭代,每一個領域的做法都不同,因此我們在公眾號還沒有相關內容,后續(xù)會在知識星球中針對具體的任務進行講解。
3 哪里有更多更新
以上就是全部了嗎?當然遠遠不是。有三在知識星球平臺有更多內容,覆蓋珍貴的數(shù)據(jù)集下載,相關經驗分享。
3.1 經驗分享
有一些非常干貨的內容,有三只會提供給咱們付費成員,比如數(shù)據(jù)增強的實戰(zhàn)經驗,以后還會有更多。
3.2 數(shù)據(jù)集分享和下載
在有三AI知識星球中會對各大領域中的數(shù)據(jù)集進行系統(tǒng)性介紹,另外為了方便大家收藏閱讀,有三將分享做成了卡片的形式,并提供了下載鏈接,案例如下:
有三AI知識星球-數(shù)據(jù)集
Distracted Driver Detection
Distracted Driver Detection是一個司機狀態(tài)檢測數(shù)據(jù)集,包含10個狀態(tài),共22425張圖 。
作者/編輯 言有三
數(shù)據(jù)集地址:https://www.kaggle.com/c/state-farm-distracted-driver-detection/data,發(fā)布于2016年。
每年很多的交通事故的發(fā)生都是因為司機沒有專注于自動駕駛,因此一個好的輔助駕駛系統(tǒng)不僅要關注車外的情況,也要時刻關注車內駕駛員的情況。
這一個數(shù)據(jù)集來自于Kaggle平臺,該包含了10種狀態(tài),如下:
c0: safe?driving
c1: texting - right
c2: talking on the phone - right
c3: texting - left
c4: talking on the phone - left
c5: operating the radio
c6: drinking
c7: reaching behind
c8: hair and makeup
c9: talking to passenger
一些樣本如下,每一類約2000多張圖像,共22425張圖。
現(xiàn)在咱們星球已經覆蓋非常多的重磅數(shù)據(jù)集下載,覆蓋大型數(shù)據(jù)集如ImageNet,人臉各個方向的數(shù)據(jù)集,自動駕駛各方向數(shù)據(jù)集,美學各方向數(shù)據(jù)集,人像各個方向數(shù)據(jù)集,3D數(shù)據(jù)集,動植物各個方向數(shù)據(jù)集,仔細瞧瞧,一定會有驚喜!
同時小伙伴們也會來經常分享自己的數(shù)據(jù)集,相信在大家的努力下,這里東西的價值無法想象。
預告一下,有三后面還會在星球內部搞比賽,提供自己標注的數(shù)據(jù)集,敬請期待。
4 最后要說的話
數(shù)據(jù)的使用的確是一門經驗活,很多的時候我們都卡在了這里,甚至連數(shù)據(jù)集的下載都搞不定。
因此,我們在有三AI知識星球中提供相關分享,更提供相關的經驗交流,如果真的需要,就加入有三AI知識星球,一起討論學習吧。
另外,數(shù)據(jù)集只是有三AI知識星球中的一個板塊,還有很多重磅,比如網(wǎng)絡結構設計:如何系統(tǒng)性掌握深度學習模型設計和優(yōu)化,相信你不會失望。
轉載文章請后臺聯(lián)系
侵權必究
有三AI知識星球官宣,BAT等大咖等你來撩
揭秘7大AI學習板塊,這個星球推薦你擁有
有三AI 1000問回歸,備戰(zhàn)秋招,更多,更快,更好,等你來戰(zhàn)!
【知識星球】做作業(yè)還能贏獎金,傳統(tǒng)圖像/機器學習/深度學習盡在不言
【知識星球】顏值,自拍,美學三大任務簡介和數(shù)據(jù)集下載
【知識星球】數(shù)據(jù)集板塊重磅發(fā)布,海量數(shù)據(jù)集介紹與下載
【知識星球】貓貓狗狗與深度學習那些事兒
【知識星球】超3萬字的網(wǎng)絡結構解讀,學習必備
【知識星球】視頻分類/行為識別網(wǎng)絡和數(shù)據(jù)集上新
【知識星球】3D網(wǎng)絡結構解讀系列上新
【知識星球】動態(tài)推理網(wǎng)絡結構上新,不是所有的網(wǎng)絡都是不變的
【知識星球】Attention網(wǎng)絡結構上新,聚焦才能贏
【知識星球】幾個人像分割數(shù)據(jù)集簡介和下載
【知識星球】總有些骨骼輕奇,姿態(tài)妖嬈的模型結構設計,不知道你知不知道,反正我知道一些
【知識星球】從SVM對偶問題,到疲勞駕駛檢測,到實用工業(yè)級別的模型壓縮技巧
總結
以上是生活随笔為你收集整理的如何系统性掌握深度学习中的数据使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图像分类】 基于Pytorch的细粒度
- 下一篇: 新手如何使用有三AI系统性跟读AI领域的