當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

吴恩达发起新型竞赛范式！模型固定，只调数据？！

發布時間：2024/7/5 编程问答 45 豆豆

生活随笔收集整理的這篇文章主要介紹了吴恩达发起新型竞赛范式！模型固定，只调数据？！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文 | 小戲

打開 Kaggle ，琳瑯滿目的比賽讓人目不暇接，研究的領域更是五花八門，從農林牧漁到衣食住行，似乎只要有數據，不論數據好壞，就可以直接使用各種機器學習的模型在其身上大展拳腳，從邏輯回歸到 SVM，從決策樹到 XGBoost，換著模型套用在數據上重復實驗，最后再加上集成學習的方法就可以取得不錯的結果。

這樣的現狀往往讓人們產生一種錯覺，所謂 AI 其實質上指的就是那些基于復雜數學原理構造的不同模型，只要將這些模型的數學原理拿支筆細細推導一番，現實生活中的一切問題便都可以被這些模型所解決。

然而事實上，機器學習的算法代碼只是整個 AI 流水線中的小小一環，我們往往開玩笑的說道我們的工作 80% 都是在做數據預處理的工作，事實在某種程度上也確是如此，一個 AI 項目一般而言由四個步驟組成：項目分析——數據收集——模型訓練——項目部署。應用與改造各種模型的工作只存在于第三步，但現階段無論是研究還是比賽，往往都是給定一個數據集，讓研究員或參賽者不斷改進模型不斷迭代以達到預期的效果。而面對模型準確率的瓶頸，唯一的黃金法則卻只是增大數據的量級。

在這個背景下，近日，我們熟悉的吳恩達老師發起了一個以數據為中心的 AI 競賽（ Data-Centric AI competition ），區別于傳統的以模型為中心的比賽（ Model-Centric AI competition ）不斷改進模型以提升準確率的方法，這項比賽通過給定模型的方式，要求參賽者通過不斷改進數據以獲得更好的成績。

具體而言，這項比賽給予參賽者一個包含約 3000 張手寫羅馬數字 1-10 的圖像數據集，在使用 ResNet50 模型的基礎上，要求參賽者應用以數據為中心的方法對數據集進行改進以提升分類的準確率，其主要手段有應用數據增強、修復不正確的標簽、新增體現邊緣特征的樣本等等。

吳恩達老師指出，就目前來看，許多應用的模型與相應的代碼實現其實是一個已經被解決了的問題。但是與一套已經成熟的可以應用到工業界的算法體系相比，現在更加缺少的也許是一套成熟的構建工業化數據集的方法論。而另一方面，盡管增加數據是目前提升模型性能的不二法門，但是根據調查，大多數的現實應用的數據量級往往是集中在 10000 上下，在小規模數據的情況下，數據質量的重要性將會更加凸顯。

從一個簡單的小例子來看，當一個小數據集存在錯誤標簽時，模型很難給出一個正確的輸出，當增加數據量級時，錯誤標簽帶來的影響將會被削弱，模型有可能從大規模數據中得出正確的分類結果。但如果我們轉換思路，如果我們對小數據集的錯誤標簽進行處理，得到一個非常“干凈”的數據集，那么我們將同樣有可能得到正確的分類結果。

從某種意義上講，這種以數據為中心的方法的提出，完成了一次機器學習領域的“哥白尼倒轉”，過去我們會認為在研究與比賽中應該模型繞著數據轉，但現在一種數據繞著模型轉的方法未嘗不能以更有效率的方式做到同樣的事情。然而可惜的是，在目前關于如何取獲得“質量更好”而非“數量更多”的數據尚無一種統一的方法論去處理，甚至有質疑者如圖靈獎得主 Judea Pearl 教授認為在不知道什么是質量更好的數據的基礎上提升數據質量是不太現實的。但從某種程度上講，這也是吳恩達老師舉辦這場比賽的原因之一。

目前，吳恩達老師的思路集中在借鑒 MLOps(機器學習操作)的思維框架之上。MLOps 是將 DevOps 原則應用于機器學習系統開發過程的實踐，為縮短模型開發部署的迭代周期，MLOps 在一個機器學習系統從發布到規劃部署的全部階段應用自動化的流程連接模型構建、業務與運維團隊，從而使得企業更加高效的應用機器學習系統。

針對以數據為中心的任務，首先使用固定模型對數據進行訓練，針對結果進行錯誤分析，識別出模型處理不當的數據類型，再通過諸如數據增強、錯誤標簽修復等方法增強數據，再進入模型之中反復持續改進。吳恩達老師希望以數據為中心的方法結合新的 MLOps 工具可以使得機器學習系統的構建更具高效性與系統性，并最終形成一個貫穿整個 AI 生命周期的工具集合。

這項由 DeepLearning AI 和 Landing AI 之間的合辦的競賽一直持續到美國時間2021年9月4日下午6點（北京時間9月5日上午10點），有興趣的小伙伴可以注冊 CodaLab Worksheets 帳戶提交你所改進的數據集加入競賽排行榜，比賽將從整體表現與創新性兩個維度進行評分，兩項評分各自的前三名可以獲得與吳恩達老師一起參加活動并共同討論以數據為中心的方法的發展與未來的機會哦，以下是吳恩達老師的推特與競賽官方網址~

Twitter:
https://twitter.com/AndrewYNg/status/1405622853735649284
項目主頁:
https://https-deeplearning-ai.github.io/data-centric-comp/

萌屋作者：小戲

邊學語言學邊學NLP~

作品推薦

千呼萬喚始出來——GPT-3終于開源！

Linux 程序員失業警告

NLP哪個細分方向最具社會價值？

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

[1].Andrew Ng Launches A Campaign For Data-Centric AI
https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/

[2].MLOps: Continuous delivery and automation pipelines in machine learning
https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

[3]. A Chat with Andrew on MLOps: From Model-centric to Data-centric AI
https://www.youtube.com/watch?v=06-AZXmwHjo

總結

以上是生活随笔為你收集整理的吴恩达发起新型竞赛范式！模型固定，只调数据？！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：报名通道开启 | 顶会 ICLR 20
下一篇： OCR完整技术栈10天掌握！教程完全开源

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

吴恩达发起新型竞赛范式！模型固定，只调数据？！

[1].Andrew Ng Launches A Campaign For Data-Centric AI https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/

[2].MLOps: Continuous delivery and automation pipelines in machine learninghttps://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

[3]. A Chat with Andrew on MLOps: From Model-centric to Data-centric AIhttps://www.youtube.com/watch?v=06-AZXmwHjo

總結

[1].Andrew Ng Launches A Campaign For Data-Centric AI
https://www.forbes.com/sites/gilpress/2021/06/16/andrew-ng-launches-a-campaign-for-data-centric-ai/

[2].MLOps: Continuous delivery and automation pipelines in machine learning
https://cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

[3]. A Chat with Andrew on MLOps: From Model-centric to Data-centric AI
https://www.youtube.com/watch?v=06-AZXmwHjo