爱可可推荐!关于竞赛思路,方法和代码实践,数据竞赛Baseline开源分享!
數據競賽中baseline是最入門的分享,
它不僅有思路、方法還有內容;
或許你與Top選手的差距就是一個baseline!
01
項目介紹
如果你是數據競賽的初學者、愛好者,比賽的baseline不僅是比賽思路分享,同時也是一類數據問題的方法總結。我們想做的就是收集并整理并分享各種比賽的baseline方案。
你可能會問為什么是baseline,而不是獲勝者的代碼分享?相比于獲勝者的代碼baseline代碼都比較簡單,容易整理和學習;其次baseline代碼更加實用和簡潔,適合入門學習。
https://www.kaggle.com/c/nfl-big-data-bowl-2020/
在每個Kaggle比賽中baseline分享一般都是最受大家歡迎的,也是點贊最多的kernel。比賽的baseline不僅能降低參賽的門檻,同時也能極大程度刺激選手的參賽熱情。
鑒于國內比賽平臺沒有類似的分享機制,于是我們(阿水和魚佬)在Datawhale計劃做一個國內的競賽baseline分享計劃,我們目標是做成國內最完整的競賽baseline和比賽案例分享項目。
我們的baseline開源項目初步構建完成:
https://github.com/datawhalechina/competition-baseline
02
項目內容
我們對國內外常見的數據競賽平臺進行整理:
國外競賽平臺:
Kaggle
DrivenData
Colalab
CrowdAI
Kelvins
Signate
analyticsvidhya
國內競賽平臺:
天池
點石
JData
DataCastle
DataFountain
Biendata
科賽
AI研習社
圖靈聯邦
AI Studio
FlyAI
我們還對國內比賽的baseline進行了全面的整理。為了幫助大家更好的學習,我們根據賽題的數據類型分為三類典型比賽:
結構化數據比賽:表格形式的賽題;
計算機視覺(CV)比賽:圖像類型的賽題;
自然語言處理(NLP)比賽:文本類型的賽題;
結構化數據比賽:
白葡萄酒品質預測
肌肉活動電信號推測手勢
肌肉活動電信號推測手勢
Retention Rate of Baidu Hao Kan APP Users
kaggle-two-sigma-connect-rental-listing-inquiries
kaggle-allstate-claims-severity
計算機視覺CV比賽:
胸腔X光肺炎檢測
CCF2019-視頻版權檢測算法
kaggle-quickdraw-doodle-recognition
TinyMind人民幣面值&冠字號編碼識別挑戰賽
自然語言處理NLP比賽:
智源&計算所-互聯網虛假新聞檢測挑戰賽
互聯網金融新實體發現
技術需求與技術成果項目之間關聯度計算模型
互聯網新聞情感分析
第三屆阿里云安全算法挑戰賽
03
項目協作
一個優秀的開源項目少不了大家的協作,我們也希望大家踴躍參與到項目的分享過程中,讓baseline幫助更多的人學習和成長。
為了讓大家更加合理有序的貢獻,我們初步制定了以下的協作機制:
代碼按照比賽的形式整理,寫明比賽網址、數據類型和解題賽題;
代碼注明運行的環境,機器最低配置,如:
操作系統:Linux,內存16G,
Python環境:Python2/3
Pytorch版本:0.4.0
baseline代碼只能提供可運行的代碼和思路,請不要提供直接可以提交的結果文件;
代碼提供者應對代碼版權和共享權負責;
項目地址,歡迎STAR
總結
以上是生活随笔為你收集整理的爱可可推荐!关于竞赛思路,方法和代码实践,数据竞赛Baseline开源分享!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 太强了!Kaggle竞赛宝典方案汇总
- 下一篇: 员外带你读论文:SeqGAN论文分享