Competition——AI:国内外人工智能比赛平台以及竞赛类型、竞赛题目、举行时间等之详细攻略(最全+ing)
Competition——AI:國內外人工智能比賽平臺以及競賽類型、競賽題目、舉行時間等之詳細攻略(最全+ing)
tips
(1)、可以在各大比賽平臺指定的討論區,或者github網站上,找到歷屆選手的一些解題思路
(2)、多參與、多了解、多比較,會有更為廣闊的思路。
(3)、本博主已經帶領團隊參加過多個比賽項目,有想參加比賽的或者想組隊的,可以在評論區留下比賽鏈接以及個人想法。
相關內容
Competition——互聯網比賽(編程相關):國內外各種互聯網比賽舉辦時間、條件、細節等詳細攻略
Competition——AI:國內外人工智能比賽平臺以及競賽類型、競賽題目、舉行時間等之詳細攻略(最全+ing)
Competition——ML/DL:機器學習、深度學習各種計算機視覺、自然語言處理、科學預測等等比賽競賽簡介
?
?
?
目錄
綜合性的大平臺、社區
1、ILSVRC比賽?(Imagenet Large Scale Visual Recognition Challenge)
1.1、比賽評價標準
1.2、比賽的意義
2、DataCastle
3、AI Challenger 全球AI挑戰賽
4、科賽/kesci
細分平臺—國外
1、Kaggle
2、Topcoder
3、Challenge Data
4、crowdAI
5、SQuAD
6、Numer.ai
細分平臺—國內
1、天池大數據競賽
?
?
綜合性的大平臺、社區
1、ILSVRC比賽?(Imagenet Large Scale Visual Recognition Challenge)
? ? ? ??ILSVRC大賽最常用的就是ImageNet數據集,ILSVRC使用ImageNet的一個子集,總共有大約120萬個訓練圖像,50,000個驗證圖像,以及150,000個測試圖像;1000類別標記。
? ? ? ?該項目是一個用于視覺對象識別軟件研究的大型可視化數據庫。超過1400萬的圖像URL被ImageNet手動注釋,以指示圖片中的對象。在至少一百萬個圖像中,還提供了邊界框。ImageNet包含2萬多個類別,一個典型的類別,如“氣球”或“草莓”,包含數百個圖像。第三方圖像URL的注釋數據庫可以直接從ImageNet免費獲得。但是,實際的圖像不屬于ImageNet。
? ? ? ?自2010年以來,ImageNet項目每年舉辦一次軟件比賽,即ImageNet大規模視覺識別挑戰賽(ILSVRC),軟件程序競相正確分類和檢測物體和場景。 ImageNet挑戰使用了一個“修剪”的1000個非重疊類的列表。2012年在解決ImageNet挑戰方面取得了巨大的突破,被廣泛認為是深度學習革命的開始。
?? ? ??以2012 年為界,之后基于深度學習的方法一直居于首位。實際上,2012 年的AlexNet大幅降低了錯誤識別率。并且,此后基于深度學習的方法不斷在提升識別精度。特別是2015 年的ResNet(一個超過150 層的深度網絡)將錯誤識別率降低到了3.5%。據說這個結果甚至超過了普通人的識別能力。這些年深度學習取得了不斐的成績,其中VGG、GoogLeNet、ResNet已廣為人知,在與深度學習有關的各種場合都會遇到這些網絡。
? ? ? ?ILSVRC大賽有多個測試項目,其中之一是“類別分類”(classification),在該項目中,會進行1000 個類別的分類,比試識別精度。來看一下最近幾年的ILSVRC大賽的類別分類項目的結果。
? ? ? ? ? ? ? ? ?ILSCRV優勝隊伍的成績演變:豎軸是錯誤識別率,橫軸是年份。橫軸的括號內是隊伍名或者方法名
1.1、比賽評價標準
分類:
- top-5 error —> make 5 guesses about the image label
- top-1 error —> make 1 guess about the image label?
?
1.2、比賽的意義
? ? ? ?AlexNet在ILSVRC2012圖像分類競賽第一名,將top-5錯誤率降至16.4%,標志著深度學習革命的開始,掀起了深度卷積神經網絡在各個領域的研究熱潮。?
相關內容:
Dataset之ImageNet:ImageNet數據集簡介、安裝、使用方法之詳細攻略
Competition——ML/DL:機器學習、深度學習各種計算機視覺、自然語言處理、科學預測等等比賽競賽簡介
?
2、DataCastle
DataCastle官網:http://www.pkbigdata.com/common/cmptIndex.html
? ? ? ?DataCastle數據chen城堡,一個專業的數據科學學習社區,它提供優質的學習資源和數據比賽,幫助用戶成為頂尖的數據科學家。這個競賽定位于大數據領域的技術與創意競賽,賽題源于社會熱點問題和企業實際需求,通過競技的方式集結群體智慧為企業和組織提供科學優秀解決方案。
? ? ? ?總的來說,相較于天池,DataCastle更多元、更親民,同樣的,它的獎金和含金量也會更低一些。但對于普通機器學習愛好者而言,這也是個訓練自己實踐能力、積累數據工作經驗、參與競爭的靠譜選擇。
3、AI Challenger 全球AI挑戰賽
AI Challenger官網:https://challenger.ai/
? ? ? ?AI Challenger 全球AI挑戰賽”是面向全球人工智能人才的開源數據集和編程競賽平臺,致力于滿足AI人才成長對高質量豐富數據集的需求,推動AI在科研與商業領域結合來解決真實世界的問題。AI Challenger以服務、培養AI人才為使命,打造良性可持續的AI科研與應用新生態。 在2017年的首屆大賽中,AI Challenger發布了從百萬到千萬量級的4個數據集、6個兼具學術前沿性和產業應用價值的競賽、以及超過200萬人民幣的獎金,吸引了來自全球65個國家的8892支團隊參賽,成為目前國內規模最大的科研數據集平臺、以及最大的非商業化競賽平臺。
? ? ?AI Challenger 2018由創新工場、搜狗、美團點評、美圖聯合主辦,引入了更多企業、大學、政府機構,帶來十余個全新的不同領域數據集,十余個兼具科研、產業應用、社會意義的競賽,超過300萬人民幣的獎金,還將走進國內外幾十個城市的大學舉辦技術論壇。世界各地的AI人才匯集在AI Challenger平臺上,用AI挑戰真實世界的問題
4、科賽/kesci
科賽/kesci:https://www.kesci.com
? ? ? ? Kesci 科賽 ?是一個開放的數據科學社區。 ?你可以 ?學習探索、交流分享、能力變現、發布任務。
?
?
?
細分平臺—國外
1、Kaggle
Kaggle官網:Kaggle is the place to do data science projects
? ? Kaggle是當前世界上最為流行的,采用眾包(Crowdsouring)策略,為科技公司、研究院所乃至高校課程提供數據分析與預測模型的競賽平臺。該平臺成立于2010年4月,由現任CEC的Anthony Goldboom等人創立。公司總部設在美國加州舊金山市。
? ? Kaggle平臺設立的宗旨在于:匯聚全世界從事數據分析與預測的專家以及興趣愛好者的集體智慧,利用公開數據競賽的方式,為科技公司、研究院所和高校課程中的研發課題,提供有效的解決方案。這一初衷使得問題提出者與解決者獲得了雙贏。? ? ? ??
? ? Google旗下的數據科學競賽平臺。Kaggle是由聯合創始人、首席執行官安東尼·高德布盧姆(Anthony Goldbloom)2010年在墨爾本創立的,主要為開發商和數據科學家提供舉辦機器學習競賽、托管數據庫、編寫和分享代碼的平臺。該平臺已經吸引了80萬名數據科學家的關注,這些用戶資源或許正是吸引谷歌的主要因素。
? ? ? ?Kaggle是全球知名的大數據競賽平臺,它一開始以Data Mining比賽起家,但隨著機器學習熱度的不斷上升,CV、NLP等機器學習項目在Kaggle上所占的比重越來越大,它也因此被視為是ML愛好者的一個主要學習交流社區。
(1)、Kenerls當中有大量供大家學習的代碼。
1、比賽評估指標:kaggle 各種評價指標——Error Metrics
https://www.kaggle.com/competitions
2、三個長期在Kaggle平臺上掛載的實踐任務,
- 4.2、Titanic罹難難乘客預測;https://www.kaggle.com/c/titanic
- 4.3、IMDB影評得分估計;
- 4.4、MNIST手寫體數字圖片識別;
相關文章:Competition—Kaggle:通過幾個比賽案例來了解如何在Kaggle上進行比賽之詳細攻略
?
2、Topcoder
Topcoder官網:ESIGN & BUILD HIGH-QUALITY SOFTWARE WITH CROWDSOURCING
? ? ? ?TopCoder是一個比較經典的算法競賽,它在世界上和ACM、Google Code Jam并稱為三大賽,因為它把中國納入自己的賽區,所以幾年前許多程序員會熱衷于在上面參加一些程序設計比賽。隨著數據科學的流行,現在TopCoder上也出現了不少機器學習方向的競賽項目。
? ? ? ?這個網站可以說是一個程序設計比賽的網站,但是題型,比賽形式跟ACM/ICPC極不相同。該網站把中國納入其賽區,大家可以上去那里跟來自全世界的程序員(事實上大多數也是大學生)進行更直接的交流,可能也是ACM/ICPC練兵的好地方吧。TopCoder是一個面向平面設計師和程序員的網站,它采用比賽、評分、支酬等方式吸引眾多平面設計師和程序員業余工作。由于其主要領域在編程工作上。
? ? ? ?網站每個月都有兩到三次在線比賽,根據比賽的結果對參賽者進行新的排名。參賽者可根據自己的愛好選用Java, C++, C#, VB或python進行編程。參賽者須在1小時15分鐘的時間內完成三道不同難度的題目,每道題完成的時間決定該題在編程部分所得的分數。而比賽可分為三部分:Coding Phase, Challenge Phase和System Test Phase,比ACM/ICPC多了Challenge Phase,這部分是讓參賽者瀏覽分配在同一房間的其他參賽者的源代碼,然后設法找出其中錯誤,并提出一個測試參數使其不能通過測試。如果某參賽者的程序不能通過別人或系統的測試,則該參賽者在此題目的得分將為0。關于其比賽的具體規則,詳看該網站上的公告。以上信息主要針對TopCoder公司舉辦的算法競賽部分,而實際上遠不只于此。
? ? ? ? 以2016年哈佛大學人群創新實驗室的“防止大規模暴行”項目為例。該競賽題的獎金為15000美元,要求參賽者在數據基礎上建立模型,預測人群中的可疑暴亂分子,幫助相關人員在正確的時間和地點拯救生命、給予人道主義援助。早在2013年,哈佛曾在TopCoder上發布過一次同樣主題的算法競賽,效果喜人,而這一屆的冠軍算法在預測準確率上較上次提高了62%。
?? ? ? ?值得注意的是,因為TopCoder是一個眾包平臺,成績優秀的團隊可能會得到企業的眾包工作,而擁有這樣的經歷將有助于個人、學生的未來就業。
3、Challenge Data
Challenge Data官網:https://challengedata.ens.fr/en/home
- Machine learning challenges for teaching and research in data science. Supervised classification or regression problems, organized as competitions. Data provided by start-ups, innovative companies, medical centers and scientific experiments.
- Promotes a free exchange of data and algorithmic knowledge, for education, science, industrial, social and medical applications.
? ? ?Challenge Data是由巴黎高師(ENS)主持的數據科學競賽,它主要面向歐洲地區,支持英語和法語。由于巴黎高師在數學領域的一貫堅持,目前它的競賽方向偏重監督、分類和回歸問題。同時也因為各類數據來自創業公司、創新公司、醫療中心、科學實驗室,Challenge Data的競賽題更注重實際應用。考慮到歐洲,尤其是法國正成為人工智能研究的又一個學術中心,所以Challenge Data可以作為有志于去歐洲發展的同學的另一個選擇。新一期的Challenge Data競賽時限是2017年11月16日至2018年12月27日,從官網爬取了一些題目,列在下方以供感興趣讀者挑選:
- 通過預測玻璃形成液體的動力學原理來解決主要的物理問題
- 幫助ENGIE改進風力發電生產
- Oze-Energies:通過統計學習預測能源消耗
- 名人臉部識別挑戰
- 殘留石油飽和度預測
- 交易索賠狀態預測
- 金融市場的波動性預測
4、crowdAI
crowdAI官網:https://www.crowdai.org/
? ? ? crowdAI是一個面向數據科學專家和愛好者的競賽平臺,它上面的競賽項目集中于幾個特定問題,屬于接近現實應用的學術研究,且都是當前熱點。值得一提的是,一些機器學習頂級會議會在crowdAI上發布官方賽題,如去年斯坦福大學那篇長得驚人的Learning to Run論文就出自該平臺。
? ? ? ?當時該項目對頂級參賽者的獎勵是受邀在NIPS 2017上發表論文、報銷參會費用及參加瑞士EPFL機器學習日(Applied Machine Learning Days)的費用,因此這個平臺也非常適合想參與頂會或發表有學術價值的論文的在校學生入駐。
? ? ? 目前crowdAI上有兩個項目,一個是用AI生成音樂,距離截止時間還有300天;另一個則是用機器學習修復缺失地圖。這不經讓人聯想到去年計算機視覺領域一個廣受關注的研究——圖像修復,論智早前曾介紹過日本早稻田大學的相關研究:日本研究人員利用神經網絡完美重現缺失的圖像。相信這次的地圖補全能吸引大量參賽者共同競爭。
5、SQuAD
SQuAD官網:https://rajpurkar.github.io/SQuAD-explorer/
? ? ? SQuAD介紹了幾個國外的面向學生的競賽平臺,我們來看看專業性較強的比賽。
? ? ? SQuAD全稱Stanford Question Answering Dataset,這是斯坦福大學發起的機器閱讀理解(reading comprehension)領域的頂級賽事,被譽為機器閱讀理解界的ImageNet,吸引了包括谷歌、卡內基·梅隆大學、斯坦福大學、微軟亞洲研究院、艾倫研究院、IBM、Facebook等知名企業研究機構和高校深度參與。
? ? ? 它同時也是一個大型閱讀理解數據集,收錄了來自維基百科的500多篇文章,以及答案為文章內容(字詞、段落)的10萬個問題。在SQuAD中,各機構的NLP模型需要閱讀文章并給出相關問題的標準答案,得出的答案以精確匹配(Exact Match)和模糊匹配(F1-score)兩個標準進行評分,之后再和人類水平對比。
? ? ? 自今年1月初阿里巴巴和微軟團隊先后在EM評分上打破人類記錄后,2個月過去了,整個榜單又經歷了一輪洗牌。不過令人鼓舞的是,國內的研究團隊在機器閱讀理解領域碩果累累,整體水平也在排名上處于領先位置。以下是論智整理的榜單上的部分國內機構:
| 1 | Hybrid AoA Reader (ensemble) | 哈工大訊飛聯合實驗室 |
| 1 | Reinforced Mnemonic Reader + A2D (ensemble model) | 微軟亞洲研究院 & 國防科技大學 |
| 2 | Reinforced Mnemonic Reader (ensemble model) | 國防科技大學 & 復旦大學 |
| 2 | SLQA+ (ensemble) | 阿里巴巴iDST-NLP |
| 3 | AttentionReader+ (ensemble) | 騰訊文智自然語言處理 |
| 4 | Reinforced Mnemonic Reader + A2D (single model) | 微軟亞洲研究院 & 國防科技大學 |
| 5 | MARS (single model) | 猿輔導NLP研究團隊 |
6、Numer.ai
Numer.ai官網:https://numer.ai/
? ? ? ?一個不會同態加密、模型融合、區塊鏈技術的機器學習競賽網站不是一個好的對沖基金。
? ? ? ?如果你沒有聽說過Numer.ai,沒關系,但是如果你是沖著比賽獎金去的,那你必須知道它是現在最有“錢途”的機器學習競賽平臺——Numer.ai有個別稱:金融市場的Kaggle。
? ? ? 我們都知道,Kaggle的可貴之處在于它是開源的,在上面學生可以使用大學課堂里從未接觸過的大型數據集。數據集越大,模型準確率越高,性能也越可靠。但就在其他領域都在積極倡導建立超大型數據集時,對數據分析有極大需求的金融領域卻沒有任何聲響——每天全球只有極少數數據科學家能訪問數量可觀的金融數據。為什么?因為市場的利益交換來自信息不對稱,因此獲取數據也成了橫在普通數據科學家面前的最高門檻。
? ? ? Numer.ai是一個可以向參賽者開放大量加密數據的競賽,當然,這個開放要加引號,因為這些數據事實上都是經過同臺加密處理的,也就是數據科學家根本不知道它們究竟是什么。大家要做的就是在一堆不明含義的數值型數據或分類型數據上構建模型,參與排名,并瓜分獎金。
? ? ?為了激勵數據科學家參與競賽,Numer.ai在除了發放現金鼓勵外,還推出了一種名為Numeraire的虛擬貨幣。模型越好,參與者獲得的Numeraire就越多;相反地,如果“后浪”把“前浪”拍死在了沙灘上,參與者已有的Numeraire會被銷毀。這種虛擬貨幣與對沖基金掛鉤,基金賺的多,Numeraire分紅也越高。因為基金模型是所有模型結合在一起的產物,因此這從本質上來說就是數據科學家之間的做大餅、分蛋糕。
?
細分平臺—國內
1、天池大數據競賽
天池大數據競賽官網:https://tianchi.aliyun.com/competition/gameList.htm
? ? ? ?阿里旗下天池大數據競賽。DataCastle(以下簡稱DC)是中國最大的數據科學競賽平臺,致力于通過最優秀的數據科學家的力量解決復雜的大數據問題。通過來自不同行業、各種規模的公司/組織在平臺上發布數據及問題,以眾包的方式,獲得科學的最優的數據結果和解決方案。DC擁有來自全國各地的高校學子、大數據領域研究學者、企業技術精英, 為不同的行業、各種規模的公司與組織提供科學的最優的數據結果及解決方案。
? ? ? ?天池大數據競賽是由阿里巴巴集團主辦,面向全球科研工作者的高端算法競賽。它背靠阿里云,數據量龐大且質量過硬,再加上提供分布式計算平臺,對參賽者非常友好,高校學生是其主要吸引群體。競賽的場景圍繞電商、互聯網金融、大數據營銷等真實業務展開,應用性能強,但考慮到用的是官方平臺,參賽者的自由發揮空間會受限制。
? ? ? ?現在官網上獎金最高的是阿里巴巴“圖像和美”團隊聯合香港理工大學紡織與制衣系共同舉辦“2018 FashionAI全球挑戰賽”,分服飾關鍵點定位和服飾屬性標簽識別兩場,每場獎金池內有134萬RMB。另外正在進行中的“阿里媽媽搜索廣告轉化預測”和“印象鹽城·數創未來大數據競賽 - 乘用車零售量預測”也吸引了大量參賽者。天池競賽的火爆程度可見一斑,但反過來看,參賽者的競爭壓力也會非常驚人。
?
2、
?
3、
?
4、
?
總結
以上是生活随笔為你收集整理的Competition——AI:国内外人工智能比赛平台以及竞赛类型、竞赛题目、举行时间等之详细攻略(最全+ing)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HighNewTech之Job:关于人工
- 下一篇: Py之skflow:skflow的简介、