【数据竞赛】一文看懂CCF BDCI 2020赛题任务与解析
賽事介紹
CCF BDCI大賽已成功舉辦七屆,參賽規模與影響力逐年提升,累計吸引到來自全球25個國家、1500余所高校、1800家企事業單位及80余所科研機構的9萬余人參與,有100多所高校將賽題作為大作業及畢業設計選題,利用優質賽題輔助教學實踐。
賽事鏈接:https://www.datafountain.cn/special/BDCI2020
時間軸:
2020/10/13-2020/12/06 初賽,
2020/12/07-18 資格審核
2020/12/下旬 大賽決賽,頒獎典禮
賽題介紹
1 遙感影像地塊分割
https://www.datafountain.cn/competitions/475
出題單位:百度
賽題獎金:¥ 10萬
技術方向:計算機視覺、語義分割
賽題難度:中等,限制使用框架;
賽題介紹:
遙感影像地塊分割, 旨在對遙感影像進行像素級內容解析,對遙感影像中感興趣的類別進行提取和分類,在城鄉規劃、防汛救災等領域具有很高的實用價值。現有的遙感影像地塊分割數據處理方法局限于特定的場景和特定的數據來源,且精度無法滿足需求。
本次大賽旨在利用人工智能技術,對多來源、多場景的異構遙感影像數據進行充分挖掘,打造高效、實用的算法,提高遙感影像的分析提取能力。
參賽者在規定時間內須使用深度學習平臺飛槳進行模型的設計、訓練和預測,不得使用其他相關平臺、框架及任何飛槳中未包含的學習方法參賽
賽題任務:本次評測旨在衡量遙感影像地塊分割模型在多個類別上的效果,具體包括建筑、耕地、林地、水體、道路、草地和其他等7個類別。在復賽階段,結合遙感的真實應用場景,我們設置了更具有挑戰性的評測標準。
2 openLooKeng性能優化
https://www.datafountain.cn/competitions/476
出題單位:華為
賽題獎金:¥ 5萬
技術方向:性能優化
賽題難度:較難;
賽題介紹:openLooKeng是一款開源的高性能數據虛擬化引擎,提供統一SQL接口,為大數據用戶提供極簡的數據分析體驗,讓用戶像使用“數據庫”一樣使用“大數據”。因此,openLooKeng極致性能是十分重要的一個維度,也是openLooKeng社區一直以來所追求的目標。
賽題任務:參賽選手基于openLooKeng社區所提供的比賽分支,進行openLooKeng的代碼優化,以提升openLooKeng對接hive數據源(文件使用ORC格式)的執行效率。組委會提供benchmark工具集(包括SQL語句等)供選手進行測試。在比賽階段,選手將最終優化過的openLooKeng代碼進行提交,組委會會使用相同的benchmark工具集進行評測以及排名。
3 大規模圖數據中kmax-truss問題的求解和算法優化
https://www.datafountain.cn/competitions/473
出題單位:華中科技大學服務計算技術與系統教育部重點實驗室
賽題獎金:¥ 5萬
技術方向:性能優化
賽題難度:較難;
賽題介紹:大數據時代,隨著圖數據規模的不斷擴大,對大型圖進行分析處理的成本越來越高,因此研究人員經常通過分析大型圖中的稠密子圖來獲得大型圖的主要特征。團(clique)是一種典型的稠密子圖結構,它要求子圖中任一頂點都和剩余所有頂點相鄰(用無向邊連接)。
賽題任務:輸入,無向圖G=<V, E>。其中V代表頂點集合,E代表邊集合。輸出,圖G的最大k值,即kmax;以及kmax-truss子圖中邊的條數。參賽者需要在給定服務器平臺和給定數據集上實現求解kmax-truss問題的算法,并對算法進行優化以減少計算時間。
4 基于大數據的互聯網虛擬身份歸一處理性能優化
https://www.datafountain.cn/competitions/464
出題單位:銳安科技
賽題獎金:¥ 5萬
技術方向:性能優化
賽題難度:中等;
賽題介紹:與現實社會不同的是,用戶可以通過網絡虛擬身份而非真實身份實現所有的網絡行為,網民擁有的網絡虛擬身份組成了一個巨大的虛擬網絡社區,社區中的虛擬身份可能有著直接或者間接的關系。
賽題任務:參賽者采用統計學理論方法、數據挖掘中的關聯分析、圖論相關算法完成虛擬身份歸一化。
5 房產行業聊天問答匹配
https://www.datafountain.cn/competitions/474
出題單位:貝殼找房
賽題獎金:¥ 10萬
技術方向:文本分類
賽題難度:中等;
賽題介紹:在幫助客戶實現更美好的居住過程中,客戶會和服務者(房產經紀人)反復深入交流對居住的要求,這個交流發生在貝殼APP上的IM中。
賽題任務:本次賽題的任務是:給定IM交流片段,片段包含一個客戶問題以及隨后的經紀人若干IM消息,從這些隨后的經紀人消息中找出一個是對客戶問題的回答。
6 千言:多技能對話
https://www.datafountain.cn/competitions/470
出題單位:百度
賽題獎金:¥ 5萬
技術方向:對話系統
賽題難度:較高
賽題介紹:開放域對話技術旨在建立一個開放域的多輪對話系統,使得機器可以流暢自然地與人進行語言交互,既可以進行日常問候類的閑聊,又可以完成特定功能,以使得開放域對話技術具有實際應用價值。
賽題任務:本次評測的開放域對話數據集包含多個數據,涵蓋了多個功能場景:包括日常閑聊對話,知識對話、推薦對話等。我們旨在衡量開放域對話模型在各個不同技能上的效果和模型通用性。
7 大數據時代的Serverless工作負載預測
https://www.datafountain.cn/competitions/468
出題單位:華為
賽題獎金:¥ 5萬
技術方向:回歸預測
賽題難度:中等
賽題介紹:云計算時代,Serverless軟件架構可根據業務工作負載進行彈性資源調整,這種方式可以有效減少資源在空閑期的浪費以及在繁忙期的業務過載,同時給用戶帶來極致的性價比服務。在彈性資源調度的背后,對工作負載的預測是一個重要環節。如何快速感知業務的坡峰波谷,是一個實用的Serverless服務應該考慮的問題。
賽題任務:傳統的資源控制系統以閾值為決策依據,只關注當前監控點的取值,缺少對歷史數據以及工作負載趨勢的把控,不能提前做好資源的調整,具有很長的滯后性。近年來,隨著企業不斷上云,云環境的工作負載預測成為一個經典且極具挑戰的難題。
8 小學數學應用題自動解題
https://www.datafountain.cn/competitions/467
出題單位:題拍拍
賽題獎金:¥ 5萬
技術方向:知識挖掘、NLP
賽題難度:中等
賽題介紹:閱讀理解是近年來NLU的一個常見任務,通常要求在大段文本中理解關鍵信息。由于很多關鍵信息直接來源于文本的關鍵句子,所以很難衡量模型本身的”理解能力“,而機器對內容的理解是衡量AI在教育領域發展的一個重要依據。應用題包含簡單的文字表述,相對密集的推理和計算,是評估機器閱讀理解能力的一個重要場景。
賽題任務:該任務是為了衡量現有機器學習模型在應用題理解方面的能力,模型讀入一個應用題,輸出該題的結果。為了降低任務的難度,賽題選擇小學數學1-6年級校內題目。
9 路況狀態時空預測
https://www.datafountain.cn/competitions/466
出題單位:滴滴出行
賽題獎金:¥ 5萬
技術方向:流量預測
賽題難度:中等
賽題介紹:移動互聯網時代的到來讓所有移動設備的持有者都可以成為道路通行能力的描繪者, 滴滴平臺收集了海量的高質量司乘軌跡數據, 可以對實時道路擁堵狀況有良好的建模能力。此次競賽誠邀參賽者基于滴滴提供的實時與歷史路況狀態信息以及道路屬性等信息, 精準預估未來某時間段內的路況狀態, 助力城市規劃與智能出行方案。
賽題任務:根據滴滴提供的道路小段的實時和歷史路況狀態特征, 道路基本屬性以及路網拓撲關系圖, 預測未來一段時間內道路小段的路況狀態(即暢通, 緩行和擁堵幾類狀態)。
10 面向數據安全治理的數據內容智能發現與分級分類
https://www.datafountain.cn/competitions/471
出題單位:明朝萬達
賽題獎金:¥ 5萬
技術方向:文本分類
賽題難度:較低
賽題介紹:隨著企業信息化水平的不斷提高,數據共享與開放對企業發展的作用日益凸顯,數據已成為重要生產要素之一,為了有效、規范保護企業敏感數據,其首要問題是對數據進行分級分類,以識別敏感數據,從而進一步圍繞保護對象的全生命周期進行開放、動態的數據安全治理,解決數據開放共享與數據隱私保護的矛盾與統一。
賽題任務:識別樣本中的敏感數據,構建基于敏感數據本體的分級分類模型,判斷數據所屬的類別以及級別。
11 企業非法集資風險預測
https://www.datafountain.cn/competitions/469
出題單位:中國科大智慧城市研究院
賽題獎金:¥ 5萬
技術方向:評分預測
賽題難度:較低
賽題介紹:非法集資嚴重干擾了正常的經濟、金融秩序,使參與者遭受經濟損失,甚至生活陷入困境,極易引發社會不穩定和大量社會治安問題,甚至引發局部地區的社會動蕩。如何根據大量的企業信息建立預測模型并判斷企業是否存在非法集資風險,對監管部門、企業合作伙伴、投資者都具有一定的價值。
賽題任務:利用機器學習、深度學習等方法訓練一個預測模型,該模型可學習企業的相關信息,以預測企業是否存在非法集資風險。賽題的難點在于數據集包括大量的企業相關信息,如何從中提取有效的特征并進行風險預測成為本賽題的關鍵問題。
12 非結構化商業文本信息中隱私信息識別
https://www.datafountain.cn/competitions/472
出題單位:明略科技
賽題獎金:¥ 2萬
技術方向:關系抽取
賽題難度:中等
賽題介紹:網絡中存在大量包含隱私數據的文本信息,如何在非結構化的本文信息中精準識別隱私數據成為隱私保護領域中亟需解決的問題。本賽題將針對非結構化的本文信息進行分析,對文本中所涉及到的隱私信息精準提取。
賽題任務:本賽題要求參賽者從提供的非結構化商業文本信息中識別出文本中所涉及到的隱私數據,包括但不限于:(1)公司或個人基本信息:賬號、姓名、聯系方式、地址等;(2)商業秘密:制造方法、工藝流程、產品名稱、專利名稱等。
我們已經為大家整理了6個比賽的baseline,供大家學習~
https://github.com/datawhalechina/competition-baseline
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:
https://t.zsxq.com/y7uvZF6
本站qq群704220115。
加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【数据竞赛】一文看懂CCF BDCI 2020赛题任务与解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【NLP】情感分析实战:金融市场中的NL
- 下一篇: 阿里大神的刷题笔记.pdf