滴滴数据挖掘竞赛题目
生活随笔
收集整理的這篇文章主要介紹了
滴滴数据挖掘竞赛题目
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
賽題詳情
在出行問題上,中國(guó)市場(chǎng)人數(shù)多、人口密度大,總體的出行頻率遠(yuǎn)高于其他國(guó)家,這種情況在大城市尤為明顯。然而,截至目前中國(guó)擁有汽車的人口只有不到10%,這意味著在中國(guó)人們的出行更加依賴于出租車、公共交通等市場(chǎng)提供的服務(wù)。另一方面,滴滴出行占領(lǐng)了國(guó)內(nèi)絕大部分的網(wǎng)絡(luò)呼叫出行市場(chǎng),面對(duì)著巨大的數(shù)據(jù)量以及與日俱增的數(shù)據(jù)處理需求。截至目前,滴滴出行平臺(tái)日均需處理1100萬訂單,需要分析的數(shù)據(jù)量達(dá)到50TB,路徑規(guī)劃服務(wù)請(qǐng)求超過90億。面對(duì)如此龐雜的數(shù)據(jù),我們需要通過不斷升級(jí)、完善與創(chuàng)新背后的云計(jì)算與大數(shù)據(jù)技術(shù),從而保證數(shù)據(jù)分析及相關(guān)應(yīng)用的穩(wěn)定,實(shí)現(xiàn)高頻出行下的運(yùn)力均衡。供需預(yù)測(cè)就是其中的一個(gè)關(guān)鍵問題。供需預(yù)測(cè)的目標(biāo)是準(zhǔn)確預(yù)測(cè)出給定地理區(qū)域在未來某個(gè)時(shí)間段的出行需求量及需求滿足量。調(diào)研發(fā)現(xiàn),同一地區(qū)不同時(shí)間段的訂單密度是不一樣的,例如大型居住區(qū)在早高峰時(shí)段的出行需求比較旺盛,而商務(wù)區(qū)則在晚高峰時(shí)段的出行需求比較旺盛。如果能預(yù)測(cè)到在未來的一段時(shí)間內(nèi)某些地區(qū)的出行需求量比較大,就可以提前對(duì)營(yíng)運(yùn)車輛提供一些引導(dǎo),指向性地提高部分地區(qū)的運(yùn)力,從而提升乘客的整體出行體驗(yàn)。| training_set.tar.gz | .tar.gz(600MB) | 下載數(shù)據(jù) |
| test_set.tar.gz | .tar.gz | 下載數(shù)據(jù) |
定義及評(píng)估標(biāo)準(zhǔn)
1. 問題定義將一個(gè)城市劃分為n個(gè)互不重疊的正方形區(qū)域D={d1,d2,?,dn?},將每一天的24小時(shí)劃分為144個(gè)10分鐘長(zhǎng)的時(shí)間片t1,t2,?,t144。
對(duì)于區(qū)域di,在時(shí)間片tj,有rij個(gè)乘客發(fā)單,有aij個(gè)司機(jī)成功應(yīng)答了aij次發(fā)單。
對(duì)于區(qū)域di,在時(shí)間片tj,定義需求demandij=rij,供給supplyij=aij,則有供需缺口gapij:gapij?=?rij?-?aij
給定每個(gè)區(qū)域在時(shí)間片tj,tj-1...的各項(xiàng)數(shù)據(jù),預(yù)測(cè)gapi,j+1, ?di∈D。
以MAE作為最終的評(píng)價(jià)指標(biāo):MAE越小越好。
| 區(qū)域ID | string | 1,2,3,4 (與區(qū)域映射ID一致) |
| 時(shí)間片 | string | 2016-01-23-1(即2016年1月23日第1個(gè)時(shí)間片,時(shí)間片是將每天的時(shí)間按10分鐘間隔劃分到1-144個(gè)片中) |
| 預(yù)測(cè)值 | double | 6.0 |
數(shù)據(jù)形式
訓(xùn)練集中給出M市2016年連續(xù)三周的數(shù)據(jù)信息,需預(yù)測(cè)M市第四周和第五周中某五天的某些時(shí)間段的供需。測(cè)試集中給出了每個(gè)需預(yù)測(cè)的時(shí)間片的前半小時(shí)的數(shù)據(jù)信息,具體需預(yù)測(cè)的時(shí)間片見說明文件(說明文件含在數(shù)據(jù)集下載包內(nèi))。 具體數(shù)據(jù)如下,其中訂單信息表、天氣信息表和POI信息表為數(shù)據(jù)庫中直接的表信息,而區(qū)域定義表、擁堵信息表是由數(shù)據(jù)庫中其他表衍生的信息。 訂單信息表| order_id | string | 訂單ID | 70fc7c2bd2caf386bb50f8fd5dfef0cf |
| driver_id | string | 司機(jī)ID | 56018323b921dd2c5444f98fb45509de |
| passenger_id | string | 用戶ID | 238de35f44bbe8a67bdea86a5b0f4719 |
| start_district_hash | string | 出發(fā)地區(qū)域哈希值 | d4ec2125aff74eded207d2d915ef682f |
| dest_district_hash | string | 目的地區(qū)域哈希值 | 929ec6c160e6f52c20a4217c7978f681 |
| Price | double | 價(jià)格 | 37.5 |
| Time | string | 訂單時(shí)間戳 | 2016-01-15 00:35:11 |
| district_hash | string | 區(qū)域哈希值 | 90c5a34f06ac86aee0fd70e2adce7d8a |
| district_id | string | 區(qū)域映射ID | 1 |
| district_hash | string | 區(qū)域哈希值 | 74c1c25f4b283fa74a5514307b0d0278 |
| poi_class | string | POI類目及其數(shù)量 | 1#1:41 2#1:22 2#2:32 |
| district_hash | string | 區(qū)域哈希值 | 1ecbb52d73c522f184a6fc53128b1ea1 |
| tj_level | string | 不同擁堵程度的路段數(shù) | 1:231 2:33 3:13 4:10 |
| tj_time | string | 時(shí)間戳 | 2016-01-15 00:35:11 |
| Time | string | 時(shí)間戳 | 2016-01-15 00:35:11 |
| Weather | int | 天氣 | 7 |
| temperature | double | 溫度 | -9 |
| PM2.5 | double | pm25 | 66 |
總結(jié)
以上是生活随笔為你收集整理的滴滴数据挖掘竞赛题目的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NLP通用模型decaNLP诞生,一个模
- 下一篇: 滴滴算法大赛算法解决过程 - 拟合算法