2021年最值得期待的数据智能赛事之一,有何解题妙招?
在 GIS(Geographic Information System)領(lǐng)域,由國(guó)際計(jì)算機(jī)學(xué)會(huì) ACM 空間信息專業(yè)委員會(huì)主辦的 ACM SIGSPATIAL,被認(rèn)為是 GIS 科學(xué)與計(jì)算機(jī)科學(xué)結(jié)合最廣泛的國(guó)際頂級(jí)會(huì)議。
今年,滴滴聯(lián)合 ACM SIGSPATIAL,共同舉辦 2021 ACM SIGSPATIAL GISCUP 比賽,這也是 ACM SIGSPATIAL 會(huì)議是第一次離開(kāi)美國(guó)在北京舉辦。
近日,以該賽事為主題,滴滴、biendata 、ACM SIGSPATIAL 中國(guó)分會(huì)、paper weekly 和 AI time 合作發(fā)起了一次賽題解析直播。
2021 ACM SIGSPATIAL GISCUP 的賽題是 “預(yù)估到達(dá)時(shí)間”(Estimated time of arrival,下文簡(jiǎn)稱 “ETA”)。賽事詳情可參見(jiàn):
SIGSPATIAL 2021 官網(wǎng):
https://sigspatial2021.sigspatial.org/sigspatial-cup/
Biendata 官網(wǎng)(點(diǎn)擊文末“閱讀原文”即可訪問(wèn)):
https://www.biendata.xyz/competition/didi-eta/
直播主講人為滴滴公司地圖與公交事業(yè)部的資深算法工程師劉欣悅。她于 2019 年加入滴滴,擔(dān)任地圖與公交事業(yè)部 ETA 和路況策略團(tuán)隊(duì)資深算法工程師,主要負(fù)責(zé)滴滴平臺(tái) ETA 和預(yù)估算法優(yōu)化的相關(guān)工作,在大規(guī)模深度學(xué)習(xí)模型方面經(jīng)驗(yàn)豐富。
直播中,她詳細(xì)介紹了比賽數(shù)據(jù)和賽題,并分享了滴滴在提升 ETA 能力上的實(shí)踐經(jīng)驗(yàn),希望鼓勵(lì)參與者基于滴滴發(fā)布的新數(shù)據(jù)集,進(jìn)一步提升時(shí)間預(yù)估的準(zhǔn)確性。
目前,比賽使用的行程時(shí)長(zhǎng)數(shù)據(jù)集已通過(guò)滴滴蓋亞數(shù)據(jù)開(kāi)放計(jì)劃(https://outreach.didichuxing.com/research/opendata/)對(duì)外發(fā)布,囊括了 2020 年 8 月在深圳經(jīng)過(guò)脫敏處理的出行時(shí)間數(shù)據(jù)。
一、賽題:預(yù)估到達(dá)時(shí)間難在哪里?
作為大賽賽題,ETA 本身是一個(gè)較實(shí)用且容易理解的場(chǎng)景。
日常生活中,我們經(jīng)常會(huì)說(shuō) “上下班路程大概要半個(gè)小時(shí)”,或者 “大約 5 分鐘以后才能到目的地” 等,這些都是比較籠統(tǒng)的 ETA 的說(shuō)法。
在滴滴或者其他地圖工具的使用場(chǎng)景中,往往需要一個(gè)更加精細(xì)化的 ETA。
無(wú)論是滴滴的各個(gè)產(chǎn)品線上,還是其他地圖工具,或多或少都會(huì)涉及這個(gè)議題。
如下圖中導(dǎo)航界面的截圖,可以看到三條路線,每條路線都會(huì)有一個(gè)預(yù)估的到達(dá)時(shí)間。這樣可以方便用戶在出行的時(shí)候,結(jié)合該時(shí)間來(lái)選擇更適合自己的路線。
另外,預(yù)估到達(dá)時(shí)間也是同一個(gè)起點(diǎn)、終點(diǎn)之間多條路線間排序的重要特征,它可能會(huì)影響優(yōu)先展示給用戶的路線是哪一條。用戶可以根據(jù)預(yù)估到達(dá)時(shí)間來(lái)安排自己的日程。
在滴滴網(wǎng)約車場(chǎng)景中,預(yù)估費(fèi)用是根據(jù)路線距離和預(yù)估行程時(shí)間來(lái)計(jì)算得出的,所以,ETA 會(huì)直接影響到乘客對(duì)出行方式的選擇。
在拼車的場(chǎng)景中,如何判斷將哪些乘客拼成一個(gè)訂單,ETA 也是一個(gè)非常重要的指標(biāo),它直接決定著訂單的拼成率。
所以,可以看到,在滴滴的各產(chǎn)品線,ETA 必要性體現(xiàn)在用戶決策、路線排序、行程安排、價(jià)格預(yù)估、拼車成本 5 個(gè)方面,它的準(zhǔn)確性會(huì)直接影響乘客的體驗(yàn)和司機(jī)的效率。
不過(guò),要想預(yù)估準(zhǔn)確,并不是一件很容易的事情。
即便是同一條路線,在不同的時(shí)刻出發(fā),可能會(huì)面臨不同的路況環(huán)境,花費(fèi)的時(shí)間也會(huì)差很多。
比如早晚高峰、工作日和周末的擁堵情況和擁堵時(shí)間段都不太一樣,由此帶來(lái)的路況變化和波動(dòng),會(huì)直接導(dǎo)致路線花費(fèi)時(shí)間差距變大。
如果遇到了極端天氣,或者是一些突發(fā)的交通事故,比如說(shuō)演唱會(huì)或者重大賽事等等,也會(huì)帶來(lái)路況的變化。
例如,今年 3 月份某個(gè)周五下午,北京突降暴雨,那一天,幾乎所有的訂單都比平時(shí)要慢很多。事后,我們統(tǒng)計(jì)了那一天的訂單分布,可以看到的是,從下午開(kāi)始,訂單時(shí)間明顯比一個(gè)普通周五的平均訂單時(shí)間要長(zhǎng)。所以,如果當(dāng)天我們用了一個(gè)正常模型來(lái)預(yù)測(cè),那么情況會(huì)變得很困難。
另外,還有一些可以預(yù)想到的日常會(huì)發(fā)生的情況,比如說(shuō)紅綠燈的影響,有的人可能會(huì)運(yùn)氣比較好,一路上沒(méi)有碰到什么紅燈,有的人在同一條路就反復(fù)碰到,同樣會(huì)影響預(yù)測(cè)結(jié)果。
簡(jiǎn)而言之,異常天氣、特殊事件 / 突發(fā)事故,是提高 ETA 準(zhǔn)確率所要面臨的主要挑戰(zhàn)。
本次比賽的 ETA 任務(wù),使用的數(shù)據(jù)由滴滴蓋亞數(shù)據(jù)開(kāi)放計(jì)劃提供,即 “行程到達(dá)時(shí)間預(yù)估數(shù)據(jù)集”。數(shù)據(jù)為 2020 年 8 月份深圳市網(wǎng)約車的真實(shí)訂單數(shù)據(jù),這一整個(gè)月的訂單數(shù)據(jù)含有出發(fā)時(shí)間日期、行程路線、路況信息、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)等信息。
且該數(shù)據(jù)集已經(jīng)進(jìn)行了脫敏處理,所有訂單數(shù)據(jù)都不包括任何司機(jī)和乘客的個(gè)人信息。比賽任務(wù)即根據(jù)這些特征來(lái)預(yù)測(cè)每個(gè)訂單的到達(dá)時(shí)間。
接下來(lái),將介紹滴滴蓋亞數(shù)據(jù)開(kāi)放計(jì)劃以及比賽流程。
通過(guò)滴滴蓋亞數(shù)據(jù)開(kāi)放計(jì)劃,滴滴將脫敏數(shù)據(jù)集開(kāi)放給學(xué)術(shù)界,希望攜手學(xué)界一起去探索科學(xué)的邊界,共同產(chǎn)出一定的學(xué)術(shù)成果。
截止目前,滴滴已經(jīng)陸續(xù)開(kāi)放了十五大特色數(shù)據(jù)集,可在滴滴蓋亞數(shù)據(jù)開(kāi)放計(jì)劃的官網(wǎng)下載這些數(shù)據(jù)集用于科學(xué)研究,目前已有 1 萬(wàn)余人次進(jìn)行了數(shù)據(jù)集的申請(qǐng)。這一系列數(shù)據(jù)集也已支持了大量的 AI 類競(jìng)賽,包括 2020 KDD CUP、CCF BDCI 路況預(yù)測(cè)競(jìng)賽,以及這一次的 SIGSPATIAL GISCUP ETA 競(jìng)賽。統(tǒng)計(jì)顯示,已有 90 篇以上學(xué)術(shù)文章采用了這些數(shù)據(jù)。且這些數(shù)據(jù)也為很多高校提供了支持,至少有 20 多個(gè)教師團(tuán)隊(duì)進(jìn)行了相關(guān)課程建設(shè)。
滴滴希望,這些數(shù)據(jù)集能夠真正幫到學(xué)術(shù)界的老師和同學(xué)產(chǎn)出對(duì)社會(huì)有幫助的科研成果。
具體的比賽流程方面,本次比賽在 4 月 23 日正式對(duì)外開(kāi)放注冊(cè),目前仍可以進(jìn)行注冊(cè)。
其中,4 月 30 日至 8 月 9 日是參賽選手的成果提交階段,選手需要提交測(cè)試集的預(yù)測(cè)結(jié)果。此次比賽采用 ab 榜的機(jī)制,8 月 2 日前,選手可使用 a 榜每日測(cè)試自己模型的當(dāng)前水平。組隊(duì)截止時(shí)間為 8 月 2 日,當(dāng)日也將公布 b 榜的競(jìng)賽數(shù)據(jù)。
8 月 31 日正式公布比賽結(jié)果,比賽結(jié)果以 b 榜的成績(jī)?yōu)闇?zhǔn),獲得前 5 名的隊(duì)伍需要提交一份訓(xùn)練的代碼及注釋、可復(fù)現(xiàn)最高分的預(yù)測(cè)模型,最后按照 ACM 的格式要求,產(chǎn)出一篇不多于 4 頁(yè)的英文論文,論文提交的截止時(shí)間是 9 月 15 日。
11 月 2-4 日,前 5 名的參賽隊(duì)伍會(huì)受邀參加 SIGSPATIAL2021 進(jìn)行現(xiàn)場(chǎng)展示,同時(shí)也歡迎其他的參賽選手參加這次會(huì)議。
此次比賽總獎(jiǎng)金池達(dá)到 25,000 美元。其中,冠軍隊(duì)伍一名,將會(huì)獲得 1 萬(wàn)美元的獎(jiǎng)勵(lì)。亞軍兩名,將分別獲得 5000 美元,季軍隊(duì)伍兩名,將分別獲得 2500 美元。獎(jiǎng)金力度非常可觀。
?
二、大賽數(shù)據(jù)字段詳解
此次大賽提供了三份數(shù)據(jù),本節(jié)將對(duì)第一份數(shù)據(jù) —— 行程路線和路況數(shù)據(jù)進(jìn)行詳解。
該數(shù)據(jù)分為三個(gè)部分,每個(gè)部分之間用兩個(gè)分號(hào)分隔。
第一個(gè)部分是 head 部分,字段之間由空格隔開(kāi)。
link 部分和 cross 部分都是序列數(shù)據(jù),每個(gè)序列中會(huì)有很多小段數(shù)據(jù),每一個(gè)小段數(shù)據(jù)都有自己的特征。小段之間用空格隔開(kāi),特征之間是用逗號(hào)隔開(kāi),詳細(xì)的格式網(wǎng)頁(yè)上都會(huì)有說(shuō)明。
在此,進(jìn)一步詳細(xì)說(shuō)明每個(gè)字段的含義:
l ?ATA,是指實(shí)際到達(dá)時(shí)間,也是這次比賽的一個(gè) label 和訓(xùn)練的目標(biāo)。ATA 的獲得方式是乘客到達(dá)時(shí)間減去乘客上車時(shí)間,單位是秒。我們以 ATA 為訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練。
l ?Drive ID,是指行程里駕車司機(jī)的 ID,已經(jīng)過(guò)脫敏處理,不涉及司機(jī)個(gè)人信息。
l ?Distance,是路線的路面距離,單位是米。
l ?Slice ID,代表的是乘客上車的時(shí)間,它由時(shí)間轉(zhuǎn)換而來(lái),每 5 分鐘有一個(gè)對(duì)應(yīng)的 ID, 24 小時(shí)循環(huán)一次。
l ?Link ID,指路線中的每一個(gè)子路段的 ID。兩個(gè)圓點(diǎn)之間就是一個(gè) link。
l ?Link time,是指平均通過(guò)一個(gè) link 的時(shí)間。滴滴在計(jì)算過(guò)程中做了一些軌跡的數(shù)據(jù)清理,總的來(lái)說(shuō),link time 是一個(gè)比較準(zhǔn)確的平均統(tǒng)計(jì)值,但是因?yàn)樗怯脷v史軌跡統(tǒng)計(jì)出來(lái)的,所以沒(méi)有任何預(yù)測(cè)含義。我們可以直接用 link time 累加作為 ETA,但是它可能在預(yù)估上不含有任何未來(lái)信息,所以不會(huì)特別準(zhǔn)。Link time 考慮了 link ratio。
l ?Link ratio,指的是 link 在整條路線中被覆蓋到的比例,除了頭尾 link 以外都是 1,頭尾可能 < 1。
l ?Link current status,代表的是該 link 的路況狀態(tài),路況狀態(tài)正常情況下有 4 個(gè)等級(jí),1 等于暢通,2 是緩行,3 是擁堵,4 是極度擁堵。需要注意,這是乘客上車時(shí)候的路況。
l ?Link arrival status,是司機(jī)到達(dá)時(shí)刻該 link 的路況狀態(tài)。它相當(dāng)于一個(gè)泄露信息,因?yàn)椴豢赡茉谛谐涕_(kāi)始的時(shí)候就獲知這一信息,所以測(cè)試集中不包含這一字段,只有訓(xùn)練集有。
l ?Link?長(zhǎng)度已經(jīng)過(guò)脫敏處理。
l ?Cross ID,代表的是紅綠燈路口的概念,數(shù)據(jù)是由一個(gè) link ID 加一個(gè)下劃線,再加一個(gè) link ID 組成的。兩個(gè) link ID 分別代表的是進(jìn)和出這一路口的 link。
l ?Cross time,是路口的一個(gè)平均等待紅綠燈的時(shí)間,屬于挖掘值,它也是利用歷史軌跡統(tǒng)計(jì)出來(lái)的。
l ?Simple ETA?, 是全程所有 link time 和 cross time 之和。
第二份數(shù)據(jù)是路網(wǎng)的拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)。拓?fù)鋽?shù)據(jù)總共有兩列,第一列代表一個(gè) link id;第二列是由逗號(hào)分隔的很多個(gè) link ID,它代表的是 link ID 的每一個(gè)下游,它們的順序是沒(méi)有前后關(guān)系的。
另外,還有一份天氣數(shù)據(jù) —— 深圳 2020 年 8 月份整個(gè)月的天氣情況,包括了當(dāng)天的晴雨情況以及最高氣溫和最低氣溫。
?
三、比賽評(píng)測(cè)標(biāo)準(zhǔn):MAPE 權(quán)威計(jì)分
本次比賽的評(píng)測(cè)標(biāo)準(zhǔn)采用 MAPE(Mean absolute percentage error)進(jìn)行計(jì)分。
主辦方將會(huì)使用模型產(chǎn)出的訂單 ETA 減去它作為 label 的 ata 獲得的絕對(duì)值,除以 ata 得到一個(gè)比值,最終所有測(cè)試集取均值作為分?jǐn)?shù)。
如果出現(xiàn)兩個(gè)隊(duì)伍分?jǐn)?shù)相同,則以提交次數(shù)更少的隊(duì)伍為獲勝方。如果兩個(gè)隊(duì)伍提交的分?jǐn)?shù)和次數(shù)都相同,則按照提交時(shí)間早的隊(duì)伍為獲勝方。
之所以用 MAPE 作為評(píng)測(cè)標(biāo)準(zhǔn),是因?yàn)?#xff0c;目前它在業(yè)界和學(xué)術(shù)界都是一個(gè)獲得通用認(rèn)可的指標(biāo)。
同時(shí),在我們?nèi)粘5母惺苤?#xff0c;它也是更接近用戶感知的。
一條比較長(zhǎng)的路線,人們可能會(huì)認(rèn)為稍微高估 5 分鐘或者低估 5 分鐘,差別不是特別的明顯。但是如果全程就只有 10 分鐘,系統(tǒng)還高估 5 分鐘,你會(huì)感覺(jué)預(yù)測(cè)特別不準(zhǔn),而 MAPE 在這一點(diǎn)上也是比較結(jié)合這種感受的。
?
四、滴滴解決 ETA 任務(wù)的總結(jié)
正如上文所提,滴滴在 ETA 任務(wù)的處理上有著長(zhǎng)期的積累,本節(jié)將分享滴滴團(tuán)隊(duì)在 ETA 上嘗試過(guò)的思路和方法,以幫助參賽者碰撞出更好的解決方案。
首先,ETA 是一個(gè)回歸問(wèn)題。理論上,要預(yù)測(cè)一個(gè) ETA 的值,我們現(xiàn)在可以想到的幾乎所有的回歸問(wèn)題解法,在這個(gè)場(chǎng)景上都是可以使用的。
同時(shí),鑒于這些數(shù)據(jù)有很明顯的序列特征,進(jìn)一步地,可以很明確地想到一些序列的建模方式,比如說(shuō) LSTM,把它套用到這些有序列特征的模型上是比較方便的。
另一方面,ETA 問(wèn)題可能和 NLP 中存在很明確上下文關(guān)系的情況又不是那么相似,即沒(méi)有那么強(qiáng)烈的上下文依賴性,所以,有的時(shí)候可以用例如 CNN 這樣的深度網(wǎng)絡(luò)也是可行的。
第二個(gè)思路是考慮鄰域的影響。路網(wǎng)數(shù)據(jù)本身是有鄰域的關(guān)系,除了受到路線的上下游影響之外,也可能會(huì)受到自己在地圖網(wǎng)中的上下游的影響,所以,鄰域之間的影響是存在的。
加之本次比賽也開(kāi)放了拓?fù)潢P(guān)系的路網(wǎng)數(shù)據(jù),利用拓?fù)潢P(guān)系,可以結(jié)合圖神經(jīng)網(wǎng)絡(luò)的建模方式,讓模型學(xué)到更多的上下游信息,豐富模型的特征表。
第三個(gè)思路在于,上文有提到,ETA 的難點(diǎn)之一是路況變化會(huì)導(dǎo)致預(yù)估難度增加。
如上圖所示,出發(fā)時(shí)刻的路況是左圖,路線上有一小段擁堵,大部分是緩行。但當(dāng)司機(jī)已經(jīng)開(kāi)到擁堵路段附近時(shí),又變成了全程擁堵的情況,最終開(kāi)過(guò)去 500 米用了整整 10 分鐘。
這就是路況變化帶來(lái)的預(yù)估困難問(wèn)題。而這次的數(shù)據(jù)有泄露的特征,即到達(dá)時(shí)刻的路況。之所以提供了泄露的特征,是希望引導(dǎo)參賽者考慮讓模型能夠在訓(xùn)練的過(guò)程中學(xué)到路況有可能變化的信息,增強(qiáng)模型本身對(duì)變化的感知力。
第四個(gè)思路是特征工程。我們經(jīng)常說(shuō),一個(gè)模型的上限其實(shí)是由特征來(lái)決定的,所以,建議參賽者在建模的時(shí)候,不要忽略特征工程可以帶來(lái)的收益。
本次比賽提供的數(shù)據(jù)特征雖然都是相同的,但是選手可以通過(guò)自己去挖掘數(shù)據(jù)中的特征統(tǒng)計(jì)值、以及數(shù)據(jù)之間的組合方法和變換方式,去發(fā)現(xiàn)更多的、有統(tǒng)計(jì)含義的信息來(lái)豐富特征,可能會(huì)達(dá)到更好的預(yù)測(cè)效果。
直播回放地址:?
【賽事分享】2021 SIGSPATIAL GISCUP 滴滴ETA賽題解析-嗶哩嗶哩】
https://b23.tv/eBnmgc
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的2021年最值得期待的数据智能赛事之一,有何解题妙招?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 连接电脑的u盘无法识别怎么回事啊 电脑无
- 下一篇: 岗位内推 | 微软亚洲研究院智能多媒体组