滴滴算法大赛算法解决过程 - 拟合算法
擬合
概論
Gap的預(yù)測,是建立在一個(gè)擬合函數(shù)上的。也有一些機(jī)器學(xué)習(xí)的味道。
總的Gap函數(shù) = 函數(shù)(時(shí)間,地區(qū))
- TimeID : 時(shí)間片編號
- DistricID:地區(qū)編號
- Traffic:交通流量
- Weather:天氣
- POI:設(shè)施數(shù)
百度地圖POI說明
注意:每家公司的POI分類都是不同的,這里只是將百度POI做個(gè)例子,滴滴打車的POI和百度的POI定義好像是不同的。
交通流量和時(shí)間有關(guān),一個(gè)地方的擁堵程度和時(shí)間有關(guān)系
不同的地區(qū),各種設(shè)施配置不同。
天氣和時(shí)間有關(guān)。
Gap函數(shù) = 函數(shù)(交通擁擠度函數(shù)(時(shí)間,地區(qū)編號),POI函數(shù)(地區(qū)編號),天氣函數(shù)(時(shí)間))
這里可以認(rèn)為,一個(gè)地方的打車人數(shù),交通越堵,則打車的GAP越大。天氣不好,打車的人則越多,GAP也越大。設(shè)施越多的地方,打車的需求也越多,GAP可能也越大。但是這一切都只是可能性。
(題外話,其實(shí)真實(shí)的情況也要考慮節(jié)假日的問題,在節(jié)假日的時(shí)候,GAP可能會變大。當(dāng)然這是一個(gè)人文的考量了)
zhihu網(wǎng)友的算法
作者:四名評論員
鏈接:你對滴滴算法大賽賽題的解決思路是什么?
來源:知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。
利益不相關(guān),不是參賽選手,不是滴滴工作人員,純粹覺得題目好玩。
我的分析:
這個(gè)題目的目標(biāo)是預(yù)測,預(yù)測的核心是發(fā)掘信息,信息才是消除不確定性的唯一途徑。信息存在于乘客與司機(jī)的幾種行為模式,以及POI的不同功能類型。
乘客的行為基本上有三類模式,周期性的(每天上下班、每周去上補(bǔ)習(xí)班)、集中偶發(fā)性的(音樂會)和隨機(jī)性的(各類雜事)。司機(jī)的行為模式包括出車、收車、找活、趴活、午休。POI類型也可以分為周期性的(工作單位)、集中偶發(fā)性(電影院、體育館、演播大廳)、隨機(jī)性的(醫(yī)院、車站),當(dāng)然每個(gè)POI的功能類型不是絕對的。
GAP是用車需求和供給的差,那么分別為需求和供給建立模型。
簡單說,一個(gè)完整的打車需求包括出發(fā)地、目的地、時(shí)間。首先任意兩個(gè)POI之間都存在一條線路,每條線路的人流量可以按照乘客的行為模式進(jìn)行分解,這樣也就包含了時(shí)間因素。這樣最終就可以算出從每個(gè)POI出發(fā)的人數(shù)。由于數(shù)據(jù)只有方格的總數(shù),這看起來是一個(gè)隱馬爾科夫鏈。至于天氣則基本可以看成線路人流量的一個(gè)系數(shù)。
司機(jī)接單在全天大多數(shù)時(shí)間里都是找活的狀態(tài),也就是附近有單就搶,那么某個(gè)方格某個(gè)時(shí)間片司機(jī)接單數(shù)應(yīng)該是空車數(shù)量*一個(gè)系數(shù),空車數(shù)量=上一個(gè)時(shí)間片到達(dá)的乘客數(shù)+其他司機(jī)漫無目的找活出入方格的凈值+趴活司機(jī)數(shù)(找活、趴活數(shù)應(yīng)該和poi類型有關(guān),這得問問老司機(jī)拉活的竅門),系數(shù)就是搶單成功率。
非專業(yè)人士,以上只是粗淺的想了一下,還有很多細(xì)節(jié)沒有考慮,拋磚引玉,達(dá)人莫笑!非專業(yè)人士,以上只是粗淺的想了一下,還有很多細(xì)節(jié)沒有考慮,拋磚引玉,達(dá)人莫笑!
算法
交通擁堵
交通擁堵函數(shù):
這里的交通擁堵函數(shù)是使用4個(gè)等級表示的。
- LV1 20條路 權(quán)重8
- LV2 10條路 權(quán)重4
- LV3 15條路 權(quán)重2
- LV4 05條路 權(quán)重1
那么擁堵指數(shù)怎么計(jì)算呢?這里應(yīng)該是對每個(gè)擁堵喲一個(gè)權(quán)重,等級越高,權(quán)重越大。
擁擠度 = SUM(權(quán)重 * 數(shù)量)
在上文中?滴滴算法大賽算法解決過程 - 數(shù)據(jù)分析?提過了通過統(tǒng)計(jì)分析可以得知,LV1的路大約占2/3強(qiáng),估計(jì)LV4,LV3的路是變化的關(guān)鍵。
由于數(shù)據(jù)量非常龐大,所以這里建議將中間的計(jì)算結(jié)果也放入數(shù)據(jù)庫中備用。
博客園不支持圖片放大功能,如果您想更好的查看圖片,也可以使用以下網(wǎng)址獲得更好的閱讀體驗(yàn):
http://codesnippet.info/Article/Index?ArticleId=00000041
我們嘗試使用最小二分法擬合 LV4和 訂單總量
從圖中可以看到,大部分的點(diǎn)在一個(gè) Y = AX+ B 的直線函數(shù)中。
(未去噪點(diǎn))
A:4.67355309006603
B:18.931303546517
(去除1500以上的噪點(diǎn))
A:1.08888907683687
B:192.700547917395
(這里使用的是2016-01-01 #51 的數(shù)據(jù))
任務(wù)
- 研究同一時(shí)間片,同一地區(qū),按照日期變化,數(shù)據(jù)的變化。觀察天氣對數(shù)據(jù)變化的影響
- 研究同一時(shí)間片,不同地區(qū),POI的數(shù)量對數(shù)據(jù)變化的影響
- 研究每個(gè)區(qū)域的需求量,可能每個(gè)區(qū)域的需求量基準(zhǔn)數(shù)值都是差不多的。
總結(jié)
以上是生活随笔為你收集整理的滴滴算法大赛算法解决过程 - 拟合算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 滴滴数据挖掘竞赛题目
- 下一篇: 滴滴算法大赛算法解决过程 - 方案设计