满帮如何将机器学习应用于车货匹配和公路干线价格预测?
http://www.infoq.com/cn/articles/ml-dl-highway-price
物流的戰(zhàn)火,從來(lái)都是“非傳統(tǒng)”的競(jìng)爭(zhēng)者從“非傳統(tǒng)”的角度切入的。
1956年,馬爾科姆·麥克萊發(fā)明了集裝箱。世界上第一支集裝箱船隊(duì)從美國(guó)揚(yáng)帆起航,將當(dāng)時(shí)的貨運(yùn)成本從5.83美元/噸降低到0.158美元/噸。保守的運(yùn)輸公司、火車運(yùn)輸公司以及裝卸工人等各派實(shí)力極力反對(duì)。但是市場(chǎng)的手,無(wú)情地摧毀了所有的試圖抵抗時(shí)代潮流的巨頭。
1997年,羅賓遜把在海運(yùn)服務(wù)領(lǐng)域的“無(wú)船承運(yùn)人”思想,移植到公路貨運(yùn)服務(wù)領(lǐng)域,向“無(wú)車承運(yùn)人”轉(zhuǎn)型。這一次大膽轉(zhuǎn)型,羅賓遜拋棄了自有運(yùn)輸車輛,建立了整合社會(huì)運(yùn)輸商的信息系統(tǒng)。三年內(nèi)躍居美國(guó)第一公路運(yùn)輸企業(yè)。?
明天的這把火,很可能燒在人工智能。燒掉傳統(tǒng)物流同行的武器仍然不變:成本。我們的戰(zhàn)場(chǎng)就是中國(guó)的公路干線物流。
中國(guó)物流的特點(diǎn)是大而復(fù)雜。2016年運(yùn)輸費(fèi)用6.0萬(wàn)億(絕大部分是公路),物流總成費(fèi)用11萬(wàn)億,占GDP 15.3%。平均運(yùn)輸距離429公里,累計(jì)運(yùn)輸量336億噸。在這個(gè)大市場(chǎng)中,存在地區(qū)性差異和季節(jié)性差異,參與其中的玩家眾多:個(gè)體司機(jī),車隊(duì)老板,物流公司,黃牛,3PL,工廠,連鎖集團(tuán)等等。而且,中國(guó)是個(gè)全工業(yè)鏈國(guó)家,運(yùn)輸品類最為齊全。運(yùn)輸附加值從最高的半導(dǎo)體、精密機(jī)械到最大宗的煤炭、礦石、農(nóng)產(chǎn)品,呈現(xiàn)強(qiáng)烈的地域性差異。(本文圖中的數(shù)據(jù)均來(lái)自滿幫)
除了存在地區(qū)性差異,還存在巨大的季節(jié)性差異,比如煤炭、蔬菜天然就存在季節(jié)性差異,而節(jié)日,南北氣候差異更是直接影響了大宗運(yùn)輸。比如9月開始突增的西安到西藏地區(qū)的煤炭運(yùn)輸。即便從全國(guó)看來(lái),不同季節(jié)的供需關(guān)系也是動(dòng)態(tài)的。
那么作為全國(guó)最大的公路物流平臺(tái),如何在國(guó)內(nèi)龐大的物流市場(chǎng),應(yīng)對(duì)不同空間和時(shí)間的需求呢?我們的中心抓手就是:市場(chǎng)供需。方向有兩個(gè):車貨匹配,智能調(diào)度。
公路車貨匹配的場(chǎng)景和特色
車貨匹配在廣義上,也是撮合交易的一種,如同電商、打車。在平臺(tái)產(chǎn)品上的展現(xiàn)形態(tài),也以推薦、排序、訂單匹配為主。但車貨匹配有極其獨(dú)特的特點(diǎn),比如貨源是無(wú)庫(kù)存的唯一品和非標(biāo)準(zhǔn)品。唯一指的是每宗貨源幾乎各不相同,運(yùn)輸方案、時(shí)間各有變化,而且一次性成交就立刻下線,完全不同于商城的熱點(diǎn)商品推薦原則。非標(biāo)是指,貨源對(duì)車輛是有要求的,而且在不同時(shí)間、線路、種類上計(jì)價(jià)方式也不同,是非標(biāo)準(zhǔn)品。這一點(diǎn)也和打車出行場(chǎng)景的車人匹配產(chǎn)生重大差異。還有一點(diǎn)和打車場(chǎng)景不同的是,車人匹配的場(chǎng)景是局部區(qū)域在較短時(shí)間窗口內(nèi)滿足供需,車貨匹配則是長(zhǎng)時(shí)間大區(qū)域內(nèi)的匹配——畢竟貨運(yùn)計(jì)劃可以長(zhǎng)達(dá)一個(gè)月,車輛的行駛里程遠(yuǎn)大于打車場(chǎng)景。
完成匹配,先要解決大數(shù)據(jù)的采集和計(jì)算框架問(wèn)題
車貨匹配平臺(tái)有很多數(shù)據(jù)進(jìn)入的通道,比如天氣、GPS/北斗位置信息、用戶app行為日志、交易和支付、車輛行駛數(shù)據(jù)等等。這些數(shù)據(jù)要經(jīng)過(guò)一個(gè)略顯傳統(tǒng)的大數(shù)據(jù)框架來(lái)處理。為了滿足實(shí)時(shí)性,還需要流式計(jì)算是Spark streaming組件和相關(guān)的t+0服務(wù)。由于滿幫的融合,整套數(shù)據(jù)方案還要同時(shí)解決開放性問(wèn)題,能夠在數(shù)倉(cāng)和實(shí)時(shí)策略做到互相授權(quán)、互相調(diào)用。因此,我們還要建設(shè)一個(gè)強(qiáng)大的中臺(tái)數(shù)據(jù)服務(wù)端。
業(yè)內(nèi)有個(gè)著名的共識(shí),按重要性排序,場(chǎng)景>數(shù)據(jù)>算法。在滿幫集團(tuán)的公路干線匹配平臺(tái)上,我們建設(shè)了自己的數(shù)據(jù)架構(gòu),解決了離線和在線的數(shù)據(jù)計(jì)算和存儲(chǔ)問(wèn)題,并且用靈活的機(jī)制保證策略的“熱插拔”——能夠隨時(shí)將測(cè)試完成的策略快速配置在生產(chǎn)線上,并安排適合的灰度、AB和評(píng)估工具。
車貨匹配和智能調(diào)度實(shí)現(xiàn)方法詳解
具體到車貨匹配,這個(gè)算法場(chǎng)景本質(zhì)是一個(gè)推薦場(chǎng)景,也依然可以套在CTR、CVR的模型上,所不同的是,我們推薦的商品是“唯一”屬性的,還要兼顧地區(qū)差異和“公平性”。公平性是這樣一種指征:在一個(gè)時(shí)間窗口內(nèi),被撥打電話或IM進(jìn)行聯(lián)系的貨源,除以總貨源。叫做反饋率。這是個(gè)重要指征,因?yàn)檫@個(gè)值和地區(qū)(區(qū)縣一級(jí))的供需關(guān)系(撥打電話司機(jī),發(fā)貨貨主)呈現(xiàn)強(qiáng)烈正相關(guān)。反饋率一旦達(dá)到一個(gè)閾值,就會(huì)在這個(gè)地區(qū)形成一種新的平衡:用戶自然流失等于或小于平臺(tái)自然流入,地面團(tuán)隊(duì)可以把更多精力放在服務(wù)用戶身上,而非拉新促活。那么對(duì)于業(yè)務(wù)指標(biāo)來(lái)說(shuō),完成反饋率提升甚至比提供更有效的用戶匹配更重要——所以公平性原則的權(quán)重很大。
重點(diǎn)是實(shí)時(shí)部分的接入機(jī)制。傳統(tǒng)的小黑板方式成交,基本需要半天甚至一天的時(shí)間來(lái)實(shí)現(xiàn)供需雙方的撮合。大規(guī)模使用線上平臺(tái),2016年24小時(shí)反饋則達(dá)到了60%。到了2017年,58%的貨源基本在1小時(shí)內(nèi)完成線上撮合,2018年,20分鐘內(nèi)撮合行為發(fā)生率40%,人貨匹配策略徹底成了一個(gè)線上實(shí)時(shí)策略。
在這個(gè)體系內(nèi),基本上貨源在上架瞬間,我們能準(zhǔn)確找到它的潛在承運(yùn)方,預(yù)測(cè)出會(huì)有多受歡迎(在不同的冷熱分桶里會(huì)有多少個(gè)電話),策略是讓車-貨匹配,和讓過(guò)于受歡迎、有競(jìng)爭(zhēng)力的貨源能夠犧牲部分曝光,分配給冷門的貨源,以實(shí)現(xiàn)公平性,達(dá)到反饋提升的效果。
具體到技術(shù)細(xì)節(jié)來(lái)說(shuō),我們使用Xgboost來(lái)預(yù)測(cè)車-貨的基礎(chǔ)相關(guān)性,實(shí)際是一個(gè)CTR和CVR混布模型,我們?cè)谄渲胁渴鹆嗽诰€實(shí)時(shí)系統(tǒng),自研了一套基于FTRL算法的在線學(xué)習(xí)算法,將用戶實(shí)時(shí)的行為數(shù)據(jù)結(jié)果和Xgboost的離線結(jié)果共同訓(xùn)練而得,點(diǎn)擊預(yù)測(cè)的準(zhǔn)確率達(dá)到90%+。首頁(yè)推薦CTR提升了5倍。貨源訂單轉(zhuǎn)化率從11%提升到16%。全國(guó)24小時(shí)反饋率則從60%提升到了64%-68%。特別在低反饋地區(qū)50城實(shí)驗(yàn),很多地區(qū)獲得的提升更高達(dá)15%,30分鐘內(nèi)反饋率提升15%,12000條路線上的司機(jī)空駛率降低30%
第二個(gè)場(chǎng)景是智能調(diào)度。這里面有區(qū)域供需預(yù)測(cè)、價(jià)格、以及ETA等場(chǎng)景。其中最重要的是價(jià)格預(yù)測(cè)。事實(shí)上供需預(yù)測(cè)也是價(jià)格的前置條件,而價(jià)格也是引導(dǎo)司機(jī)進(jìn)行市場(chǎng)化調(diào)度的重要手段。不同于滴滴和uber的將區(qū)域分割成六邊形,貨運(yùn)領(lǐng)域的區(qū)域,無(wú)論時(shí)間還是空間,都更加寬闊,事實(shí)上我們?cè)诓僮鲿r(shí)是以區(qū)縣、小時(shí)來(lái)作為單位的。特別是,貨物都是非標(biāo)品!這對(duì)價(jià)格的預(yù)測(cè)提出了更加困難的考驗(yàn)。
原則上我們更傾向于使用一些可解釋模型,結(jié)合深度學(xué)習(xí)來(lái)進(jìn)行應(yīng)用。單純的RNN或者LSTM模型在處理數(shù)據(jù)時(shí),常常無(wú)法面對(duì)突發(fā)條件,比如個(gè)別地區(qū)道路封閉、雨雪天氣等,往往會(huì)出現(xiàn)無(wú)法快速調(diào)整的情況。而人工干預(yù)和深度神經(jīng)網(wǎng)絡(luò)模型的結(jié)合,也常常造成模型退化。所以我們采用了一個(gè)較復(fù)雜的特征工程模型,同時(shí)極可能分離模型與規(guī)則部分。
我們的價(jià)格預(yù)測(cè)做法如下:
將價(jià)格因素分為兩類:可變價(jià)格和不可變成本。將過(guò)路費(fèi)和汽柴油費(fèi)用和以車輛平均壽命的計(jì)提折舊作為線性成本。如果把線性成本認(rèn)為是獨(dú)立可疊加的,再配合上后面將要介紹的非線性成本,則價(jià)格公式有:
? (1)
?
因?yàn)榫€性成本的獨(dú)立可疊加性,可通過(guò)線性回歸進(jìn)行價(jià)格預(yù)測(cè)。鑒于我們掌握有充分的多年的全國(guó)公路干線運(yùn)輸信息,因此可以輕易調(diào)查到過(guò)路費(fèi)、汽柴油費(fèi)用和車輛平均壽命。
- 過(guò)路費(fèi) = (出發(fā)地-目的地高速公路里程 * 車型) * fix
- 如果是庫(kù)內(nèi)沒有的出發(fā)地和目的地,則按照附近核心節(jié)點(diǎn)城市的里程+出發(fā)地到節(jié)點(diǎn)城市的里程計(jì)算。
- 汽柴油價(jià)格與之類似,但是要考慮到貨物重量和車況。
- 非線性成本有:供需關(guān)系,天氣,節(jié)假日,里程,系統(tǒng)熱噪音等,經(jīng)過(guò)離散化和歸一化處理。
供需關(guān)系指的是運(yùn)價(jià)與成交率的關(guān)系。根據(jù)不同地區(qū)和時(shí)間,會(huì)有多個(gè)局部波峰。為了達(dá)成最高的成交率,根據(jù)供需環(huán)境調(diào)整價(jià)格預(yù)測(cè)范圍,我們采用了Walras-Samuelson過(guò)程為假設(shè),來(lái)預(yù)測(cè)平衡價(jià)格。記做:
因此,加入供需關(guān)系后有:
? (2)
?
剩下的四個(gè)因素是:周期因素(每周,節(jié)假日,季節(jié)),系統(tǒng)熱噪音,裝卸費(fèi)用,司機(jī)勞務(wù)費(fèi)用。
?????? 各自的解決方法是:
- 周期因素分離:主成分分析 + 傅里葉變換
- 系統(tǒng)噪音:小波分析
- 裝卸費(fèi)用/司機(jī)勞務(wù)費(fèi)用:基于時(shí)間序列的循環(huán)神經(jīng)網(wǎng)絡(luò)回歸。
則有基于干線物流大數(shù)據(jù)的運(yùn)價(jià)計(jì)算公式:
?(3)
?
X(1)代表裝卸費(fèi)用的幾個(gè)特征:裝卸重量,當(dāng)?shù)氐娜司杖?#xff0c;當(dāng)?shù)爻霭l(fā)地司機(jī)的平均運(yùn)營(yíng)里程,當(dāng)?shù)匕l(fā)貨量,發(fā)貨地址坐標(biāo)等。
X(2)代表司機(jī)勞務(wù)費(fèi)用的幾個(gè)特征:地區(qū)在時(shí)間窗口的采用平均勞務(wù)費(fèi),當(dāng)?shù)爻霭l(fā)、進(jìn)入的車貨供需量,貨主信用等級(jí),貨主發(fā)貨量等。
X(3)代表呈現(xiàn)周期性的特征:比如周二,周三,月初,月末,節(jié)日等,拆分成1/0的二值特征,以及價(jià)格相關(guān)的特征向量。
X(4)代表噪音較大的向量特征:地區(qū)發(fā)貨量,司機(jī)歷史成單,貨主發(fā)貨經(jīng)緯度等。
X(5)代表距離,油價(jià)等線性特征。
該方法的特征抽取和計(jì)算方法架構(gòu)為:
這個(gè)模型的壞處非常明顯:需要做大量人工特征工程,而且很多數(shù)據(jù)流未經(jīng)過(guò)主算法模型。對(duì)調(diào)整模型有較大的困難。
但是多方妥協(xié)的好處在于,可以直接干預(yù)模型中的線性成本和周期模型。由于價(jià)格是個(gè)混沌模型,我們實(shí)際預(yù)測(cè)出來(lái)的只是價(jià)值,需要通過(guò)t+0的前線數(shù)據(jù)采集和地面不斷進(jìn)行糾正和后驗(yàn)調(diào)整。而且,平臺(tái)本身也在市場(chǎng)中不斷和傳統(tǒng)勢(shì)力進(jìn)行博弈,有時(shí)候,為了運(yùn)營(yíng)活動(dòng)要進(jìn)行妥協(xié)。這一切都造就了當(dāng)前的模型形態(tài)——一切為了實(shí)戰(zhàn)。
日前,我們最新的數(shù)據(jù)預(yù)測(cè),在大部分地區(qū),預(yù)測(cè)價(jià)格在經(jīng)濟(jì)人報(bào)價(jià)或見證報(bào)價(jià)上下的10%內(nèi)算作準(zhǔn)確的話,當(dāng)前的模型,普貨準(zhǔn)確率83.30%,重貨86.37%。以此為基礎(chǔ),我們?cè)谏虾!⒛暇┑葏^(qū)域?qū)崿F(xiàn)了熱力供需/價(jià)格體系,能夠直接對(duì)貨主和司機(jī)施加影響,對(duì)我們自營(yíng)車隊(duì),加盟商都提供了可以依賴的成本產(chǎn)出指導(dǎo)。至于價(jià)格,才能撬動(dòng)供需關(guān)系,才能實(shí)現(xiàn)非自營(yíng)/加盟車隊(duì)的調(diào)度。以上海地區(qū)為例,我們調(diào)整下的市場(chǎng)行為,價(jià)格波動(dòng)更小,而反饋率超過(guò)了85%,高活貨主加盟會(huì)員率遠(yuǎn)超其他地區(qū),幾乎達(dá)到100%。上海等地區(qū)出發(fā)的路線成為可盈利的標(biāo)桿路線。
小結(jié)
除了在車貨匹配和報(bào)價(jià)領(lǐng)域,我們?cè)陲L(fēng)控、人臉識(shí)別、調(diào)度等各種場(chǎng)景下都做了許多大膽嘗試。未來(lái)隨著滿幫平臺(tái)在物流領(lǐng)域的不斷深入,通過(guò)機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)技術(shù)來(lái)提升效率,降低成本,是非常有前景的話題。特別是自動(dòng)駕駛技術(shù)的進(jìn)場(chǎng),我們希望能通過(guò)更有力的調(diào)度手段,來(lái)實(shí)現(xiàn)更美好的行業(yè)前景。
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/9316317.html
總結(jié)
以上是生活随笔為你收集整理的满帮如何将机器学习应用于车货匹配和公路干线价格预测?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Redis 基数统计:HyperLogL
- 下一篇: 不想参加无聊的团队分享, 我们这样玩