丛高教授《空间数据管理和挖掘及在智慧城市的应用》演讲笔记
?1 general part
來自?https://www.163.com/dy/article/G4OMJ3LH0511PEBT.html
2020年11月20日,由中國科學(xué)技術(shù)協(xié)會主辦,中國國際科技交流中心、中國人工智能學(xué)會、新加坡通商中國承辦的“中新數(shù)字經(jīng)濟(jì)與人工智能高峰論壇”云端召開。主題報告環(huán)節(jié),新加坡南洋理工大學(xué)教授、新加坡電信 - 南洋理工人工智能聯(lián)合實驗室主任叢高教授帶來了《空間數(shù)據(jù)管理和挖掘及在智慧城市的應(yīng)用》的精彩演講。
今天介紹的內(nèi)容,是我的團(tuán)隊和合作方的研究成果。
我關(guān)注的主題是空間數(shù)據(jù)管理和數(shù)據(jù)挖掘,特別是地理空間 +X 的數(shù)據(jù)。這個X可以是任何其他類型的數(shù)據(jù),比如文本、社交網(wǎng)絡(luò)、多媒體數(shù)據(jù)等。如果 X 是文本信息,就是一個地理文本信息,是基于特定地點(diǎn)所收集到的文本數(shù)據(jù)來作數(shù)據(jù)管理和分析。
這種地理空間+X 數(shù)據(jù)可以是相對靜態(tài)的,也可以是一大規(guī)模、以數(shù)據(jù)流的形式。我們的研究集中在三個層次,一是數(shù)據(jù)管理層,主要集中在相關(guān)的數(shù)據(jù)存儲、索引和查詢。對于大規(guī)??臻g數(shù)據(jù)流,設(shè)計了分布式系統(tǒng)支持實時查詢和連續(xù)查詢。二是數(shù)據(jù)挖掘和分析層。針對不同時空數(shù)據(jù)類型設(shè)計不同數(shù)據(jù)挖掘技術(shù),具體集中在點(diǎn)空間數(shù)據(jù)、軌跡空間數(shù)據(jù)和區(qū)域空間數(shù)據(jù)這三種不同時空數(shù)據(jù)類型。三是智慧城市或智慧國家應(yīng)用層。
?
?
首先分享在數(shù)據(jù)管理層近十幾年做的一些工作。我們設(shè)計數(shù)據(jù)管理系統(tǒng), 包括索引和查詢算法,支持對空間文本數(shù)據(jù)的查詢和管理;也設(shè)計分布式系統(tǒng),查詢分析時空信息流;同時設(shè)計如何衡量空間文本數(shù)據(jù)流系統(tǒng)的工作負(fù)荷,然后設(shè)計附載均衡的彈性工作任務(wù)劃分,以及隨著負(fù)載變化進(jìn)行彈性調(diào)整;此外也研究利用機(jī)器學(xué)習(xí)的方式改進(jìn)數(shù)據(jù)庫的系統(tǒng),提高一些具體數(shù)據(jù)管理模塊的性能,比如查詢優(yōu)化。
下面分別介紹我們在數(shù)據(jù)挖掘和分析層做的工作。
首先,針對點(diǎn)空間數(shù)據(jù)介紹 3 個工作。
①點(diǎn)空間數(shù)據(jù)探索及可視化。給一個點(diǎn)空間數(shù)據(jù)(比如一個國家景點(diǎn)的照片數(shù)據(jù),或者興趣點(diǎn)POI數(shù)據(jù))作為輸入,我們想在地圖上展示數(shù)據(jù)集以支持用戶對數(shù)據(jù)的探索。簡單地把所有數(shù)據(jù)可視化到地圖上,數(shù)據(jù)重疊在一起,什么也看不出。一個自然的想法是選取數(shù)據(jù)的一小部分可視化,這些數(shù)據(jù)應(yīng)該盡量代表用戶感興趣區(qū)域的所有數(shù)據(jù),且不重疊。另外,當(dāng)用戶放大、縮小,以及移動感興趣的區(qū)域,選取的數(shù)據(jù)應(yīng)該保持一致性。
② 構(gòu)建地理位置知識庫。我們要打造一個知識庫,而且知識庫里會有非常細(xì)顆粒度的一些地點(diǎn),在高層有國家為單位,甚至是洲為單位、城市為單位,顆粒度越細(xì)就會以酒店、商城等為單位。
③ 興趣點(diǎn)(POIs)的推薦。POI 推薦可以分為兩種,一種是傳統(tǒng)的推薦;另外一種就是基于場景和背景的 POI 推薦 , 例如基于用戶現(xiàn)在位置,推薦他接下來去的地方,或者基于時間推薦POIs。
?一個很本質(zhì)的問題就是怎么做數(shù)據(jù)表示。不管是做推薦還是做知識圖譜,怎么表達(dá)location(用機(jī)器學(xué)習(xí)?數(shù)據(jù)挖掘?還是其他?),這是一個很關(guān)鍵的問題。?
其次,針對軌跡數(shù)據(jù)介紹兩個工作。
① 軌跡相似性計算。傳統(tǒng)的方法基于配對、匹配模型,通?;趧討B(tài)規(guī)劃算法,計算復(fù)雜度很高;另外不能很好處理軌跡數(shù)據(jù)出現(xiàn)的一些噪音。我們提出用深度表征學(xué)習(xí)方法把軌跡表示成一個向量,不但可以極大提升算法的復(fù)雜度,也可以取得更好的相似度計算準(zhǔn)確性。
② 運(yùn)動軌跡數(shù)據(jù)分析。
體育比賽分析人員可能想知道在一場足球比賽中,梅西究竟跑了多少米?有多遠(yuǎn)?以往基于視頻數(shù)據(jù)很難做分析。我們從視頻數(shù)據(jù)得到軌跡,通過深度學(xué)習(xí)模型表示一組球員的軌跡,然后計算球員和比賽的相似度。
?如何表征軌跡?傳統(tǒng)意義上表示成一系列的點(diǎn)(特殊的時間序列),但是這可能并不是一個最好的辦法,尤其是在現(xiàn)在有很多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)的時候。
最后,針對區(qū)域空間數(shù)據(jù)介紹兩個工作。
① 區(qū)域地理、時空的主題分析。我們提出一種方法快速、高效分析一個用戶感興趣的區(qū)域,在某個時間段進(jìn)行主題分析。針對某個區(qū)域做一個話題分析,要收集某個區(qū)域的社交媒體數(shù)據(jù);對每個區(qū)域地理、時空主題要進(jìn)一步分析對于不同品牌的競爭情況。
② 類似區(qū)域搜索?,F(xiàn)在輸入一個特定的區(qū)域后,可以找到一個和它類似區(qū)域的表現(xiàn)。我們嘗試去用深度學(xué)習(xí)表示區(qū)域,學(xué)習(xí)區(qū)域的相似性。我們還做了一個案例的分析,比如找到一個探索區(qū)域,新加坡的一座城市,選擇一個自然保護(hù)區(qū),希望通過我們的引擎搜索到 5 個類似自然保護(hù)區(qū)。
關(guān)鍵也是 region representation
最后一部分是智慧城市的應(yīng)用。我們也做過交通時間分布測算,考慮到出發(fā)點(diǎn)和到達(dá)點(diǎn),預(yù)測整段里程要用的時間,會有不同的路線來作預(yù)判。例如會做一些交通路徑的介入,這些紅點(diǎn)、綠點(diǎn)的地點(diǎn)可以幫助用戶改變行程;同時還會給用戶提供一些建議,如有時到某個地點(diǎn)時間不夠,可以在中間改變潛在的路線圖。
此外,基于我們的技術(shù),和合作方新電信共同開發(fā)了傳染病contact tracing 的演示系統(tǒng)。
在【Gauss松鼠會|技術(shù)群英會】Cong Gao:Enriched Spatial Data Management and Mining_嗶哩嗶哩_bilibili?中,叢老師主要介紹了上述的三篇論文的model:
2 querying streaming spatial textual data
?
這是twitter里面的內(nèi)容,數(shù)據(jù)是不停來的,我們可以把它看成一個數(shù)據(jù)流。
對這個數(shù)據(jù)流的查詢,我們可以分為snapshot query和continuous query。前者是找過去指定時刻(last week)的query信息,后者則是持續(xù)不斷地找時間片中的query信息(in comming week)。我們需要制定一個系統(tǒng)同時支持這兩種query。
找一個時間片內(nèi)、某一個區(qū)域的關(guān)鍵詞:
找一個時間片內(nèi),某一區(qū)域距離keyword最近的k個詞
?找一個時間片內(nèi),某一區(qū)域出現(xiàn)最平凡的k個詞
?
3 trajectory representation and similarity
?
?
傳統(tǒng)的方法一般是將軌跡看成是點(diǎn)組成的sequence。
那么,怎么計算相似度呢?
傳統(tǒng)的方法做的基本上是兩個軌跡(點(diǎn)組成的時間序列),進(jìn)行對齊alignment,然后mapping,來計算相似度和距離。
這樣的方式會帶來很多二問題,比如:
1 如果一個軌跡采樣了5個點(diǎn)、另一個軌跡采樣了1000個點(diǎn),那么即使兩個軌跡是相似的,但傳統(tǒng)的方法也會得到不高的相似度【換句話說,就是不同的采樣率導(dǎo)致了不理想的匹配,如下圖(a)】
2 如果軌跡有噪聲的話,會干擾相似度的計算
3 因為兩個軌跡需要進(jìn)行對齊,而對齊操作一般都需要動態(tài)規(guī)劃。動態(tài)規(guī)劃的時間復(fù)雜度一般是O(n^2)(如果軌跡是O(n)的話)
4 低采樣率會導(dǎo)致很難區(qū)分路徑【如下圖(b),因為Ta軌跡中和Tb不一樣的部分沒有被sample到,所以就會出現(xiàn)發(fā)現(xiàn)不了兩個軌跡不一樣的問題】
?
?傳統(tǒng)方法中的點(diǎn)的sequence并不能真正代表軌跡,而DTW等傳統(tǒng)方法又偏慢,所以能否用representation learning 的方法重新表示軌跡呢?
?
?
對軌跡T,學(xué)習(xí)一個vector表示,以得到一個真實路徑,我們的目標(biāo)就是最大化這個條件概率。?
問題在于,實際的真實路徑我們是不知道怎么表示的(也就是沒有直接可以得到的ground truth);其次,Seq2Seq 主要是使用NLLLoss 作為誤差函數(shù)的。但是NLLLoss沒有考慮空間這一個維度的屬性?
找一個采樣率高的軌跡Tb,對其降采樣,作為Ta。這樣就可以作為訓(xùn)練集訓(xùn)練這個模型了。
?在“軌跡相似度”這個問題中,常見的損失函數(shù)NLLLoss沒有考慮空間的信息。這也就導(dǎo)致了本來一組比較相似的軌跡(如上圖的Tb和Tb'),得到的結(jié)論是不相似(因為沒有兩個dot在同一個區(qū)域內(nèi),它們都會被表征成不同的dot)
以下是實驗結(jié)論:
?
4 其他
4.1 子軌跡的查詢?
?
?4.2 travel time distribution
?起點(diǎn)和終點(diǎn)已知,預(yù)測通行時間的分布
4.3 travel route inference
起點(diǎn)和終點(diǎn)已知,預(yù)測用戶走哪條路。
4.4 異常軌跡預(yù)測
?
總結(jié)
以上是生活随笔為你收集整理的丛高教授《空间数据管理和挖掘及在智慧城市的应用》演讲笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文巾解题 620. 有趣的电影
- 下一篇: 262. 行程和用户