當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

丛高教授《空间数据管理和挖掘及在智慧城市的应用》演讲笔记

發(fā)布時間：2025/4/5 编程问答 79 豆豆

生活随笔收集整理的這篇文章主要介紹了丛高教授《空间数据管理和挖掘及在智慧城市的应用》演讲笔记小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

?1 general part

來自?https://www.163.com/dy/article/G4OMJ3LH0511PEBT.html

2020年11月20日，由中國科學(xué)技術(shù)協(xié)會主辦，中國國際科技交流中心、中國人工智能學(xué)會、新加坡通商中國承辦的“中新數(shù)字經(jīng)濟(jì)與人工智能高峰論壇”云端召開。主題報告環(huán)節(jié)，新加坡南洋理工大學(xué)教授、新加坡電信 - 南洋理工人工智能聯(lián)合實驗室主任叢高教授帶來了《空間數(shù)據(jù)管理和挖掘及在智慧城市的應(yīng)用》的精彩演講。

今天介紹的內(nèi)容，是我的團(tuán)隊和合作方的研究成果。

我關(guān)注的主題是空間數(shù)據(jù)管理和數(shù)據(jù)挖掘，特別是地理空間 +X 的數(shù)據(jù)。這個X可以是任何其他類型的數(shù)據(jù)，比如文本、社交網(wǎng)絡(luò)、多媒體數(shù)據(jù)等。如果 X 是文本信息，就是一個地理文本信息，是基于特定地點(diǎn)所收集到的文本數(shù)據(jù)來作數(shù)據(jù)管理和分析。

這種地理空間+X 數(shù)據(jù)可以是相對靜態(tài)的，也可以是一大規(guī)模、以數(shù)據(jù)流的形式。我們的研究集中在三個層次，一是數(shù)據(jù)管理層，主要集中在相關(guān)的數(shù)據(jù)存儲、索引和查詢。對于大規(guī)?？臻g數(shù)據(jù)流，設(shè)計了分布式系統(tǒng)支持實時查詢和連續(xù)查詢。二是數(shù)據(jù)挖掘和分析層。針對不同時空數(shù)據(jù)類型設(shè)計不同數(shù)據(jù)挖掘技術(shù)，具體集中在點(diǎn)空間數(shù)據(jù)、軌跡空間數(shù)據(jù)和區(qū)域空間數(shù)據(jù)這三種不同時空數(shù)據(jù)類型。三是智慧城市或智慧國家應(yīng)用層。

首先分享在數(shù)據(jù)管理層近十幾年做的一些工作。我們設(shè)計數(shù)據(jù)管理系統(tǒng)，包括索引和查詢算法，支持對空間文本數(shù)據(jù)的查詢和管理；也設(shè)計分布式系統(tǒng)，查詢分析時空信息流；同時設(shè)計如何衡量空間文本數(shù)據(jù)流系統(tǒng)的工作負(fù)荷，然后設(shè)計附載均衡的彈性工作任務(wù)劃分，以及隨著負(fù)載變化進(jìn)行彈性調(diào)整；此外也研究利用機(jī)器學(xué)習(xí)的方式改進(jìn)數(shù)據(jù)庫的系統(tǒng)，提高一些具體數(shù)據(jù)管理模塊的性能，比如查詢優(yōu)化。

下面分別介紹我們在數(shù)據(jù)挖掘和分析層做的工作。

首先，針對點(diǎn)空間數(shù)據(jù)介紹 3 個工作。

①點(diǎn)空間數(shù)據(jù)探索及可視化。給一個點(diǎn)空間數(shù)據(jù)（比如一個國家景點(diǎn)的照片數(shù)據(jù)，或者興趣點(diǎn)POI數(shù)據(jù)）作為輸入，我們想在地圖上展示數(shù)據(jù)集以支持用戶對數(shù)據(jù)的探索。簡單地把所有數(shù)據(jù)可視化到地圖上，數(shù)據(jù)重疊在一起，什么也看不出。一個自然的想法是選取數(shù)據(jù)的一小部分可視化，這些數(shù)據(jù)應(yīng)該盡量代表用戶感興趣區(qū)域的所有數(shù)據(jù)，且不重疊。另外，當(dāng)用戶放大、縮小，以及移動感興趣的區(qū)域，選取的數(shù)據(jù)應(yīng)該保持一致性。

② 構(gòu)建地理位置知識庫。我們要打造一個知識庫，而且知識庫里會有非常細(xì)顆粒度的一些地點(diǎn)，在高層有國家為單位，甚至是洲為單位、城市為單位，顆粒度越細(xì)就會以酒店、商城等為單位。

③ 興趣點(diǎn)（POIs）的推薦。POI 推薦可以分為兩種，一種是傳統(tǒng)的推薦；另外一種就是基于場景和背景的 POI 推薦 , 例如基于用戶現(xiàn)在位置，推薦他接下來去的地方，或者基于時間推薦POIs。

?一個很本質(zhì)的問題就是怎么做數(shù)據(jù)表示。不管是做推薦還是做知識圖譜，怎么表達(dá)location（用機(jī)器學(xué)習(xí)？數(shù)據(jù)挖掘？還是其他？），這是一個很關(guān)鍵的問題。?

其次，針對軌跡數(shù)據(jù)介紹兩個工作。

① 軌跡相似性計算。傳統(tǒng)的方法基于配對、匹配模型，通?；趧討B(tài)規(guī)劃算法，計算復(fù)雜度很高；另外不能很好處理軌跡數(shù)據(jù)出現(xiàn)的一些噪音。我們提出用深度表征學(xué)習(xí)方法把軌跡表示成一個向量，不但可以極大提升算法的復(fù)雜度，也可以取得更好的相似度計算準(zhǔn)確性。

② 運(yùn)動軌跡數(shù)據(jù)分析。

體育比賽分析人員可能想知道在一場足球比賽中，梅西究竟跑了多少米？有多遠(yuǎn)？以往基于視頻數(shù)據(jù)很難做分析。我們從視頻數(shù)據(jù)得到軌跡，通過深度學(xué)習(xí)模型表示一組球員的軌跡，然后計算球員和比賽的相似度。

?如何表征軌跡？傳統(tǒng)意義上表示成一系列的點(diǎn)（特殊的時間序列），但是這可能并不是一個最好的辦法，尤其是在現(xiàn)在有很多機(jī)器學(xué)習(xí)和深度學(xué)習(xí)任務(wù)的時候。

最后，針對區(qū)域空間數(shù)據(jù)介紹兩個工作。

① 區(qū)域地理、時空的主題分析。我們提出一種方法快速、高效分析一個用戶感興趣的區(qū)域，在某個時間段進(jìn)行主題分析。針對某個區(qū)域做一個話題分析，要收集某個區(qū)域的社交媒體數(shù)據(jù)；對每個區(qū)域地理、時空主題要進(jìn)一步分析對于不同品牌的競爭情況。

② 類似區(qū)域搜索?，F(xiàn)在輸入一個特定的區(qū)域后，可以找到一個和它類似區(qū)域的表現(xiàn)。我們嘗試去用深度學(xué)習(xí)表示區(qū)域，學(xué)習(xí)區(qū)域的相似性。我們還做了一個案例的分析，比如找到一個探索區(qū)域，新加坡的一座城市，選擇一個自然保護(hù)區(qū)，希望通過我們的引擎搜索到 5 個類似自然保護(hù)區(qū)。

關(guān)鍵也是 region representation

最后一部分是智慧城市的應(yīng)用。我們也做過交通時間分布測算，考慮到出發(fā)點(diǎn)和到達(dá)點(diǎn)，預(yù)測整段里程要用的時間，會有不同的路線來作預(yù)判。例如會做一些交通路徑的介入，這些紅點(diǎn)、綠點(diǎn)的地點(diǎn)可以幫助用戶改變行程；同時還會給用戶提供一些建議，如有時到某個地點(diǎn)時間不夠，可以在中間改變潛在的路線圖。

此外，基于我們的技術(shù)，和合作方新電信共同開發(fā)了傳染病contact tracing 的演示系統(tǒng)。

在【Gauss松鼠會|技術(shù)群英會】Cong Gao：Enriched Spatial Data Management and Mining_嗶哩嗶哩_bilibili?中，叢老師主要介紹了上述的三篇論文的model：

2 querying streaming spatial textual data

這是twitter里面的內(nèi)容，數(shù)據(jù)是不停來的，我們可以把它看成一個數(shù)據(jù)流。

對這個數(shù)據(jù)流的查詢，我們可以分為snapshot query和continuous query。前者是找過去指定時刻（last week）的query信息，后者則是持續(xù)不斷地找時間片中的query信息（in comming week）。我們需要制定一個系統(tǒng)同時支持這兩種query。

找一個時間片內(nèi)、某一個區(qū)域的關(guān)鍵詞：

找一個時間片內(nèi)，某一區(qū)域距離keyword最近的k個詞

?找一個時間片內(nèi)，某一區(qū)域出現(xiàn)最平凡的k個詞

3 trajectory representation and similarity

傳統(tǒng)的方法一般是將軌跡看成是點(diǎn)組成的sequence。

那么，怎么計算相似度呢？

傳統(tǒng)的方法做的基本上是兩個軌跡（點(diǎn)組成的時間序列），進(jìn)行對齊alignment，然后mapping，來計算相似度和距離。

這樣的方式會帶來很多二問題，比如：

1 如果一個軌跡采樣了5個點(diǎn)、另一個軌跡采樣了1000個點(diǎn)，那么即使兩個軌跡是相似的，但傳統(tǒng)的方法也會得到不高的相似度【換句話說，就是不同的采樣率導(dǎo)致了不理想的匹配，如下圖(a)】

2 如果軌跡有噪聲的話，會干擾相似度的計算

3 因為兩個軌跡需要進(jìn)行對齊，而對齊操作一般都需要動態(tài)規(guī)劃。動態(tài)規(guī)劃的時間復(fù)雜度一般是O(n^2)（如果軌跡是O(n)的話）

4 低采樣率會導(dǎo)致很難區(qū)分路徑【如下圖(b)，因為Ta軌跡中和Tb不一樣的部分沒有被sample到，所以就會出現(xiàn)發(fā)現(xiàn)不了兩個軌跡不一樣的問題】

?傳統(tǒng)方法中的點(diǎn)的sequence并不能真正代表軌跡，而DTW等傳統(tǒng)方法又偏慢，所以能否用representation learning 的方法重新表示軌跡呢？

對軌跡T，學(xué)習(xí)一個vector表示，以得到一個真實路徑，我們的目標(biāo)就是最大化這個條件概率。?

問題在于，實際的真實路徑我們是不知道怎么表示的（也就是沒有直接可以得到的ground truth）；其次，Seq2Seq 主要是使用NLLLoss 作為誤差函數(shù)的。但是NLLLoss沒有考慮空間這一個維度的屬性?

找一個采樣率高的軌跡Tb，對其降采樣，作為Ta。這樣就可以作為訓(xùn)練集訓(xùn)練這個模型了。

?在“軌跡相似度”這個問題中，常見的損失函數(shù)NLLLoss沒有考慮空間的信息。這也就導(dǎo)致了本來一組比較相似的軌跡（如上圖的Tb和Tb'），得到的結(jié)論是不相似（因為沒有兩個dot在同一個區(qū)域內(nèi)，它們都會被表征成不同的dot）

以下是實驗結(jié)論：

4 其他

4.1 子軌跡的查詢?

?4.2 travel time distribution

?起點(diǎn)和終點(diǎn)已知，預(yù)測通行時間的分布

4.3 travel route inference

起點(diǎn)和終點(diǎn)已知，預(yù)測用戶走哪條路。

4.4 異常軌跡預(yù)測

總結(jié)

以上是生活随笔為你收集整理的丛高教授《空间数据管理和挖掘及在智慧城市的应用》演讲笔记的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。