白话空间统计十六:增量空间自相关
遇上瓶頸……所以進(jìn)來更新稍微有點(diǎn)慢了……大家見諒
點(diǎn)數(shù)據(jù)的密度計算,是一個很常用的分析方式,在計算密度的時候,最令人頭痛的是如何去確定密度的距離,也就是密度收集區(qū)域的半徑,那么從這句話看,也就知道我們這篇文章是干嘛的了。
?
距離,又見距離!
?
不同的情況下,分析空間數(shù)據(jù)對使用的距離是非常敏感的。對于不同的分析,使用的距離也是不同的。比如你要計算人的活動區(qū)域熱點(diǎn),步行的話,一般不會超過3公里,而騎自行車,就變成了5-10公里了。
?
所以在做類似熱點(diǎn)分析或者密度分析的時候,選擇一個合適的距離,非常重要的事情。
?
那么怎么選擇一個合適的距離的?如果你以前這樣問蝦神,蝦神我會告訴你一個蝦神的獨(dú)門絕技,那就是——瞎猜……
?
好吧……既然蝦神的絕技被破,我們只能用這個所謂的“增量空間自相關(guān)”來對距離進(jìn)行探索了。
?
首先從名稱上看,這個神奇的工具首先是用來計算空間自相關(guān)的,有關(guān)空間自相關(guān)的解釋,請參考白話空間統(tǒng)計的第一話,講的就是這個空間統(tǒng)計學(xué)里面的理論基礎(chǔ)概念。
?
當(dāng)然,空間相關(guān)性涉及到各種指數(shù),比如莫蘭指數(shù)、P值、Z得分神馬的,大家有興趣的話去翻以前的文章(知道什么叫萬丈高樓平地起了吧……基礎(chǔ)概念不過關(guān),后面就只能看圖看熱鬧了。)
?
好吧,我知道有的同學(xué)記不住了,這里來復(fù)習(xí)一下,通常來說,莫蘭指數(shù)是一個有理數(shù),經(jīng)過方差歸一化之后,它的值會被歸一化到-1.0——1.0之間。如下圖:
?
然后自然要看聚類或者離散的程度了,老規(guī)矩,Z得分出馬,Z得分的概念,詳細(xì)的說明也請去翻歷史消息,這里來一張圖片簡單的復(fù)習(xí)一下:
基礎(chǔ)內(nèi)容復(fù)習(xí)完了,下面進(jìn)入具體的算法說明:
?
這個算法其實與上一篇文章講的多距離空間聚類方法很像,就是通過不同的距離進(jìn)行迭代計算,然后對計算出來的值進(jìn)行比較,最后給出迭代計算結(jié)果的建議。
?
過程與多距離聚類計算很像,但是也有不同的地方。首先是在上一個方法計算的是,可以忽略每個點(diǎn)上面的屬性值(當(dāng)然你可以設(shè)定權(quán)重來進(jìn)行計算),但是在增量空間自相關(guān)上面,對要素的屬性數(shù)據(jù)是一定需要的,否則你就沒辦法確定是否是隨機(jī)結(jié)果了。對比如下:
?
所以,如果你的數(shù)據(jù)分析,只關(guān)心空間位置,那么實際上沒必要使用這個工具,用多距離聚類分析就行了,但是如果你關(guān)注的除了空間位置以外,還需要關(guān)心數(shù)據(jù)屬性的話,就有必要采用這個工具了。另外需要說明的是,參與計算的屬性值,一般是數(shù)字類型的值。
?
看下面這個例子:
我們手上有一份上海市停車場的數(shù)據(jù),大約有2900多條,數(shù)據(jù)描述如下:
?
我們現(xiàn)在要研究他們的空間分布熱點(diǎn)以及聚集度情況,并且以價格price字段作為他們的聚類屬性約束,從空間上和價格上進(jìn)行聚類研究。
?
最簡單的方法就是做一個核密度計算,以價格為高斯核函數(shù)的自變量帶入進(jìn)行計算,如下:
?
好吧,既然瞎猜大法已經(jīng)失效了,就啟動增量空間自相關(guān)工具算算好了,工具說明如下:
?
需要注意的是分析的區(qū)間,這個區(qū)間值如果不手動設(shè)置數(shù)據(jù)的話,系統(tǒng)會直接采用最小距離來計算,這樣如果你的數(shù)據(jù)有一些明顯的離群點(diǎn)的話,就會出現(xiàn)非常郁悶的結(jié)果。
?
我們先采用完全默認(rèn)的參數(shù),計算結(jié)果如下:
?
?
如果你選擇了生成pdf,還會生成一個PDF,內(nèi)容如下:
?
主要是把上面的內(nèi)容通過統(tǒng)計圖表的方式展現(xiàn)出來。
?
其中我們可以看見,有一個點(diǎn),被特別加亮的標(biāo)識了出來,這個就是系統(tǒng)計算出來的,認(rèn)為這個峰值反映這份數(shù)據(jù)促進(jìn)空間過程聚類最明顯的距離是多少。
?
那么下面通過計算出來的10個數(shù)據(jù),進(jìn)行一下核密度計算看看效果如何:
可以看見,對于全市范圍的計算,聚類效果最顯著的是搜索半徑5739的區(qū)域。
?
現(xiàn)在我們再來看看不對全市的數(shù)據(jù)進(jìn)行分析,僅僅對黃浦區(qū)的數(shù)據(jù)進(jìn)行分析,計算之后,出現(xiàn)了兩個峰值:
然后進(jìn)行核密度計算:
其中,602和699,是兩個明顯的峰值,也就是表示在這兩個值,空間統(tǒng)計值是最顯著的。
?
所謂的聚類,指的是讓同類間差別最小,不同類之間差別最大,所以我們可以對比一下標(biāo)成紅色的的兩個圖,602和699,他們明顯處于核密度曲線值變異的關(guān)鍵拐點(diǎn)上面,這也是我們使用這個工具,進(jìn)行點(diǎn)數(shù)據(jù)分析之前進(jìn)行探索時候的主要作用。
?
總結(jié)
以上是生活随笔為你收集整理的白话空间统计十六:增量空间自相关的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你不知道的分布式锁+分布式事务面试题
- 下一篇: send/recv与socket