空间统计分析(一)
1、空間統計基礎
1.1空間統計概述
1.2空間自相關
空間自相關是空間統計分析理論與方法構建的基礎,也是地理學第一定律的主要呈現形式,即距離越近的地理事物越相似,而距離越遠的地理事物差異越大。
1.2.1全局空間自相關
全局空間自相關是度量要素全局空間分布模式的分析模型。
全局空間自相關使用最廣泛的模型為Global Moran's I,通過此指數,可以在全局層面度量地理要素所呈現的是聚類模式、隨機模式還是離散模式。該工具通過計算 Moran's I 指數值、z得分和p值來對該指數的顯著性進行評估。p值是根據已知分布的曲線得出的面積近似值(受檢驗統計量限制)。
(下面原本要講的內容看不懂啦,所以補充點假設檢驗的知識)(122條消息) 統計學基礎--假設檢驗_Andy_shenzl的博客-CSDN博客_假設檢驗
(122條消息) 讓 P-value 更加的淺顯易懂_rongbaohan的博客-CSDN博客_pvalue
在掌握了假設檢驗、零假設相關知識后,我們回到空間統計分析。
我們再來看之前提到的兩個概念,在空間統計分析中什么是p值,什么是z得分?
大多數統計檢驗在開始時都首先確定一個零假設。模式分析工具的零假設是完全空間隨機性 (CSR),它或者是要素本身的完全空間隨機性,或者是與這些要素關聯的值的完全空間隨機性。模式分析工具所返回的 z 得分和 p 值可幫助您判斷是否可以拒絕零假設(即說明具有空間相關性)。通常,您將運行其中一種模式分析工具,并希望 z 得分和 p 值表明可以拒絕零假設,這就意味著:您的要素(或與要素關聯的值)表現出統計意義上的顯著性聚類或離散模式,而不是隨機模式。如果您在景觀分布(或空間數據)中發現了空間結構(如聚類),就證明某些基礎空間過程在發揮作用,而這方面通常正是地理學者或 GIS 分析人員所最為關注的。
p 值表示概率。對于模式分析工具來說,p 值表示所觀測到的空間模式是由某一隨機過程創建而成的概率。當 p 很小時,意味著所觀測到的空間模式不太可能產生于隨機過程(小概率事件),因此您可以拒絕零假設。您可能會問這樣的問題:要小到什么程度才算足夠小?這是一個非常好的問題。請參見下面的表和內容論述。
Z 得分表示標準差的倍數。例如,如果工具返回的 z 得分為 +2.5,我們就會說,結果是 2.5 倍標準差。如下所示,z 得分和 p 值都與標準正態分布相關聯。
在正態分布的兩端出現非常高或非常低(負值)的 z 得分,這些得分與非常小的 p 值關聯。當您得到很小的 p 值以及非常高或非常低的 z 得分時,就表明觀測到的空間模式不太可能反映零假設 (CSR) 所表示的理論上的隨機模式(即拒絕零假設)。
要拒絕零假設,您必須對所愿承擔的可能做出錯誤選擇(即錯誤地拒絕零假設)的風險程度做出主觀判斷(即顯著性)。因此,請先選擇一個置信度,然后再執行空間統計。典型的置信度為 90%、95% 或 99%。這種情況下,99% 的置信度是最保守的,這表示您不愿意拒絕零假設,除非該模式是由隨機過程創建的概率確實非常小(低于 1% 的概率)。
Global Moran's I 統計量所依據的數學公式如上所示。該工具計算所評估屬性的均值和方差。然后,將每個要素值減去均值,從而得到與均值的偏差。將所有相鄰要素(例如位于指定距離范圍內的要素)的偏差值相乘,從而得到叉積。請注意,Global Moran's I 統計量的分子是這些叉積的和。假定要素 A 和 B 是相鄰要素,并且所有要素值的均值為 10。請注意可能的叉積結果的范圍:
| 要素值 | 偏差 | 叉積 | |||
| A=50 | B=40 | 40 | 30 | 1200 | |
| A=8 | B=6 | -2 | -4 | 8 | |
| A=20 | B=2 | 10 | -8 | -80 | |
如果相鄰要素的值都大于或者都小于均值,則叉積將為正。如果一個要素值小于均值而另一個要素值大于均值,則叉積將為負。在所有情況下,與均值的偏差越大,叉積結果就越大。如果數據集中的值傾向于在空間上發生聚類(高值聚集在其他高值附近;低值聚集在其他低值附近),則 Moran's I 指數將為正。如果高值排斥其他高值,而傾向于靠近低值,則該指數將為負。如果正叉積值與負叉積值相抵消,則指數將接近于零。由于分子是通過方差進行歸一化,因此該指數的值將落在 -1.0 到 +1.0 的區間內。
空間自相關 (Global Moran's I) 工具計算了指數值后,將計算期望指數值。然后,將期望指數值與觀察指數值進行比較。在給定數據集中的要素個數和全部數據值的方差的情況下,該工具將計算 z 得分和 p 值,用來指示此差異是否具有統計學上的顯著性。指數值不能直接進行解釋,只能在零假設的情況下進行解釋,如下:
解釋
空間自相關 (Global Moran's I) 工具是一種推論統計,這意味著分析結果始終在零假設的情況下進行解釋。對于 Global Moran's I 統計量,零假設聲明,所分析的屬性在研究區域內的要素之間是隨機分布的;換句話說,用于促進觀察值模式的空間過程是隨機的。假設您可以為所分析的屬性選擇值,然后使這些值隨意落到要素上,從而讓每個值落在可能的位置。此過程(選擇并隨意放置值)便是隨機空間過程的示例。
如果此工具返回的 p 值具有統計學上的顯著性,則可拒絕零假設。下表對結果的解釋進行了匯總:
| p 值不具有統計學上的顯著性。 | 不能拒絕零假設。要素值的空間分布很有可能是隨機空間過程的結果。觀測到的要素值空間模式可能只是完全空間隨機性 (CSR) 的眾多可能結果之一。 |
| p 值具有統計學上的顯著性,且 z 得分為正值。 | 可以拒絕零假設。如果基礎空間過程是隨機的,則數據集中高值和/或低值的空間分布在空間上聚類的程度要高于預期。 |
| p 值具有統計學上的顯著性,且 z 得分為負值。 | 可以拒絕零假設。如果基礎空間過程是隨機的,則數據集中高值和低值的空間分布在空間上離散的程度要高于預期。離散空間模式通常會反映某種類型的競爭過程 - 具有高值的要素排斥具有高值的其他要素;類似地,具有低值的要素排斥具有低值的其他要素。 |
1.2.2局部空間自相關
局部空間自相關所使用的模型與全局自相關類似,其中最廣泛的是Moran's I和G-Statistics(也叫Getis-Ord Gi* 統計(稱為 G-i-星號)).這里以G-Statistics為例,基于G-Statistics,可以探測出一組地理要素的某個變量在空間上的熱點區域和冷點區域,從而分析出局部區域的高值聚類區域和低值聚類區域。
通過熱點探測可以分析出高值和低值聚類的邊界在哪里,可以度量局部區域高值和低值聚類的程度。該模型會為每一個輸出要素計算p值和z得分,從而定量表達高值聚類和低值聚類在特定置信區間內的聚類程度。計算公式如下:
?此工具的工作方式為:查看鄰近要素環境中的每一個要素。高值要素往往容易引起注意,但可能不是具有顯著統計學意義的熱點。要成為具有顯著統計需意義的熱點,要素應具有高值,且被其他同樣具有高值的要素所包圍。某個要素及其相鄰要素的局部總和將與所有要素的總和進行比較;當局部總和與所預期的局部總和有很大差異,以致于無法成為隨機產生的結果時,會產生一個具有顯著統計學意義的 z得分。
為數據集中的每個要素返回的 Gi* 統計就是 z 得分。對于具有顯著統計學意義的正的 z 得分,z 得分越高,高值(熱點)的聚類就越緊密。對于統計學上的顯著性負 z 得分,z 得分越低,低值(冷點)的聚類就越緊密。
1.2.3協方差云與半變異函數
概念
連續型空間數據具有高程采樣點、土壤濕度、氣溫等采樣數據等,這些數據的一個顯著特點是其屬性值在空間上連續變化,難以像要素數據那樣捕捉到邊界。由于諸如Moran's I等空間自相關分析模型作用的對象必須是可以捕捉的,因此其對于連續型數據的實用性較差,也無法解決連續性數據的空間模擬需求。
在GIS中,對于場類型的空間數據,通常用半變異函數函數和協方差函數度量其空間自相關性。其實現方式是把統計相關系數的大小作為一個距離的函數,通過距離和屬性的差異性度量其相關性。
半變異函數定義為:
S是不同位置上的數據點,Z是所要研究數據點的屬性值。半變異函數解析圖:
如果兩個如果兩個位置 si 和 sj,彼此之間的距離?d(si, sj) 很小,那么這兩個位置會相似,同樣,在地理學第一定律的保證下,兩個位置上屬性的差值 Z(si) - Z(sj) 也會很小。當d(si, sj) 逐漸增大時,它們變得越來越不相似,它屬性值 Z(si) - Z(sj) 的差異也會增大。在下圖中可以看到這一情況,其中顯示了典型半變異函數解析圖。
塊金:代表區域化變量的隨機性大小。從理論上講,在零間距(步長=0)處,區域化變量采樣點數值應當相等;而在間距無限趨于0時,對應的變異函數數值應當亦向0趨近。但是,在實際研究中,實驗(經驗)變異函數在間距為0時,其取值并不為0,而是一個大于0的常數。這一數值便成為塊金常數,其產生一般可以歸因與測量誤差,或者小于采樣間隔距離處的空間變化。
即當兩個地理實體的距離趨于0時,理論上他們之間的差異會趨于0。但是由于測量誤差與觀測尺度的影響,經驗變異函數的值并不會趨于0。
基臺值:用以衡量區域化變量變化幅度的大小。當間距無限增大并達到某一程度以后,經驗變異函數如果趨于平穩,則此時平穩水平對應的數值稱為變程。然而,并不是所有的區域變量均具有基臺值,如無基臺模型對應的變異函數。
即當兩個地理實體之間的距離很大時,它們之間也就不再空間相關性了,基臺值就是存在與不存在空間相關性的距離閾值。
變程:用以衡量區域化變量自相關范圍的大小。當間距無限增大并達到某一程度以后,經驗變異函數如果趨于平穩,則此時對應的距離即為變程。其中,小于變程的距離所對應的樣本位置與空間自相關,而大于變程的距離所對應樣本位置不存在空間相關性。
經驗半變異函數
由于半變異函數和協方差函數是無法觀察到的理論量測,因此可以使用經驗半變異函數和經驗協方差函數根據數據對它們進行估計。通常,通過查看這兩個函數的估算方式可以對量測有所了解。假定采用了彼此之間的距離和方向都相似的所有數據對,如下圖中通過藍線連接的數據對。
?對于彼此之間的距離和方向都相似的的所有位置對 si 和 sj,計算:
在繪制經驗半變異函數時,首先要將數據集內的所有位置點按照某一距離組合成位置對,比如:A、B兩點之間的距離為5m,A、C之間的距離為5m,B、C之間的距離也為5m,就可以生成3個位置對。所以如果數據集中存在n個點,則半變異函數/協方差云中就會顯示n*(n-1)/2 個點。為此,不建議使用點數超過幾千個的數據集。如果數據集包含幾千個點,我們可以通過子集工具來隨機選擇點并在半變異函數/協方差云中使用該子集。
半變異函數云長這樣子:
?每個紅點顯示根據分隔兩個數據點的距離繪制的經驗半變異函數值(組成一對的兩個數據點的值的平方差)。
所以,Z(si)-Z(sj)是所有具有相同d(s,s)的位置對包含的數據點其研究屬性的差值,然后再求這些差值的var。
在上圖中,僅僅體現了在距離限制下的位置對,通過搜索功能,還可以根據位置對的方向以及他們的距離來控制半變異函數的某個方向子集。
根據經驗半變異函數擬合模型
地統計向導可提供經驗半變異函數值的三種不同視圖。可以使用任意數量(一個、兩個或全部三個)的視圖來幫助您根據數據擬合模型。默認視圖顯示了已丟棄和已平均化的經驗半變異函數/協方差值。
已丟棄值顯示為紅色的點,是通過使用寬為一個步長的方形像元將經驗半變異函數/協方差點組合(分組)在一起后生成的。平均點顯示為藍色的十字符號,是通過將處于圓周分區內的經驗半變異函數/協方差點進行分組后生成的。丟棄點顯示半變異函數/協方差值中的局部變化,而平均值顯示半變異函數/協方差值的平滑變化。在很多情況下,根據平均值擬合模型會更容易一些,因為它們將為數據中的空間自相關提供相對簡潔的視圖,與丟棄點相比,平均值將顯示的半變異函數值的變化更為平滑。
顯示點控件可以設置為“已丟棄和已平均化”(如上圖所示)、“已丟棄”或“已平均化”(如下圖所示)。
此外,可通過顯示所有線選項將綠線添加到圖中。這些線是根據已丟棄的經驗半變異函數/協方差值進行擬合的局部多項式。如果將顯示搜索方向選項設置為 True,則只會顯示根據“顯示搜索方向”工具的中軸樣帶中經驗半變異函數/協方差表面擬合的局部多項式,如下圖所示:
?
根據經驗數據擬合的半變異函數/協方差模型應該:
- 穿過已丟棄值(紅色的點)云的中心。
- 穿過盡可能接近平均值(藍色的十字符號)的位置。
- 穿過盡可能接近線(綠色的線)的位置。
請記住,如果模型似乎沒有完全擬合經驗數據,您對現象的認識也可以決定模型的形狀和塊金以及變程值、偏基臺值和各向異性值(回想一下,經驗數據只是要構建的真實現象模型的樣本,并不能完全代表真實現象的所有空間和統計方面)。
?
?
總結
- 上一篇: opencv 二值化图像 像素统计 co
- 下一篇: CentOS7.9 EDA软件,Cade