地理加权回归简易总结
地理加權回歸
空間統計有別于經典統計學的兩大特征:空間相關性和空間異質性,莫蘭指數等可以用來量化空間相關性,那么地理加權回歸,就可以用來量化空間異質性。
1.地理加權回歸的出現:
1)因為地理位置的變化,而引起的變量間關系或結構的變化稱之為空間非平穩性(spatial nonstationarity)。——蝦神
在空間上出現的非平穩性,通常被認為由以下三個方面的原因引起的:
- 隨機抽樣的誤差引起的。抽樣誤差是無法避免的,也是無法觀察的,所以統計學上一般只假定它服從某一分布,沒必要去死糾這種變化,因為對分析本身的關系作用不大。
- 是由于各地區不同的自然環境、人文環境等差異所引起的變量間的關系隨著地理位置的變化而變化。這種變化反應是數據本身的空間特性,所以在空間分析中是需要著重注意的地方。
- 用于分析的模型與實際不符,或者忽略了模型中應有的一些回歸變量而導致的空間非平穩性。
2)為了解決空間非平穩性問題,以前的研究提出了三種方案:
- 第一就是所謂的局部回歸分析。(比如說按照行政區劃)
- 第二就是移動窗口回歸。(可以解決邊界跳崖式變化)
- 第三就是變參數回歸(也就是地理加權回歸的前身)
2.地理加權回歸:
1)地理加權回歸的定義
地理加權和其他回歸分析一樣,首先要劃定一個研究區域,當然,通常這個區域也可以包含整個研究數據的全體區域(以此擴展,你可以利用空間關系(比如k-臨近),進行局部地理加權計算)……接下去最重要的就是利用每個要素的不同空間位置,去計算衰減函數,這個是一個連續的函數,有了這個衰減函數,當你把每個要素的空間位置(一般是坐標信息(x,y))和要素的值帶入到這個函數里面之后,就可以得到一個權重值,這個值就可以帶入到回歸方程里面去。
2)空間權重矩陣的確定
地理加權回歸里最重要的就是空間權重矩陣。
-
空間關系概念化
空間權重矩陣用是空間關系概念化計算出來的:空間關系觀念一共有七個:
無論是臨近方法,還是觸點方法,都會導致局部回歸的結果,也就是計算的區間不一樣,會導致樣本數量的變化,而全部加進來運算,又變成全局回歸了,所以在GWR中,能且能夠選擇的,只有距離方法了。 -
GWR中最常用的權函數
就是選擇一個連續單調的遞減函數來表示權重w和距離d之間關系,以此來克服反距離的缺點。-
Gauss函數法
-
其中所謂的帶寬b,指的就是權重與距離之間函數關系的非負衰減參數,就像上面那個圖所示,帶寬越大,權重隨距離的增加衰減的越慢,帶寬越小,權重隨距離的增加衰減的就快。
- 近高斯函數
但是,如果數據非常離散,帶來的結果就是有大量的數據躲得遠遠的,這種所謂的“長尾效應”會帶來大量的計算開銷,所以在實際運算中,應用的是近高斯函數來替代高斯計算,把那些沒有影響(或者影響很少)的點給截掉,以提高效率。
bi-square函數其實是距離閾值法和Gauss函數發法的結合。回歸點在帶寬的范圍內,通過高斯聯系單調遞減函數計算數據點的權重,超出的部分,權重全部記為0。
地理加權回歸對權函數的選擇不是很敏感,但是對于帶寬的變化卻非常敏感。帶寬過大會導致回歸參數的偏差過大,帶寬過小又會導致回歸參數的方差過大。
3.帶寬的確定
-
CV(交叉驗證)
其中,
表示在回歸參數估計的時候,不包括回歸點本身,只根據回歸點周邊的數據進行回歸參數計算,然后把不同的帶寬和不同的CV繪制成趨勢線,那么就可以找出CV值最小的時候,對應的最佳帶寬是多少了。 -
AIC(最小信息準則)
當我們有一堆可供選擇的模型參數的時候,選擇AIC最小的那個就行……因為AIC的大小取決于獨立參數的個數和模型的極大似然函數兩個值,參數值少,AIC小,且極大似然函數大,AIC也小,參數少表示模型簡潔,極大似然函數大表示模型精確。因此AIC和修正的決定系數類似,在評價模型是兼顧了簡潔性和精確性。當兩個模型之間存在較大差異的時候,這個差異肯定首先出現在模型的極大似然函數上;而這個函數沒有出現顯著的差異的時候,模型的獨立參數個數才氣作用了,從而,參數個數越少的模型,表現得越好。也就是這個原因,這個準則才被稱為:最小信息準則。
4.回歸結果解讀
- Bandwidth 或 Neighbors:是指用于各個局部估計的帶寬或相鄰點數目,并且可能是“地理加權回歸”的最重要參數。它控制模型中的平滑程度。通常,您將通過程序選擇所需的帶寬值或相鄰點值,方法是為帶寬方法參數選擇修正的 Akaike 信息準則 (AICc) 或交叉驗證 (CV)。這兩個選項都將嘗試識別最佳固定距離或最佳自適應相鄰點數目。由于“最佳”條件對于 AICc 和 CV 并不相同,因此通常會獲得不同的最佳值。
- ResidualSquares:指模型中的殘差平方和(殘差為觀測所得 y 值與 GWR 模型所返回的 y 值估計值之間的差值)。此測量值越小,GWR 模型越擬合觀測數據。此值還在其他多個診斷測量值中使用。(非常重要)
- EffectiveNumber(有效數量):此值反映了擬合值的方差與系數估計值的偏差之間的折衷,與帶寬的選擇有關。帶寬接近無窮大時,每個觀測值的地理權重都將接近 1,系數估計值與全局 OLS 模型的相應值將非常接近。對于較大的帶寬,系數的有效數量將接近實際數量;局部系數估計值將具有較小的方差,但偏差將非常大。相反,帶寬接近零時,每個觀測值的地理權重都將接近零(回歸點本身除外)。對于非常小的帶寬,系數的有效數量為觀測值的數量,局部系數估計值將具有較大方差但偏差較低。該有效數量用于計算多個診斷測量值。
- Sigma:此值為正規化剩余平方和(剩余平方和除以殘差的有效自由度)的平方根。它是殘差的估計標準差。此統計值越小越好。Sigma 用于 AICc 計算。
- AICc:這是模型性能的一種度量,有助于比較不同的回歸模型。考慮到模型復雜性,具有較低 AICc 值的模型將更好地擬合觀測數據。AICc 不是擬合度的絕對度量,但對于比較適用于同一因變量且具有不同解釋變量的模型非常有用。如果兩個模型的 AICc 值相差大于 3,具有較低 AICc 值的模型將被視為更佳的模型。將 GWR AICc 值與 OLS AICc 值進行比較是評估從全局模型 (OLS) 移動到局部回歸模型 (GWR) 的優勢的一種方法。
- R2:R 平方是擬合度的一種度量。其值在 0.0 到 1.0 范圍內變化,值越大越好。此值可解釋為回歸模型所涵蓋的因變量方差的比例。R2 計算的分母為因變量值平方和。向模型中再添加一個解釋變量不會更改分母但會更改分子;這將出現改善模型擬合的情況(但可能為假象)。
- R2Adjusted:由于上述 R2 值問題,校正的 R 平方值的計算將按分子和分母的自由度對它們進行正規化。這具有對模型中變量數進行補償的效果,因此校正的 R2 值通常小于 R2 值。但是,執行此校正時,無法將該值的解釋作為所解釋方差的比例。在 GWR 中,自由度的有效值是帶寬的函數,因此與像 OLS 之類的全局模型相比,校正程度可能非常明顯。因此,AICc 是對模型進行比較的首選方式。
參考文獻:
1.《白話空間統計:地理加權回歸系列》——大蝦盧
2.《ArcGIS Desktop 幫助文檔》
總結
以上是生活随笔為你收集整理的地理加权回归简易总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: R语言快速入门课——结合各种生物信息学及
- 下一篇: angularjs初始化时不显示模板内容