对《基于机器学习的区域滑坡危险性评价方法综述》阅读的总结
對《基于機器學(xué)習(xí)的區(qū)域滑坡危險性評價方法綜述》閱讀的總結(jié)
1.摘要
? 這篇綜述主要系統(tǒng)闡述了:作者通過閱讀文獻,總結(jié)了基于機器學(xué)習(xí)技術(shù)解決滑坡危險性評價方法;可以分為 1、評價因子選擇 2、數(shù)據(jù)清洗與樣本集構(gòu)建 3、模型選取與訓(xùn)練評價 這三個關(guān)鍵環(huán)節(jié)對現(xiàn)有研究成果進行分析評述;最后對機器學(xué)習(xí)滑坡危險性評價方法的發(fā)展趨勢提出討論意見。
2.研究背景
? 由于我國國土面積體量大,地形地貌種類繁多,所以相應(yīng)的滑坡災(zāi)害影響范圍廣。因此可以通過一些方法對區(qū)域滑坡危險性進行評估,進而劃分輕重緩急區(qū)別對待。
? 以往經(jīng)驗方法:
-
基于GIS對山區(qū)地質(zhì)災(zāi)害進行分析,建立數(shù)據(jù)庫并開發(fā)評價模型。
-
多種數(shù)學(xué)模型開展的穩(wěn)定性分區(qū)制圖。
大多以數(shù)學(xué)統(tǒng)計分析方法為主,通過構(gòu)建滑坡災(zāi)害影響因子評價體系,開展各影響因子與滑坡之間的統(tǒng)計規(guī)律,最后基于 GIS 開展滑坡危險性評價區(qū)
3.評價因子選取
評價單元是具有相同特性的最小地域單元,常用評價單元一般歸納為 5 類,所在確定評價單元時經(jīng)常使用網(wǎng)格單元和斜坡單元 。
3.1評價單元的劃分
- 網(wǎng)格單元
- 斜坡單元
3.2評價因子常用選取辦法:
現(xiàn)狀環(huán)境因子一般都是項目所處環(huán)境已存在或現(xiàn)有的對大氣、地表水、聲、生態(tài)等產(chǎn)生影響的因子,
3.2.1相關(guān)性分析確定評價因子:
? 對多個具備相關(guān)性的變量元素進行分析,從而衡量兩個變量因素的相關(guān)密切程度。
用各種方法剔除高共線性因子和低影響性因子
3.2.2決策樹確定評價因子:
? 使用特征分裂數(shù)、特征平均覆蓋率和特征平均增益值等方法來計算評價因子特征度量指標(biāo),反應(yīng)了各個因子對 RF 模型的解釋程度,根據(jù)模型輸出的混淆矩陣分析準(zhǔn)確度和因子特征重要性,最后得出坡度的特征重要性最高,即特征貢獻最大。
3.2.3隨機森林特征重要性確定評價因子:
? 這里的目的就是用隨機森林來進行特征篩選,可參考方法(推算出每個因子做的貢獻度的程度):
說白了就是看看每個特征在隨機森林中的每顆樹上做了多大的貢獻,然后取個平均值,最后比一比特征之間的貢獻大小。
-
每次隨機打亂任意一個滑坡因子
取值,分析前后隨機森林模型的 ACC 變化,變化程度和特征重要性成正比,再通過專家賦值法賦值相應(yīng)判別指
標(biāo)重要性,構(gòu)造因子判斷矩陣 U -
通常可以用Gini index或者袋外數(shù)據(jù)(OOB)錯誤率作為評價指標(biāo)來衡量。
我們將變量重要性評分(variable importance measures)用VIM來表示,將Gini指數(shù)用GI來表示,假設(shè)有m個特征X1,X2,X3,… Xc,現(xiàn)在要計算出每個特征X j的Gini指數(shù)評分VIM(j);即第j個特征在RF所有決策樹中節(jié)點分裂不純度的平均改變量。
Gini指數(shù)的計算公式為:
其中,K表示有K個類別,Pmk表示節(jié)點m中類別k所占的比例。
直觀地說,就是隨便從節(jié)點m中隨機抽取兩個樣本,類別標(biāo)記不一致的概率。
特征Xj在節(jié)點m的重要性,即節(jié)點m分枝前后的Gini指數(shù)變化量為:
其中,GI(L)和GIp?分別表示分枝后兩個新節(jié)點的Gini指數(shù)。
如果,特征 Xi 在決策樹i中出現(xiàn)的節(jié)點為集合M,那么 Xi 在第 i 顆樹的重要性為
假設(shè)RF中共有n顆樹,那么
最后,把所有求得的重要性評分做一個歸一化處理即可。
值得慶幸的是,sklearn已經(jīng)幫我們封裝好了一切,我們只需要調(diào)用其中的函數(shù)即可。
3.3因子量化與歸一化
1.目的:
? 需要評估并篩選原始災(zāi)害因子,以選擇合適的災(zāi)害因子,避免有一些高維特征因子,使得數(shù)據(jù)多余,增加計算成本,從而影響機器學(xué)習(xí)的評價精度。簡單來講就是把數(shù)最小為0最大為1的小數(shù),主要是為了數(shù)據(jù)處理方便,把數(shù)據(jù)映射到0~1范圍之內(nèi)處理,更加便捷快速,
? 由于使用的模型對連續(xù)變量處理不完善,同樣也將歸一化之后的數(shù)據(jù)采取了離散化處理,即歸一化后結(jié)果乘 10,將評估價指標(biāo)限定在 0~10。結(jié)果顯示空間分布更合理,適合大尺度上的災(zāi)害危險性評價。
2.歸一后好處:
- 可以提升模型的精度。
- 提升模型的收斂速度。
3.方法:
-
min-max標(biāo)準(zhǔn)化
也稱為離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0 - 1]之間。轉(zhuǎn)換函數(shù)如下:
其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個缺陷就是當(dāng)有新數(shù)據(jù)加入時,可能導(dǎo)致max和min的變化,需要重新定義。
-
Z-score標(biāo)準(zhǔn)化方法
這種方法給予原始數(shù)據(jù)的均值(mean) 和標(biāo)準(zhǔn)差(standard deviation)進行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,轉(zhuǎn)化函數(shù)為:
其中u為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
4.數(shù)據(jù)處理
4.1原始樣本選擇
? 常用的方法是用Gis收集隨機點或者區(qū)域,再以一定比例的正負(fù)樣本來構(gòu)造隨機森林原始數(shù)據(jù)集來進行危險性評價。
4.2數(shù)據(jù)清洗與樣本集構(gòu)建
1.目的:
? 目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性。提高模型精度。
2.方法:
`第一步:缺失值清洗(確定缺失值范圍->去除不需要的字段->填充缺失內(nèi)容->重新取數(shù))
第二步:格式內(nèi)容清洗(時間顯示,不應(yīng)存在的字符等)
第三步:邏輯錯誤清洗(去掉一些使用簡單邏輯推理就可以直接發(fā)現(xiàn)問題的數(shù)據(jù))
第四步:非需求數(shù)據(jù)清洗(把不要的字段刪了)
第五步:關(guān)聯(lián)性驗證`
5.模型選取與訓(xùn)練調(diào)參
5.1案例方法
5.3模型調(diào)參
? 傳統(tǒng)方法(網(wǎng)格搜索法,優(yōu)化精度和速度成反比)和超參數(shù)優(yōu)化算法------>貝葉斯優(yōu)化算法(采用了高斯過程,通過增加樣本數(shù)量來擬合目標(biāo)函數(shù)分布,目標(biāo)函數(shù)通過交叉驗證精度來進行優(yōu)化); 貝葉斯法比網(wǎng)格搜索法更高效,優(yōu)化精度更高。
5.4模型比選
? 常用: 最常用的評價方法是模型精確度(Accuracy)、ROC 曲線和 AUC 值。
? 案例:
-
訓(xùn)練出幾種不同的模型,分別繪制 ROC 曲線,并對比各模型評價結(jié)果。
-
通過 ROC 曲線、Kappa 系數(shù)和 Sridevi Jadi 精度評估方法評價對比了 5幾種模型,最終綜合這三種評價結(jié)果選取出最恰當(dāng)?shù)脑u價模。型。
6.總結(jié)
總結(jié)
以上是生活随笔為你收集整理的对《基于机器学习的区域滑坡危险性评价方法综述》阅读的总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 列表写入excel_[py
- 下一篇: java通过Excel 模板导出复杂统计