地震波形自动分类及识别(构想)
地震波形自動分類及識別
- 一、任務背景
- 二、數據格式
- 三、擬采用方法及理由
- 3.1、提高計算速度
- 1、減少噪聲
- 2、算法優化
- 3.2、提高泛化性
- 1、提高地域相關泛化性
- 2、提高學習效率
- 3、數據增強
- 3.3、實驗與檢測
一、任務背景
隨著地震儀在全球范圍的大規模部署,人類已經進入地震大數據時代.如何處理地震網絡每天收集的大量數據,特別是從質量參差不齊的連續波形記錄中分離出地震和噪聲是一個非常棘手的問題.大地震發生之后,抗震救災與應急救援需要對余震序列進行動態的監測與快速定位,地震編目,地球內部速度結構研究如層析成像等都是以大量地震事件的挑選與到時拾取作為基礎,而目前這些工作仍主要靠低效的人工完成。
發展高效、高精度、普適性強的自動波形拾取算法在地震大數據時代背景下顯得越來越重要.波形自動拾取算法的主要挑戰來自如何適應不同區域的不同類型地震事件的分類與篩選。
與基于單一或多個特征函數的傳統方法相比,CNN 網絡的精度和召回率(誤檢和漏檢率)相比傳統算法有非常明顯的提升(降低),并且訓練好的模型具有非常穩定的輸出能力,不需要根據不同信噪比水平的數據頻繁調整閾值.與模板匹配、FAST 等嚴格基于波形相似性的方法不同,CNN 神經網絡從訓練數據中提取的是抽象特征,這意味著模型具有更強的泛化能力,能夠與更多樣的波形特 征 相 匹 配,所 以 CNN 往往能夠檢測到新的地震類型,這也是深度學習方法的主要優勢所在。
二、數據格式
以汶川地震之后四川及鄰區14個臺站7~8月期間手動挑選的 13839 條和 8900 條地震事件波形分別構建訓練數據集和測試集,搭建深度卷積神經網絡進行模型訓練和測試。
數據集包括:
1.stlist.txt:列出數據來自的站點。
2.wenchuan_aftershocks_picks_2008_6_to_9.csv:汶川余震的25000個P和S拾取的UTC時間戳(高度可信),您可以使用它為CNN數據集或U-net數據集構建正樣本。如果您仍然不知道如何操作,第1和第2頁將為您提供有關操作方法的說明。有關CNN數據集,您也可以參考https://github.com/mingzhaochina/ConvNetQuake。
3.wenchuan_bold_catalog.csv:用于構建CNN的負樣本(噪聲)。您需要在連續數據中避免這些時間戳處于某 個范圍內,例如[-60s,+ 60s]。
三、擬采用方法及理由
多個地震事件建立數據集并訓練 CNN 模型,其得到的模型具有較強的泛化能力,即使對與訓練數據所屬區域構造不同的地區,也能有效檢測。
3.1、提高計算速度
1、減少噪聲
盡可能減少事件人工標注和噪聲隨機篩選帶來的誤差,我們手動對數據集進行了清洗,更正較為明顯的標注錯誤
應用長短窗方法,根據各地臺站的信噪比
條件選擇合適的閾值做初步篩選,這樣做是為了提高算法效率,過濾掉大部分環境噪聲。
2、算法優化
使用L2正則化以及隨機梯度下降算法來最小化交叉熵損失函數,并用 ADAM 優化算法以及可變時間步長,進一步提高了計算效率,在保證精度的同時有效提升計算速度。
3.2、提高泛化性
核心思想:理想的數據集的每一類別都需要充分的樣本數量,并且能夠覆蓋地震波形所具有的各種復雜特征。
1、提高地域相關泛化性
由于不同的區域具有不同地質構造背景,其事件波形也各不相同,因此我們參考歷史地震活動性區域劃分按照地震震中之間 的 歐 幾 里 得 距 離 進 行 了 K-Means 聚 類 算法劃分,增強 CNN 算法性能與地域的相關性。
2、提高學習效率
過多重復的數據需要設置合適的閾值,清洗掉部分數據,保證在維持低水平誤差率的情況下避免過擬合。
3、數據增強
為了防止數據量過小可能導致的泛化性差,我們還對清洗后的數據集進行了數據增強操作。由于地震三分量波形可以看作一維三通道圖像數據,可參照圖像識別,采用了如下幾種常用的數據增強方式:平移、加噪(模糊處理)、濾波。
同時 CNN 方法還可以通過將誤分類波形代入數據集重新訓練,從而獲得越來越 好的實際分類效果。
3.3、實驗與檢測
1、使用精確率與召回率方法去驗證訓練效果。
2、與傳統方法的對比:對 CNN 網絡識別為地震的波形片段,
可采 用dbshear震相自動識別程序進行挑取處理,將拾取到的 P、S到時與中國地震臺網發布的參考地震目錄進行關聯對比,分析實際效果。
總結
以上是生活随笔為你收集整理的地震波形自动分类及识别(构想)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: css抄页面,如何正确的抄网页
- 下一篇: Flask视图、模板、模型