海洋大数据关键技术及在灾害天气下船舶行为预测上的应用
海洋大數(shù)據(jù)關鍵技術及在災害天氣下船舶行為預測上的應用
王冬海,盧峰,方曉蓉,郭剛
中電科海洋信息技術研究院有限公司,北京 100041
摘要:隨著海洋數(shù)據(jù)量的爆炸式增長,海洋大數(shù)據(jù)受到越來越多的關注。主要分析和總結了當前海洋大數(shù)據(jù)的研究現(xiàn)狀和關鍵技術,聚焦了機器學習在海洋大數(shù)據(jù)中的模型預測研究的實例,對海上船舶在災害天氣(臺風)下的行為進行了回歸訓練和預測。通過構建和對比決策樹、Bagging、隨機森林等多種機器學習算法,對樣本數(shù)據(jù)進行學習、預測和檢驗評估。最終結果表明,隨機森林方法在災害天氣下船舶密度的預測應用中具有良好和穩(wěn)健的效果。
關鍵詞:海洋大數(shù)據(jù);機器學習;船舶行為預測
doi:10.11959/j.issn.2096-0271.2017044
論文引用格式:王冬海,盧峰,?方曉蓉,?等.?海洋大數(shù)據(jù)關鍵技術及在災害天氣下船舶行為預測上的應用[J].?大數(shù)據(jù),2017, 3(4): 81-90.
WANGD H, LU F, FANG X R, et al. Ocean big data and applications in ship behaviorprediction under disaster weather[J]. Big Data Research, 2017, 3(4): 81-90
1??引言
在經(jīng)濟全球化的今天,全球90%的貿(mào)易都經(jīng)過海洋,全球70%的經(jīng)濟活動都發(fā)生在沿海地區(qū),沿海地區(qū)海洋經(jīng)濟發(fā)展已經(jīng)成為帶動我國國民經(jīng)濟增長的重要因素。隨著信息技術的快速發(fā)展和國家海洋戰(zhàn)略的實施,與海洋相關的科學觀測/監(jiān)測與數(shù)值計算、海洋經(jīng)濟和管理等數(shù)據(jù)日益增多,與海洋相關的音頻、視頻、文字和圖片等數(shù)據(jù)大量涌現(xiàn),數(shù)據(jù)存儲量、規(guī)模、種類飛速增長,海洋大數(shù)據(jù)正成為大數(shù)據(jù)領域的重要應用之一。
海洋大數(shù)據(jù)作為全球大數(shù)據(jù)的重要組成部分,是實現(xiàn)海洋信息行業(yè)智能化管理和“互聯(lián)網(wǎng)+”的基礎和前提,也是實現(xiàn)我國“海洋強國”戰(zhàn)略的重要支撐與保障。隨著我國“空天地海潛”一體化立體監(jiān)測技術的發(fā)展和數(shù)字海洋建設的全面深入,海洋信息化已經(jīng)逐步從數(shù)字海洋向智慧海洋發(fā)展,海洋數(shù)據(jù)在數(shù)量、增長速度、種類擴展3個方面都有了飛躍式的進展,海洋數(shù)據(jù)蘊含的價值也越來越高。
同時,海洋大數(shù)據(jù)還面臨著一些挑戰(zhàn):海洋相關數(shù)據(jù)體量巨大、類型多樣、數(shù)據(jù)利用率較低、處理算法過于簡單、遠海海域數(shù)據(jù)獲取不足等問題,難以滿足海洋信息服務的需求。迫切需要發(fā)展海洋大數(shù)據(jù)及其應用技術,充分挖掘海洋數(shù)據(jù)價值,全面提升資源保護與開發(fā)、環(huán)境預警與預報、應急與救助、安全管控等領域的智能化、精細化能力,為實現(xiàn)“海洋強國”“一帶一路”國家戰(zhàn)略提供信息技術支撐。
本文針對海洋大數(shù)據(jù)技術現(xiàn)狀,圍繞國家海洋發(fā)展戰(zhàn)略在海洋安全建設、智慧海洋建設等方面的關鍵技術研究與工程應用,介紹了海洋大數(shù)據(jù)研究的關鍵技術及海洋大數(shù)據(jù)在災害天氣下輔助決策方面的初步應用。
2?海洋大數(shù)據(jù)關鍵技術
海洋大數(shù)據(jù)應用技術平臺基于云計算架構,搭建包括數(shù)據(jù)匯集、數(shù)據(jù)存儲和數(shù)據(jù)處理的大數(shù)據(jù)業(yè)務處理系統(tǒng)以及運維管控、安全保障、標準規(guī)范3個支撐體系,如圖1所示。
圖1 海洋大數(shù)據(jù)應用技術平臺架構
2.1?海洋多源信息感知探測技術
構建覆蓋空、天、海、岸、潛的一體化數(shù)據(jù)采集信息網(wǎng)絡,獲取來自天基信息系統(tǒng)(衛(wèi)星)、無人機信息系統(tǒng)、岸基雷達和觀測站、船載探測平臺、浮標、水下觀測信息系統(tǒng)(水下滑翔機、水下潛器和海底觀測網(wǎng)等)多源觀測信息,實現(xiàn)海洋的全天時、全天候環(huán)境與目標觀測,通過海上綜合通信傳輸網(wǎng)絡,對感知網(wǎng)絡進行集成連接,形成一體化綜合信息網(wǎng)絡,獲取衛(wèi)星遙感影像數(shù)據(jù)、航空影像遙感數(shù)據(jù)、沿海臺站觀測數(shù)據(jù)、岸基雷達觀測數(shù)據(jù)、海洋浮標觀測數(shù)據(jù)、調查船走航斷面的觀測數(shù)據(jù)、海底潛標平臺數(shù)據(jù)等海洋觀測/監(jiān)測數(shù)據(jù)以及漁業(yè)經(jīng)濟數(shù)據(jù)、漁業(yè)捕撈數(shù)據(jù)、漁業(yè)管理數(shù)據(jù)、海洋旅游數(shù)據(jù)、航運交通數(shù)據(jù)、海上貿(mào)易數(shù)據(jù)、全球海關數(shù)據(jù)等海洋行業(yè)數(shù)據(jù),達到對海域安全態(tài)勢、環(huán)境信息、海域資源、目標活動的全面掌控。
2.2?海洋大數(shù)據(jù)處理平臺技術
海洋大數(shù)據(jù)平臺基于云計算架構,解決海量數(shù)據(jù)的分布式存儲、管理和分析等大數(shù)據(jù)業(yè)務,改變海洋信息資源使用的無序狀態(tài)。突破海量數(shù)據(jù)存儲及高效管理,重點解決各類涉海信息自成體系、數(shù)據(jù)格式不統(tǒng)一、數(shù)據(jù)量和采樣頻率差異大等問題,構建統(tǒng)一數(shù)據(jù)提取接口,制定信息技術標準和數(shù)據(jù)轉換規(guī)范,建立多源大數(shù)據(jù)存儲及管理系統(tǒng)。數(shù)據(jù)庫采用分布式非結構化數(shù)據(jù)庫——HBase,數(shù)據(jù)統(tǒng)一采用基于Hadoop分布式文件系統(tǒng)(Hadoop distributed file system,HDFS)進行存儲。針對海量數(shù)據(jù)的分布式存儲及離線快速分析處理,采用包括實時性處理能力強的Spark計算框架以及適用于超大規(guī)模作業(yè)離線處理的基于map/reduce并行編程模型的Hadoop計算框架,對海量涉海數(shù)據(jù)進行批量自動轉換,最終實現(xiàn)海洋數(shù)據(jù)從存儲、管理到數(shù)據(jù)清洗、融合、挖掘、顯示的大數(shù)據(jù)平臺構建[1]。
2.3?海洋多維重建與可視技術
海洋環(huán)境要素多維重建與可視計算是在基于地球球體模型的三維可視化基礎平臺上,對海底、水體、海面和海岸的各種海洋自然要素以及海洋自然現(xiàn)象進行可視化表達、再現(xiàn)或預現(xiàn)。綜合運用增強現(xiàn)實等技術實現(xiàn)海洋要素、自然要素、海上設施、目標要素等的三維可視化表達。將計算機生成的海面及海岸等虛擬圖形疊加在用戶看到的一個現(xiàn)實海岸及海面場景上,從而代替虛擬現(xiàn)實中完全由計算機虛擬生成的世界。海洋要素數(shù)據(jù)可視化通過海洋數(shù)值模擬,實現(xiàn)對海水溫度、鹽度、海表面高度異常、海流、密度、聲、光、電、磁等參數(shù)的三維動態(tài)再現(xiàn)。海洋自然要素通常采用場模型來表達,實現(xiàn)對泥沙沉積、礦產(chǎn)等海底地質、地形地貌、礦產(chǎn)資源、海底電纜管道和毗鄰區(qū)、專屬經(jīng)濟區(qū)及大陸架區(qū)域的大陸坡線、海槽等自然要素的可視化表達。目標要素包括出現(xiàn)在水面及水下的船舶、無人潛航器、蛙人等目標。將不同參數(shù)的海洋狀態(tài)數(shù)據(jù)疊加展示在二維、三維海洋地理信息系統(tǒng)(geographic information system,GIS)平臺之上,實現(xiàn)對海洋基礎數(shù)據(jù)、海洋目標數(shù)據(jù)、海洋環(huán)境數(shù)據(jù)以及衍生數(shù)據(jù)(海洋同化數(shù)據(jù)、海洋遙感反演數(shù)據(jù)、數(shù)值分析輸出數(shù)據(jù)等)的管理、集成、分析以及可視化表達等功能,為研究海洋系統(tǒng)的結構與功能、揭示并認識海洋現(xiàn)象的各種規(guī)律等活動提供通用、易用、規(guī)范的工具。
2.4?海洋大數(shù)據(jù)關聯(lián)與挖掘技術
針對海上分布式多源異構性傳感器間目標關聯(lián)問題,利用多特征融合的目標關聯(lián)方法,通過分析雷達、船舶自動識別系統(tǒng)(automatic identification system,AIS)、廣播式自動相關監(jiān)視(automatic dependent surveillance-broadcast,ADS-B)系統(tǒng)、電磁、光電等多傳感器之間觀測上提取的共有特征,計算目標間通過特征信息融合成的關聯(lián)測度,形成關聯(lián)判決依據(jù),并在關聯(lián)決策上采用基于有效特征數(shù)累積的全局最優(yōu)關聯(lián)算法,對直接的關聯(lián)依據(jù)決策判決進行修正,提供海洋情報的關聯(lián)挖掘和輔助決策[2]。通過采集海洋氣象、海浪、洋流、海洋資源、海洋災害等海洋環(huán)境信息以及AIS、ADS-B、雷達、光電等手段感知目標信息,再結合航運交通信息、海上貿(mào)易信息、地理信息、市場信息等,采用序列建模、聚類等無監(jiān)督方法以及決策樹(decision tree)、隨機森林(random forest)、支持向量機、神經(jīng)網(wǎng)絡、貝葉斯等有監(jiān)督方法的機器學習預測分析,得到相關關系與基本規(guī)律,預測未來的變化趨勢[3],為海洋資源利用、航運、漁業(yè)、旅游等各項海洋活動提供信息服務支撐。
3?海洋大數(shù)據(jù)在災害天氣下船舶行為預測上的應用
利用機器學習對海洋關聯(lián)事件進行預測是海洋大數(shù)據(jù)應用的一個重要方向。采用機器學習中的決策樹、Bagging、隨機森林等算法,對海上船舶在災害天氣(臺風)情況下的行為進行了預測。針對機器學習在多源異構海洋大數(shù)據(jù)的預處理、特征工程、特征選擇、模型訓練、模型評估等算法流程進行了介紹。
3.1?災害天氣下的船舶行為預測
海上船舶在災害天氣下需要隨時掌握天氣變化情況,并在臺風、海嘯等極端天氣來臨之前及時做出到就近港口避難等行為反饋。然而不同海域的船舶在何時做出何種避難行為往往受到船長的主觀因素影響較大。船舶在災害天氣下的行為模式是否存在顯著特征,能否得到合理的預測,該問題的解決對于災害天氣下港口應急調度與高效管理具有重要意義,可通過臺風路徑的預測信息精確預測船舶的行為,從而減輕災害天氣對航運業(yè)的經(jīng)濟損失。近年來隨著大數(shù)據(jù)技術的發(fā)展,機器學習的強大學習和智能化應用在各行各業(yè)逐漸火熱和成熟。機器學習主要研究計算機模擬或實現(xiàn)人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,目前已經(jīng)成為多源異構大數(shù)據(jù)挖掘和處理的重要科學工具。
本文通過船舶行為與異常天氣的回放來構建極端天氣條件與船舶密度變化的算法預測模型,根據(jù)對大量樣本的學習、預報和檢驗,得到災害天氣情況下的船舶行為預測,為海上防災預警、港口泊位管理與指揮調度等應用提供信息支撐。
3.2?多源數(shù)據(jù)采集
本文主要采用中國氣象局臺風最佳路徑數(shù)據(jù)集[4]、美國國家環(huán)境預報中心(National Centers For Environmental Prediction,NCEP)全球數(shù)值環(huán)境再分析場[5]和全球船舶自動識別系統(tǒng)數(shù)據(jù)來進行分析訓練研究。臺風路徑數(shù)據(jù)由中國氣象局熱帶氣旋資料中心提供,該中心網(wǎng)站提供了1949年以來西北太平洋海域熱帶氣旋每6 h的最佳路徑數(shù)據(jù)集。該數(shù)據(jù)集參數(shù)主要包括臺風路徑經(jīng)緯度坐標、時間、強度等級等。同時,還獲取了同步的三維NCEP再分析環(huán)境場數(shù)據(jù),該數(shù)據(jù)由美國國家海洋和大氣局(National Oceanic and Atmospheric Administration,NOAA)的國家環(huán)境預報中心開發(fā)和提供。該中心每天定時發(fā)布前一天4次的同化再分析數(shù)據(jù),分別為00:00、06:00、12:00和18:00,數(shù)據(jù)空間分辨率是2.5°×2.5°經(jīng)緯網(wǎng)格,垂直方向26層(從地面到10 hPa)。該資料集分為大氣等壓面資料、地面(海表)資料、通量資料等。本文主要使用地面(海表)資料作為輔助分析。AIS資料[6]主要來自船舶上配備的船舶自動識別系統(tǒng),通過連接船上全球定位系統(tǒng)(global positioning system,GPS)定位儀、測深儀、電羅經(jīng)等設備,能夠自動采集并發(fā)射船舶實時的靜態(tài)信息和動態(tài)信息(船舶身份、船舶位置、吃水、航速、船舶艏向、船舶類型、船舶長度、寬度等),實時反映船舶航行狀態(tài)和海上交通態(tài)勢。本文采用AIS船舶靜態(tài)信息和動態(tài)信息進行分析,全球AIS一年的數(shù)據(jù)量約為300多億條。此外,由于船舶空間分布密度和距沿岸各港口的距離存在一定關系,所以這里還引入了全球16 831個船舶停靠點的坐標信息。該數(shù)據(jù)主要包含了港口的地理坐標、名稱、所屬國家等信息。
3.3?數(shù)據(jù)分析和處理方法
3.3.1?多源異構數(shù)據(jù)預處理
預處理主要針對需要預測的船舶分布密度進行各種數(shù)據(jù)的匹配、插值處理、質量控制等步驟。這里采用的數(shù)據(jù)特征呈現(xiàn)多源異構性,包括從1~3維的不同領域和特征信息的數(shù)據(jù)。需要針對計算船舶分布密度問題進行多源異構數(shù)據(jù)的預處理。最終獲得一套時空匹配的多源異構融合數(shù)據(jù)集,為后面的訓練和預測研究奠定基礎。這里的船舶密度利用AIS數(shù)據(jù)進行網(wǎng)格化處理,然后針對每個網(wǎng)格的數(shù)據(jù)進行求和統(tǒng)計。
臺風最佳路徑數(shù)據(jù)采用文本格式保存,是混合數(shù)值和字符型信息保存的一維數(shù)組。首先從臺風最佳路徑數(shù)據(jù)選取過境南海海域的時段,針對這些臺風時段的數(shù)據(jù),采用線性插值方法將6 h一次的定位數(shù)據(jù)插值到1 h的時間分辨率。由于地理網(wǎng)格化的船舶密度可能和臺風中心距離密切相關,所以這里還要利用地球坐標最近距離算法求解每個網(wǎng)格中心點和臺風中心的絕對距離。NCEP再分析資料是采用氣象上標準的網(wǎng)絡通用數(shù)據(jù)格式(network common data form, NetCDF)存儲的三維資料。由于時間分辨率不高,這里采用時間權重方法進行插值處理,計算式如下:
這里P1~Pn表示需要獲得的第1~n個參數(shù)(主要包括氣壓、氣溫等),w1和w2表示每個時刻的再分析資料的時間權重, Pt1nPnt1和Pt2nPnt2表示前后兩個時間對應的參數(shù)。最后,將經(jīng)過時間插值的三維數(shù)據(jù)插值到0.5°×0.5°(50 km)水平分辨率進行匹配。經(jīng)過特征分析結果表明,災害天氣下的氣溫、相對濕度等參數(shù)的變化特征不太明顯,與船舶行為的關聯(lián)性不大,而風場、氣壓和降水在災害天氣下有顯著的變化響應,可以作為災害天氣(臺風)的表征參數(shù)。另外,從本算例可以看出,能夠影響船舶航行行為的特殊天氣情況主要為臺風、風暴潮(海嘯)等極端天氣情況。一般的天氣情況對船舶航行行為影響不顯著。在開展氣象環(huán)境對船舶行為影響分析時,可以重點以臺風、風暴潮等災害天氣情況為主要數(shù)據(jù)源,以風場、氣壓、降雨等數(shù)據(jù)為輔助數(shù)據(jù)進行分析。通過相關性分析進行變量篩選(過程圖片太多,考慮篇幅在此省去),選取與臺風最佳路徑最相關的氣象數(shù)據(jù)(風場、氣壓、降雨),刪除與臺風路徑相關性較小的氣象數(shù)據(jù)(氣溫、濕度)。由于以逗號分隔值(comma separated value,CSV)格式存儲的AIS數(shù)據(jù)受到信息傳輸、錯誤解碼等因素的影響,無法避免地會存在錯誤信息,因此需要對AIS數(shù)據(jù)進行清洗和插值補充,從而提高AIS數(shù)據(jù)的可用性和可靠性。這里選取106°~115°E,10.5°~20.5°N范圍,按照小時分辨率對AIS全年數(shù)據(jù)進行0.5°×0.5°網(wǎng)格上的分布密度計算,得到需要特征庫數(shù)據(jù)集。最后,基于AIS網(wǎng)格數(shù)據(jù),對全球船舶停靠點進行研究區(qū)域內(nèi)的快速自動篩選,確定118個停靠點及相對每個船舶密度空間網(wǎng)格的距離因子。
在參數(shù)選擇過程中,根據(jù)一般經(jīng)驗、特征重要性排序和模型預測的誤差結果反饋對特征參數(shù)做了篩選(刪除特征重要性較低的參數(shù))。最終選擇的特征參數(shù)包括:網(wǎng)格距最近港口距離(distance)、每天時刻(ta,取00:00~23:00的整點)、網(wǎng)格距臺風中心距離(typhoon_distance)、臺風中心經(jīng)度(typhoon lon)、臺風中心緯度(typhoon lat)、臺風年齡(ddt)、NCEP海面降雨場(rain)、NCEP海面風場(wind)、NCEP海面氣壓場(pressure)、網(wǎng)格船舶密度(density),共10個參數(shù)。
●?網(wǎng)格距最近港口距離(distance):由于交通流(AIS)與感興趣點(point of interest,POI)有關,其中感興趣點是指對交通流有明顯影響的地點,選取港口作為POI。
●?每天時刻(ta):白天和晚上船舶的行為活動存在差異,因此加入該特征。
●?網(wǎng)格距臺風中心距離(typhoon distance):由于缺乏臺風作用距離參數(shù),因此用臺風中心距網(wǎng)格距離來代替。
●?臺風中心經(jīng)度(typhoon lon)、臺風中心緯度(typhoon lat):臺風位置影響船舶行為。
●?臺風年齡(ddt):臺風生成到消亡存在時間周期,船舶行為與臺風生成后的時間有關。
●?NCEP海面降雨場(rain)、NCEP海面風場(wind)、NCEP海面氣壓場(pressure):通過相關性分析選取與臺風相關的氣象參數(shù)降雨、風場、氣壓場。由于臺風路徑信息僅包含臺風位置和強度信息,缺乏空間變化,因此在此加入了氣象場數(shù)據(jù)。
●?網(wǎng)格船舶密度(density):模型的預測因子。
其中模型輸出為船舶密度,其余9個與氣象、時間、POI相關的變量為模型輸入。從特征庫資料隨機選取其中80%的數(shù)據(jù)作為訓練集,其余20%的數(shù)據(jù)作為測試集。
3.3.2?機器學習訓練模型選擇
針對需要預測的問題,選擇了3種主要的機器學習模型來訓練前面預處理的多源異構數(shù)據(jù)集。模型包括決策樹、Bagging和隨機森林方法。除了以上3種模型外,還可以選擇神經(jīng)網(wǎng)絡、支持向量機(support vector machine,SVM)、XGBoost等回歸模型,本文暫不做詳細探索。
決策樹模型是一種樹型結構(可以是二叉樹或非二叉樹),基于特征對實例進行分類或回歸的過程。其每個非葉節(jié)點表示一個特征屬性上的判定,每個分支代表這個特征屬性在其值域上的輸出,而每個葉節(jié)點存放一個類別。使用決策樹進行決策的過程就是從根節(jié)點開始,測試待分類項中相應的特征屬性,并按照其值選擇輸出分支,直到到達葉子節(jié)點,將葉子節(jié)點存放的類別作為決策結果。
Bagging是bootstrap aggregation的簡稱,它是一種有放回的抽樣方法。Bagging方法是多模型融合方法,它主要是為了解決單一分類器容易產(chǎn)生過擬合的問題。Bagging通過重復取樣,相同訓練的數(shù)據(jù)多了之后,能夠減少結果的方差,可以理解為綜合多個弱分類器的結果得到一個強分類器。
隨機森林[7]是通過構建多個弱分類器,使得最終分類效果能夠超過單個分類器的一種融合算法。隨機森林可理解為由很多決策樹組成的森林。隨機意味著每棵樹之間沒有任何聯(lián)系,都是獨立的。它也是按照Bagging的方法重復取樣,抽取的數(shù)量和樣本總量相等。但是在訓練樹的時候并不是把所有特征都用上。假設總共有M個特征。每次訓練一棵樹的時候,隨機抽取其中的m(m<<M)個特征進行訓練。隨機森林中的樹不需要進行剪枝操作。因為樣本的抽取、特征的抽取已經(jīng)保證了隨機性,大大減少了過擬合的可能性。
分類與預測模型對訓練集進行預測得到的準確率并不能很好地反映預測模型未來的預測性能,為了能夠有效地判斷一個預測模型的性能表現(xiàn),需要一組沒有參與預測模型建立的數(shù)據(jù)集(測試集),并在該數(shù)據(jù)集上評價預測模型的準確率。將數(shù)據(jù)分為訓練數(shù)據(jù)集、測試數(shù)據(jù)集,然后通過訓練數(shù)據(jù)集進行訓練,通過測試數(shù)據(jù)集進行測試。模型預測效果的評估方法采用均方誤差(MSE)、均方根誤差(RMSE)、平均絕對誤差(MAE)、正則均方誤差(NMSE)等。
3.4?結果分析
3.4.1?模型訓練
圖2顯示了采用決策樹、Bagging、隨機森林模型對特征庫樣本的訓練結果,橫坐標為訓練集的船舶密度(可理解為真值),縱坐標為模型預測的船舶密度(預測值)。可以看出隨機森林模型的預測值與真值幾乎為一條直線,模擬結果遠遠優(yōu)于決策樹和Bagging方法。說明隨機森林模型能夠很好地預測臺風天氣下船舶的密度變化。
圖2 決策樹、Bagging、隨機森林模型訓練結果
3.4.2?誤差分析
采用均方誤差、均方根誤差、平均絕對誤差、正則均方誤差4項指標進行模型的誤差分析。模型訓練集誤差(見表1)和測試集誤差(見表2)顯示,隨機森林模型的誤差遠遠優(yōu)于決策樹和Bagging法的誤差。
表1 訓練集誤差分析
表2 測試集誤差分析
表3和圖3顯示了隨機森林模型的特征重要性降序排序結果。隨機森林對連續(xù)變量設置了兩種重要性,一種是平均均方誤差減少百分比(%IncMSE),另一種是平均節(jié)點不純度下降量(IncNodePurity)。變量重要性排名第1位的是臺風年齡(臺風生成后的時間);排名第2位的是每天的時刻,說明白天或夜晚船舶的行為響應不同;排名第3位的是網(wǎng)格距最近港口距離;排名第4位的是臺風中心緯度;排名第5位的是臺風中心經(jīng)度;排名第6位的是氣壓場;排名第7位的是距臺風中心距離。風場和降雨場的影響較小,其原因可能是,臺風登陸帶來大風強降雨之前,船舶已經(jīng)進入避風港,并將持續(xù)停留,直到大氣和降雨天氣好轉。另外,兩種特征重要性定義不同導致其排序的結果也不同。這是由于預測變量船舶密度是空間變化的,而某些特征因素是純時間(如臺風年齡),因此雖然在%IncMSE重要性上影響很大(加噪聲后的誤差),但由于缺乏空間分布信息,它們在IncNodePurity的重要性排序并不高。
表3 隨機森林模型特征重要性排序
圖3 隨機森林模型特征重要性排序
以上結果說明,在臺風等災害天氣下,船舶行為受到天氣作用的影響十分顯著。
由于影響船舶航行的水文氣象因素還有海浪、海冰、海流、海霧等[8],未來可以考慮在特征數(shù)據(jù)庫中加入海浪、海霧等海洋環(huán)境數(shù)據(jù),進一步提高模型預測精度。另外,由于在臺風作用半徑以外,對船舶行為影響較小,因此,應當加入臺風作用半徑的參數(shù)來修正各網(wǎng)格點距離臺風中心距離的參數(shù)。最后,還應當考慮加入K層交叉驗證(K-fold cross-validation),將K個模型在K個測試集上的準確率(NMSE/RMSE)的平均值作為模型的綜合性能評價指標,從而減少由于抽樣不均勻導致的訓練集和測試集的誤差變化。
4??結束語
本文介紹了海洋大數(shù)據(jù)的特點與發(fā)展現(xiàn)狀,分析了海洋大數(shù)據(jù)行業(yè)的數(shù)據(jù)來源與特點,介紹了海洋大數(shù)據(jù)的關鍵技術,并使用機器學習中的決策樹、Bagging、隨機森林模型開展了海上船舶密度分布預測的大數(shù)據(jù)應用案例研究。目前,海洋大數(shù)據(jù)仍然面臨著諸多挑戰(zhàn),海洋數(shù)據(jù)在不同行業(yè)間難以共享,數(shù)據(jù)缺乏標準化統(tǒng)一管理等。然而,隨著技術的發(fā)展,對海洋的認知和大數(shù)據(jù)技術的深入結合,海上信息服務應用與智能化管理必然將得到逐步提高。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
王冬海(1968-),男,中電科海洋信息技術研究院有限公司研究員,中國電子科技集團公司首席專家,長期從事信息系統(tǒng)總體、系統(tǒng)仿真、信息安全等前沿技術研究工作,對信息系統(tǒng)仿真和軟件工程有深入研究,在軟件配置管理方面有豐富的實踐經(jīng)驗。
?
盧峰(1972-),男,中電科海洋信息技術研究院有限公司高級工程師,長期從事信息系統(tǒng)總體、信息處理技術等方向的研究工作,曾在微軟和聯(lián)想公司長期從事國內(nèi)外大型系統(tǒng)總體設計,熟悉大數(shù)據(jù)挖掘技術,在軟件計算和服務平臺方面有豐富的實踐經(jīng)驗。現(xiàn)負責海洋大數(shù)據(jù)平臺架構搭建及海洋信息處理技術研發(fā)。
方曉蓉(1990-),女,中電科海洋信息技術研究院有限公司助理工程師,主要研究方向為海洋大數(shù)據(jù)、海洋觀測數(shù)據(jù)分析、海洋模型數(shù)值模擬。
?
郭剛(1983-),男,中電科海洋信息技術研究院有限公司工程師,主要研究方向為大數(shù)據(jù)分析、信息安全。
《大數(shù)據(jù)》期刊
《大數(shù)據(jù)(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學會大數(shù)據(jù)專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結
以上是生活随笔為你收集整理的海洋大数据关键技术及在灾害天气下船舶行为预测上的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者:孟凡(1989-),男,中国科学院
- 下一篇: C语言文本操作以及C语言小技巧