网络安全模型_基于数据驱动的网络安全流量分析总结
導讀
網絡和社交流量分析是檢測和防御網絡攻擊的基礎。隨著數據集的日益劇增,手工定義規則的傳統方法逐漸被機器學習(ML)方法替代,這是因為ML有更好的工作性能。在數據驅動的研究背景下,通過研究社交流量和網絡流量的大量文獻,本文采用相似相關性以及可提取特征等常用概念和共享網絡安全目標的方法來分類網絡主機與應用程序的網絡流量和用戶與Tweet的社交流量。因為網絡和社交流量的研究不是孤立的,而是需要廣泛使用大量的、不同的網絡或社交流量數據,而且這些流量還具有許多特征,比如特定的大小,源與目的間的多層信息。本文闡述了一種新的基于數據驅動的網絡安全研究方法(DDCS),并介紹其在社交和網絡流量分析中的應用。DDCS的框架包括三個組成部分,即:網絡安全數據處理、網絡安全特征工程和網絡安全建模。
概述
在互聯網時代,網絡安全問題尤為重要。而網絡流量分析又是網絡安全的重要組成部分,本文展示了一種基于數據驅動的流量分析模式。
大量文獻都基于數據驅動,以前的數據分析只是傳統的統計分析的工作。但在大數據和人工智能時代,即使數據復雜多樣,許多隱藏的信息、知識等仍然可以通過ML來獲得,可以用于解決當前和未來的網絡安全挑戰。網絡和社交流量、統計特征和有效載荷都可以作為數據。
最近有關流量的研究綜述,側重于分析ML技術的應用。但是網絡流量分析缺乏統一的數據驅動框架。這篇論文就填補了這一空白,提出了一種新的基于數據驅動的網絡安全研究方法(DDCS),它包括網絡安全數據處理、網絡安全特征工程和網絡安全建模三個方面。這三個方面是按順序排列的,該框架有助于解決網絡安全的核心問題。
基于數據驅動的網絡安全框架
本節提出了基于數據驅動網絡安全研究框架DDCS。DDCS是采用基于數據驅動的機器學習算法來解決網絡安全問題。DDCS由網絡安全數據處理、網絡安全特征工程和網絡安全建模三部分組成。具體來說,就是從不同角度考慮數據、ML、先驗知識、度量標準。對于每一步,首先考慮數據,然后圍繞數據組織、優化和ML模型,討論適合典型數據驅動流程的數據。進一步根據實際情況采用有監督的、無監督的、半監督的或混合的機器學習方法,得出數據流量分析的結果。
A.????網絡安全數據處理
大多數情況下,網絡安全數據必須被標記,而標記的類型根據具體問題具體分析,同時為了保證ML性能,標簽的數量必須有限。目前廣泛使用的標記方法,有手動檢查,或者過濾黑名單,在流量分析領域比較常用的方法是識別有效載荷的深度包檢測(DPI),可以對加密流量進行分析。零日問題也是數據標記的常見問題,目前常見的做法是將零日數據單獨處理,一般是將標記與未標記的數據合并,然后進行聚類分析,其中不含預標記的數據類別為零日數據樣本。
B.????網絡安全特征工程
如何確定統計特征是解決網絡安全問題的關鍵,而特征的提取取決于選用的平臺或工具。網絡流量比應用程序數據(如Tweet)的流量大得多。為了有效地分析大量的數據,尋找合適的特征至關重要。流量包由兩部分組成:報頭和有效載荷。由于數據加密和數據分割的原因,有效載荷數據并不總是可用的。因此,分析網絡報頭在效率上有很大優勢。然而,網絡報頭非常小且大小固定,每個字段都有非常嚴格的定義,這些限制阻止了以應用程序級別來提取復雜信息。通過研究網絡流量中自然存在的相關信息,可以克服這一缺陷。也就是說,TCP/IP協議描述了流量的概念,可以用于測量和提高整個網絡的服務質量。更重要的是,雖然實際的網絡設備會以不同的方式對待每個流量流,但是以更平等地方式對待每個應用程序的流量流,因此不同應用程序生成的流量能夠代表統計分布。
網絡流量是按網絡屬性分組的網絡數據包的集合。根據對流量定義的擴展,提出了“bag of flow”的概念。一個流量包由同一應用程序生成的一些相關網絡流量流組成。也就是說,一個流包由具有相同五元組的連續IP數據包組成,一旦建立了流,就可以提取一組統計特征來表示每個流。流量的統計特征列于表一。
表一?數據驅動網絡安全事件預測方法論
C.????網絡安全建模
適當的性能評估對于確定給定的模型或系統是否滿足其需求至關重要。在典型的ML模型訓練過程中都有一個訓練集,一個測試集。最常用的分類指標包括TP、FP, FN,和TN。最佳的ML模型是通過在一些獨立的度量標準中進行權衡比較而來的。交叉驗證技術可以有效的最小化偏差,然而,在實踐過程中,網絡安全數據的不平衡性,增加了訓練ML模型的訓練成本。一種比較常見的做法是從不常見的類中選擇更多的數據,而常見的類中則選擇較少的數據集進行訓練;另一種做法是利用集成學習;還有一種復雜的方法是重新分配每個類的權重值,然后評估小類中樣本的缺失值。此外還可以使用可視化的圖來輔助決策過程。如當ROC曲線接近圖的左上角時,模型變得更加理想。
通過選擇合適的度量標準并與之進行比較,可以客觀地確定結果是否令人滿意。如沒有達到目標,可以迭代地改進ML模型;如目標失敗了,應該重新開始分析有關數據,直到找到滿意的解決方案。
基于數據驅動的網絡安全流量分析
本章對社交和網絡流量分析的最新研究進行了歸納總結。
A.??????數據處理
網絡中存在著具有破壞性的數據流量,用戶隱私使數據更敏感;不同地點間的流量也不同;復雜的處理步驟使得實時分類變得困難。特征處理與優化的工具可應用于該領域。而各種ML方法可改進過時流量分析模型的性能。進一步,結合深度學習,多類和集成的方法對將來的工作也有很大幫助。
利用先驗知識來輔助標記對基于數據驅動的網絡安全流量分析至關重要?,F有人工標記方法十分耗時耗力,標記自動化是未來重點研究的領域之一;更清晰的用戶隱私的邊界分析也是未來的研究方向。理想情況是通過共享和獲取有關隱私的網絡跟蹤真實數據進行學術分析。這些方法許多是離線分析的,需要涉及許多步驟,無法做到實時響應,不具有實用性。特征仍是分類的主要依據,內容表示可以改變這種依賴關系并有助于檢測增強。同樣,深度學習也是有效的,此外,可以考慮更新的技術進行更好的可視化分析。
B.??????工程安全特征
大流量數據在數量、種類、速度方面復雜多樣,傳統數據分析難以處理。流量之間存在著相關性與相似性,通過對特征的測量和分析其對流量的影響,進而對流量進行分類,此外,實時流量的相關性檢測也是比較困難的。流量的相關性與相似性還可以檢測代碼漏洞和惡意軟件,檢測漏洞僅僅是為了過濾單個特征,而非對整個數據源進行分類。社交和網絡流量分析都存在一定的誤差率,因為數據集是提前收集好的,而不是實時持續的數據集,為了克服這一誤差,可以在訓練集中不斷添加新的特征。數據存在的偏差和記憶,會嚴重影響對其的正確標記。無論是人工標記,還是算法標記,或是使用特定工具都需要利用先驗知識。圖1總結了這種數據結構的概念。無論是垃圾郵件還是流量,許多不同的樣本是相關的或是組合在一起的。
圖1 ?數據結構的概念
C.??????網絡安全模型
DDCS表明了一種新的研究方式,并推動該領域的發展。如何獲取和應用該領域知識是一個挑戰,同時對社交網絡和網絡流量分析的效率和有效性具有很大的影響。這種能力可以通過兩種形式體現,一是中斷時間段內仍能達到可接受性能的訓練和測試模型的能力,因為在一段較長的時間內數據偏差是顯而易見的。二是網絡分析方法能夠對間隔數周到數月記錄的樣本進行測試和訓練。在流量分析的文獻中,一個共同的參考點是數據采集的敏感性,對新的可用的網絡跟蹤的有限訪問可能影響知識保留能力。
許多流程和方法在各個領域之間都是共享的,其中的不同是數據和分類結果。圖2顯示了涵蓋四個領域的通用流程模型以及典型的數據驅動方法。數據是關鍵的,隨后根據需要進行整理和調整,也可以在模型的訓練和測試步驟中進行調整。
圖2?通用流程模型以及典型的數據驅動方法
總結
本綜述提出了一種新的基于數據驅動的網絡安全流量分析方法DDCS,并回顧了它在社交和網絡流量分析中的應用。DDCS在回顧Twitter垃圾郵件檢測和IP流量分類等領域的最新研究成果時,顯示了數據、模型和方法之間的緊密聯系。強調了大流量數據、領域知識和研究方法方面的挑戰和未來的工作。希望這項調查能夠提供新的見解和想法,推動網絡安全的進一步研究,特別是在社交和網絡流量分析方面。
文章出處
Rory Coulter, Qing-Long Han, Lei Pan, Jun Zhang, and?Yang Xiang, “Data-driven Cyber Security In Perspective:?Intelligent Traffic Analysis”,?DOI:?10.1109/TCYB.2019.2940940,?IEEE?Trans Cybern,?2019
總結
以上是生活随笔為你收集整理的网络安全模型_基于数据驱动的网络安全流量分析总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阮一峰es6电子书_ES6理解进阶【大前
- 下一篇: python代码风格_Python编码风