日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

教你如何识别文件类型文件类型可以用什么来识别

發布時間:2023/12/3 综合教程 36 生活家
生活随笔 收集整理的這篇文章主要介紹了 教你如何识别文件类型文件类型可以用什么来识别 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

摘要:文件類型的多樣性,會給有關數據保密以及信息安全等方面帶來威脅,通過對一些文件類型的識別和阻斷,可以避免互聯網上木馬和病毒的傳播,還可以避免保密文件的泄漏。

關鍵詞:文件類型,關鍵字

一種文件類型識別方法

文件類型識別是文件內容還原以及后續的文件敏感信息檢測預處理過程中不可或缺的一部分,精確的文件類型識別是文件內容還原和文件敏感信息檢測模型選擇的關鍵步驟之一,它能夠讓我們根據不同的文件類型選擇適合的文件內容提取方法和敏感信息檢測模型。文件類型的多樣性,會給有關數據保密以及信息安全等方面帶來威脅,通過對一些文件類型的識別和阻斷,可以避免互聯網上木馬和病毒的傳播,還可以避免保密文件的泄漏。

文本文件是一種由若干行字符構成的計算機文件,文本文件大部分為腳本語言類文件,即使用腳本語言創建的文件,腳本語言例如有javascript、python、以及php(Hypertext Preprocessor,超文本預處理器)等。腳本語言類文件一般是根據所使用的腳本語言以特定后綴名(如.reg,.vbs,.js或.inf等)進行保存,例如javascript腳本語言文件以 .js的后綴名進行保存。現有技術通常是基于文件后綴名來確定文本文件的類型,例如檢測到文件的后綴名為“js”,則判斷文件類型是javascript腳本語言文件。在對現有技術的研究和實踐過程中,現有文本文件類型的識別方式,識別準確率較低,一旦文件的后綴名被修改,將會識別出錯誤的文件類型,造成誤判。

文件類型識別原理

當服務器接收到待識別文件,通過讀取待識別文件中的文件魔法數特征,并將文件魔法數特征與預先統計設定不同文件類型的多個魔法數特征進行匹配,獲取匹配的文件類型,然后再使用匹配到的文件類型的語法樹規則與待識別文件的內容進行對比分析,若語法樹規則能正常與待識別文件的內容的框架相對應,則將待識別文件的文件類型識別為預定文件類型。

具體流程

待識別文件可以是任何未攜帶擴展名的未知文件類型的文件。表示不同文件類型的魔術數,是指文件的最開頭的幾個用于唯一區別其它文件類型的字節,根據這些字節特征就可以很方便的區別不同的文件類型,相比于只根據文件后綴名來識別文件類型準確率要高的多。

首先要以二進制的方式讀取文本文件的前100個字節,然后再讀取文件類型與文件魔法數一一對應的文件,將魔法數逐一與讀取的字節匹配對應,然后獲取到匹配的文件類型。部分文件魔法數樣式如下圖所示:

圖1部分圖片類文件魔法數

不同的文件類型的語法樹規則是指待識別文件中所記錄的文本特征信息,例如可以是待識別文件中的關鍵字,關鍵字是指計機語言里事先定義的、有特別意義的標識符,例如if、for、while、def等,javascript語言文件類型、python語言文件類型、php語言文件類型、html語言文件類型或vbs語言文件類型等語法樹規則各不相同。

讀取待識別文件的內容,根據匹配到的文件類型,獲取其預先設定好的語法樹規則,然后與待識別文件中的內容進行匹配,當匹配的正確率達到超過預先設定的閾值時,則該待識別文件的文件類型即為所匹配的文件類型。下圖為匹配結果示例:

圖2 文件類型識別分析結果展示

文件類型的準確識別能夠幫助文本內容提取更全面的更準確的文本特征信息,為以后的文本敏感信息檢測的算法模型提供更優質的數據輸入,提升模型識別的準確率。

END

以上是易安聯四維實驗室本期為大家分享的《 一種文件類型識別方法》。若您和我們一樣熱愛鉆研,關注網絡安全最新動態,關注零信任發展,歡迎加入群聊和我們一起討論吧。

總結

以上是生活随笔為你收集整理的教你如何识别文件类型文件类型可以用什么来识别的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。