gzip格式分析与识别
“?介紹gzip格式,識別gzip壓縮的數(shù)據(jù)流量。”
在協(xié)議分析過程中,經(jīng)常會發(fā)現(xiàn)gzip壓縮的數(shù)據(jù),例如在HTTP協(xié)議中,在HTTP頭中會標(biāo)示,內(nèi)容編碼為gzip、DEFLATE。
但是,還有很多情況,例如一些非HTTP協(xié)議,特別是私有協(xié)議中,數(shù)據(jù)同樣采用gzip壓縮,但是,流量中并未寫明數(shù)據(jù)是gzip壓縮格式,這就給分析帶來了困難。
如何解決這個困難呢?只能從數(shù)據(jù)本身著手了,需要了解gzip壓縮后數(shù)據(jù)的特征和標(biāo)記,以確定哪些數(shù)據(jù)是gzip壓縮。
gzip的基礎(chǔ)是DEFLATE,它其實是多種壓縮文件格式的簡稱。在RFC1952中對gzip格式進(jìn)行了定義。
對gzip格式的數(shù)據(jù),通常使用zlib庫就可以解壓縮。
gzip壓縮格式的數(shù)據(jù)的識別,依靠的是gzip格式內(nèi)的一些特征,gzip格式如下圖:
具體如下:
10字節(jié)的頭,包含幻數(shù)、版本號以及時間戳,對應(yīng)ID1、ID2、CM、FLG、MTIME、XFL、OS;
可選的擴(kuò)展頭extra? data ,如原文件名;
文件體compressed blocks,包括DEFLATE壓縮的數(shù)據(jù);
8字節(jié)的尾注,包括CRC-32校驗和CRC32以及未壓縮的原始數(shù)據(jù)長度ISIZE。
在文件頭中,ID1和ID2分別為固定值0x1F,0x8B;而CM則定義了壓縮使用的算法,目前僅一種,即DEFLATE壓縮,對應(yīng)值為0x08;FLG、MTIME、XFL、OS分別為標(biāo)記、時間、可選擴(kuò)展頭標(biāo)記、操作系統(tǒng)標(biāo)記。
對gzip格式的識別,依靠的就是gzip的起始3字節(jié),因為這三個字節(jié)目前是固定的,只有我們在數(shù)據(jù)流中,發(fā)現(xiàn)了1F 8B 08,則表示找到了gzip編碼數(shù)據(jù)的起始了,繼續(xù)分析就簡單了。
如果想找個gzip的示例文件,那就到gzip官網(wǎng)去下載吧:
http://alpha.gnu.org/gnu/gzip/
目錄下的壓縮包都是gzip壓縮格式。
根據(jù)各種類型的數(shù)據(jù)標(biāo)記,來確定待分析的未知數(shù)據(jù)流中的數(shù)據(jù)格式,是一項很有用的技能,希望大家能多鍛煉,多掌握,很多數(shù)據(jù)格式的標(biāo)記,都可以在網(wǎng)絡(luò)中找到,有人已經(jīng)總結(jié)好了。
長按進(jìn)行關(guān)注。
總結(jié)
以上是生活随笔為你收集整理的gzip格式分析与识别的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HTTP协议中的chunked编码解析
- 下一篇: 车联网APP,安全设施薄弱的山寨品