字体反爬
字體反爬介紹
所謂的字體反爬就是網站將一些關鍵字替換為網站自己的字體,這樣在網頁上字體會正常顯示,但是當爬取下來的時候,經過字體加密的字符都是亂碼的,在網頁源碼當中顯示的是unicode編碼。根本無法查看。
例如:
破解思路
第一步 找到對應的字體文件進行下載
第二步 找到unicode編碼和正常文字的映射關系
第三步 自定義unicode編碼正常蚊子的映射關系的字典
第四步 替換源碼當中的unicode編碼為正常文字之后,再進行數據匹配
FontTools安裝與使用
FontTools是一套以ttx為核心的工具集,用于處理與字體編輯有關的各種問題,程序用Python編寫完成,代碼開源,具有良好的跨平臺性。
安裝及使用
pip install fontTools
通過FontTools把woff文件轉換為xml文件 font = TTFont(BytesIO(bin_data)) #將解碼字體保存為xml font.saveXML("text2.xml")lxml解析xml文件
lxml可以直接讀取xml文件。
為了演示方便,
總結
- 上一篇: 麦麦高铁通车后,给当地带来的积极影响有
- 下一篇: 数据分析实例(股票分析实例)