Python网络爬虫理解
今天買了一本《玩轉python網絡爬蟲》,打算深入學習網絡爬蟲~~
剛開始就是基礎理解啦~~~
定義:
網絡爬蟲是一種按照一定的規則自動地抓取網絡信息的程序或者腳本;
爬蟲的類型:
通用網絡爬蟲:即全網爬蟲,常見的有百度、Google等搜索引擎;
聚焦網絡爬蟲:即主題網絡爬蟲,根據需求的主題選擇性地爬行相關頁面;
增量式網絡爬蟲:對已下載的網頁采取增量式更新以及只爬行新產生或者已經發生變化的網頁進行爬蟲;
深層網絡爬蟲:針對于只有用戶提交一些關鍵詞才能獲得的網絡頁面;
網絡爬蟲原理:
第一類:通用網絡爬蟲
首先獲取初始的URL,讀取URL,解析網頁內容,再查找新的URL,繼續進行網頁解析,直到滿足停止條件后便停止;
第二類:聚焦網絡爬蟲
首先獲取初始的URL,讀取URL,解析網頁內容,再查找新的URL,對新的URL進行過濾,選擇有關的URL加入到隊列中,根據優先級進行網頁解析,直到滿足停止條件后便停止;
爬蟲的搜索策略:
深度優先搜索:在HTML中找到新的URL,再打開其對應的HTML查找新的URL,以此類推,知道HTML中沒有URL為止;
寬度優先搜索:搜索完一個面中所有的URL,然后再繼續搜索下一層;
聚焦爬蟲的爬行策略:只跳出某個特定的主題頁面,根據“最好優先原則”進行訪問;
反爬蟲技術及解決方案:
用戶請求的Headers ----> 在爬蟲發送請求中修改或者添加Headers就能很好的解決;
用戶操作網站行為 ----> 可使用IP代理,也可以每次請求間隔幾秒后在發送下一次請求;
基于網站目錄數據加載 ----> 在爬蟲中模擬Ajax請求,獲取所需數據;
基于數據加密 ----> 找到加密代碼,在爬蟲代碼中模擬其加密處理,在發送請求;
基于驗證碼識別
嗯嗯~就醬紫
總結
以上是生活随笔為你收集整理的Python网络爬虫理解的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python文件与目录操作
- 下一篇: websocket python爬虫_p