python爬虫学习第一章
<!DOCTYPE html>
python爬蟲第一章
python網絡爬蟲的學習
什么是網絡爬蟲
按照特定需求,從互聯網中搜索有用信息網頁進行過濾,就叫網絡爬蟲。
網絡爬蟲算法
當瀏覽信息的時候需要按照我們制定的規(guī)則進行,這些規(guī)則就叫做網絡爬蟲算法
網絡爬蟲的組成
網絡爬蟲由控制節(jié)點、爬蟲節(jié)點、資源庫構成。
網絡爬蟲可以有多個控制節(jié)點,每個節(jié)點下有多個爬蟲節(jié)點,控制節(jié)點間可以通信,控制節(jié)點和各爬蟲節(jié)點也可以相互通信,屬于同一個控制節(jié)點的爬蟲節(jié)點也可以相互通信。
控制節(jié)點也稱為中央控制器,主要負責根據URL地址分配線程,并調用爬蟲節(jié)點進行具體的爬行。
爬蟲節(jié)點會按照相關算法,對網頁進行具體的爬行,主要包括下載網頁,對網頁文本處理,爬行后,會將對應的爬行結果存儲在對應的資源庫中。
網絡爬蟲的類型
通用網絡爬蟲
又名全網爬蟲,爬行范圍非常大,數據海量,其爬取的性能要求非常高,主要應用于大型搜索引擎,有非常高的應用價值
基本構成:
- 初始URL集合
- URL隊列
- 頁面爬行模塊
- 頁面分析模塊
- 頁面數據庫
- 鏈接過 濾模塊
爬行策略:
也叫主題爬蟲,按照預先設定好的主題有選擇的進行頁面爬去的一種爬蟲,目標網頁定位與主題相關的頁面中,范圍比通用網絡爬蟲小,大大節(jié)省了爬蟲爬取時所需的帶寬資源和服務器資源。聚焦網絡爬蟲主要應用在特定的信息的爬取中,為某一類特定的人群服務 基本構成:
- 初始URL集合
- URL隊列
- 頁面爬行模塊
- 頁面分析模塊
- 頁面數據庫
- 鏈接過濾模塊
- 內容評價模塊
- 鏈接評價模塊 爬行策略:
- 基于內容評價的爬行策略
- 基于鏈接評價的爬行策略
- 基于增強學習的爬行策略
- 基于語境圖的爬行策略
增量式指的是增量式更新,在爬取頁面時,只爬取內容發(fā)生變化的網頁或者新產生的網頁,為發(fā)生變化的內容不會爬取。增量式爬蟲盡可能的保證頁面時最新的。
在互聯網中,網頁分為表層頁面和深層頁面。表層頁面就是靜態(tài)頁面,直接可以爬取。而深層頁面需要提交表單,才能獲取表單后面的頁面。就是深層頁面
爬蟲的構成:
- URL列表
- LVS列表(LVS指的是標簽/數值集合,即填充表單的數據源)
- 爬行控制器
- 解析器
- LVS控制器
- 表單分析器
- 表單處理器
- 響應分析器
表單的填寫: - 第一種基于領域知識的表單填寫,建立一個填寫表單的關鍵詞庫,需要填寫的時候,根據語義分析選擇對應關鍵詞填寫
- 基于網頁結構分析的表單填寫,一般在領域知識有限的情況下使用,根據頁面結構進行分析,并自動的進行表單填寫
聚焦爬蟲詳解
將初始的URL集合傳遞給URL隊列,頁面爬行模塊會從URL隊列中讀取第一批URL列表,然后根據這些URL地址從互聯網中進行相應的頁面爬取。爬取后,將爬取到的內容傳到頁面數據庫中存儲,同時,在爬行過程中,會爬取新的URL,此時,需要根據我們所定的主題使用鏈接過濾模塊過濾掉無關鏈接,再將剩下來的URL鏈接根據主題使用鏈接評價模塊和內容評價模塊進行優(yōu)先級的排序。完成后,將新的URL地址傳遞到URL隊列中,供頁面爬行的模塊使用。另一方面,將頁面爬取并存放到頁面數據庫后,需要根據主題使用頁面分析模塊對爬取到的頁面進行頁面分析處理,并根據處理結果建立索引數據庫,用戶檢索對應信息時,可以從索引數據庫中進行相應的檢索,并得到對應的結果。
轉載于:https://www.cnblogs.com/dcotorbool/p/8278998.html
總結
以上是生活随笔為你收集整理的python爬虫学习第一章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 51Nod1230 幸运数
- 下一篇: websocket python爬虫_p