日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python爬虫学习第一章

發(fā)布時間:2024/6/30 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫学习第一章 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

<!DOCTYPE html>


python爬蟲第一章




python網絡爬蟲的學習


什么是網絡爬蟲


按照特定需求,從互聯網中搜索有用信息網頁進行過濾,就叫網絡爬蟲。


網絡爬蟲算法


當瀏覽信息的時候需要按照我們制定的規(guī)則進行,這些規(guī)則就叫做網絡爬蟲算法


網絡爬蟲的組成






網絡爬蟲由控制節(jié)點、爬蟲節(jié)點、資源庫構成。

網絡爬蟲可以有多個控制節(jié)點,每個節(jié)點下有多個爬蟲節(jié)點,控制節(jié)點間可以通信,控制節(jié)點和各爬蟲節(jié)點也可以相互通信,屬于同一個控制節(jié)點的爬蟲節(jié)點也可以相互通信。

控制節(jié)點也稱為中央控制器,主要負責根據URL地址分配線程,并調用爬蟲節(jié)點進行具體的爬行。

爬蟲節(jié)點會按照相關算法,對網頁進行具體的爬行,主要包括下載網頁,對網頁文本處理,爬行后,會將對應的爬行結果存儲在對應的資源庫中。


網絡爬蟲的類型




  • 通用網絡爬蟲

    又名全網爬蟲,爬行范圍非常大,數據海量,其爬取的性能要求非常高,主要應用于大型搜索引擎,有非常高的應用價值

    基本構成:
    • 初始URL集合
    • URL隊列
    • 頁面爬行模塊
    • 頁面分析模塊
    • 頁面數據庫
    • 鏈接過 濾模塊
      爬行策略:
  • 深度優(yōu)先策略
  • 廣度優(yōu)先策略
  • 聚焦網絡爬蟲
    也叫主題爬蟲,按照預先設定好的主題有選擇的進行頁面爬去的一種爬蟲,目標網頁定位與主題相關的頁面中,范圍比通用網絡爬蟲小,大大節(jié)省了爬蟲爬取時所需的帶寬資源和服務器資源。聚焦網絡爬蟲主要應用在特定的信息的爬取中,為某一類特定的人群服務 基本構成:
    • 初始URL集合
    • URL隊列
    • 頁面爬行模塊
    • 頁面分析模塊
    • 頁面數據庫
    • 鏈接過濾模塊
    • 內容評價模塊
    • 鏈接評價模塊 爬行策略:
    • 基于內容評價的爬行策略
    • 基于鏈接評價的爬行策略
    • 基于增強學習的爬行策略
    • 基于語境圖的爬行策略
  • 增量式網絡爬蟲
    增量式指的是增量式更新,在爬取頁面時,只爬取內容發(fā)生變化的網頁或者新產生的網頁,為發(fā)生變化的內容不會爬取。增量式爬蟲盡可能的保證頁面時最新的。
  • 深層網絡爬蟲
    在互聯網中,網頁分為表層頁面和深層頁面。表層頁面就是靜態(tài)頁面,直接可以爬取。而深層頁面需要提交表單,才能獲取表單后面的頁面。就是深層頁面
    爬蟲的構成:
    • URL列表
    • LVS列表(LVS指的是標簽/數值集合,即填充表單的數據源)
    • 爬行控制器
    • 解析器
    • LVS控制器
    • 表單分析器
    • 表單處理器
    • 響應分析器
      表單的填寫:
    • 第一種基于領域知識的表單填寫,建立一個填寫表單的關鍵詞庫,需要填寫的時候,根據語義分析選擇對應關鍵詞填寫
    • 基于網頁結構分析的表單填寫,一般在領域知識有限的情況下使用,根據頁面結構進行分析,并自動的進行表單填寫
  • 聚焦爬蟲詳解


    將初始的URL集合傳遞給URL隊列,頁面爬行模塊會從URL隊列中讀取第一批URL列表,然后根據這些URL地址從互聯網中進行相應的頁面爬取。爬取后,將爬取到的內容傳到頁面數據庫中存儲,同時,在爬行過程中,會爬取新的URL,此時,需要根據我們所定的主題使用鏈接過濾模塊過濾掉無關鏈接,再將剩下來的URL鏈接根據主題使用鏈接評價模塊和內容評價模塊進行優(yōu)先級的排序。完成后,將新的URL地址傳遞到URL隊列中,供頁面爬行的模塊使用。另一方面,將頁面爬取并存放到頁面數據庫后,需要根據主題使用頁面分析模塊對爬取到的頁面進行頁面分析處理,并根據處理結果建立索引數據庫,用戶檢索對應信息時,可以從索引數據庫中進行相應的檢索,并得到對應的結果。

    轉載于:https://www.cnblogs.com/dcotorbool/p/8278998.html

    總結

    以上是生活随笔為你收集整理的python爬虫学习第一章的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。