當前位置：首頁 > 编程语言 > python >内容正文

python

简单了解Python网络爬虫

發(fā)布時間：2024/4/14 python 63 豆豆

生活随笔收集整理的這篇文章主要介紹了简单了解Python网络爬虫小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機器人），是一種按照一定的規(guī)則，自動的抓取信息的程序或者腳本。

網(wǎng)絡(luò)爬蟲是互聯(lián)網(wǎng)上進行信息采集的通用手段，在互聯(lián)網(wǎng)的各個專業(yè)方向上都是不可或缺的底層技術(shù)支撐。本課程從爬蟲基礎(chǔ)開始，全面介紹了Python網(wǎng)絡(luò)爬蟲技術(shù)，并且包含各種經(jīng)典的網(wǎng)絡(luò)爬蟲項目案例。

詳細課程：Python網(wǎng)絡(luò)爬蟲實戰(zhàn)

分類：

網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實現(xiàn)技術(shù)，大致可以分為以下幾種類型：通用網(wǎng)絡(luò)爬蟲（General Purpose Web Crawler）、聚焦網(wǎng)絡(luò)爬蟲（Focused Web Crawler）、增量式網(wǎng)絡(luò)爬蟲（Incremental Web Crawler）、深層網(wǎng)絡(luò)爬蟲（Deep Web Crawler）。實際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實現(xiàn)的。

通用網(wǎng)絡(luò)爬蟲

通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲（Scalable Web Crawler），爬行對象從一些種子 URL 擴充到整個 Web，主要為門戶站點搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。由于商業(yè)原因，它們的技術(shù)細節(jié)很少公布出來。這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大，對于爬行速度和存儲空間要求較高，對于爬行頁面的順序要求相對較低，同時由于待刷新的頁面太多，通常采用并行工作方式，但需要較長時間才能刷新一次頁面。雖然存在一定缺陷，通用網(wǎng)絡(luò)爬蟲適用于為搜索引擎搜索廣泛的主題，有較強的應(yīng)用價值。
通用網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)大致可以分為頁面爬行模塊、頁面分析模塊、鏈接過濾模塊、頁面數(shù)據(jù)庫、URL 隊列、初始 URL 集合幾個部分。為提高工作效率，通用網(wǎng)絡(luò)爬蟲會采取一定的爬行策略。常用的爬行策略有：深度優(yōu)先策略、廣度優(yōu)先策略。

深度優(yōu)先策略：其基本方法是按照深度由低到高的順序，依次訪問下一級網(wǎng)頁鏈接，直到不能再深入為止。爬蟲在完成一個爬行分支后返回到上一鏈接節(jié)點進一步搜索其它鏈接。當所有鏈接遍歷完后，爬行任務(wù)結(jié)束。這種策略比較適合垂直搜索或站內(nèi)搜索，但爬行頁面內(nèi)容層次較深的站點時會造成資源的巨大浪費。

廣度優(yōu)先策略：此策略按照網(wǎng)頁內(nèi)容目錄層次深淺來爬行頁面，處于較淺目錄層次的頁面首先被爬行。當同一層次中的頁面爬行完畢后，爬蟲再深入下一層繼續(xù)爬行。這種策略能夠有效控制頁面的爬行深度，避免遇到一個無窮深層分支時無法結(jié)束爬行的問題，實現(xiàn)方便，無需存儲大量中間節(jié)點，不足之處在于需較長時間才能爬行到目錄層次較深的頁面。

聚焦網(wǎng)絡(luò)爬蟲

聚焦網(wǎng)絡(luò)爬蟲（Focused Crawler），又稱主題網(wǎng)絡(luò)爬蟲（Topical Crawler），是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁面的網(wǎng)絡(luò)爬蟲[8]。和通用網(wǎng)絡(luò)爬蟲相比，聚焦爬蟲只需要爬行與主題相關(guān)的頁面，極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，保存的頁面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對特定領(lǐng)域信息的需求。

聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比，增加了鏈接評價模塊以及內(nèi)容評價模塊。聚焦爬蟲爬行策略實現(xiàn)的關(guān)鍵是評價頁面內(nèi)容和鏈接的重要性，不同的方法計算出的重要性不同，由此導致鏈接的訪問順序也不同。

基于內(nèi)容評價的爬行策略：DeBra將文本相似度的計算方法引入到網(wǎng)絡(luò)爬蟲中，提出了 Fish Search 算法，它將用戶輸入的查詢詞作為主題，包含查詢詞的頁面被視為與主題相關(guān)，其局限性在于無法評價頁面與主題相關(guān) 度的高低。 Herseovic對 Fish Search 算法進行了改進，提出了 Sharksearch 算法，利用空間向量模型計算頁面與主題的相關(guān)度大小。

基于鏈接結(jié)構(gòu)評價的爬行策略：Web 頁面作為一種半結(jié)構(gòu)化文檔，包含很多結(jié)構(gòu)信息，可用來評價鏈接重要性。 PageRank 算法最初用于搜索引擎信息檢索中對查詢結(jié)果進行排序，也可用于評價鏈接重要性，具體做法就是每次選擇 PageRank 值較大頁面中的鏈接來訪問。另一個利用 Web結(jié)構(gòu)評價鏈接價值的方法是 HITS 方法，它通過計算每個已訪問頁面的 Authority 權(quán)重和 Hub 權(quán)重，并以此決定鏈接的訪問順序。

基于增強學習的爬行策略：Rennie 和 McCallum 將增強學習引入聚焦爬蟲，利用貝葉斯分類器，根據(jù)整個網(wǎng)頁文本和鏈接文本對超鏈接進行分類，為每個鏈接計算出重要性，從而決定鏈接的訪問順序。

基于語境圖的爬行策略：Diligenti 等人提出了一種通過建立語境圖（Context Graphs）學習網(wǎng)頁之間的相關(guān)度，訓練一個機器學習系統(tǒng)，通過該系統(tǒng)可計算當前頁面到相關(guān) Web 頁面的距離，距離越近的頁面中的鏈接優(yōu)先訪問。印度理工大學（IIT）和 IBM 研究中心的研究人員開發(fā)了一個典型的聚焦網(wǎng)絡(luò)爬蟲。該爬蟲對主題的定義既不是采用關(guān)鍵詞也不是加權(quán)矢量，而是一組具有相同主題的網(wǎng)頁。它包含兩個重要模塊：一個是分類器，用來計算所爬行的頁面與主題的相關(guān)度，確定是否與主題相關(guān)；另一個是凈化器，用來識別通過較少鏈接連接到大量相關(guān)頁面的中心頁面。

增量式網(wǎng)絡(luò)爬蟲

增量式網(wǎng)絡(luò)爬蟲（Incremental Web Crawler）是指對已下載網(wǎng) 頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲，它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會在需要的時候爬行新產(chǎn)生或發(fā)生更新的頁面，并不重新下載沒有發(fā)生變化的頁面，可有效減少數(shù)據(jù)下載量，及時更新已爬行的網(wǎng)頁，減小時間和空間上的耗費，但是增加了爬行算法的復雜度和實現(xiàn)難度。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[包含爬行模塊、排序模塊、更新模塊、本地頁面集、待爬行 URL 集以及本地頁面URL 集。
增量式爬蟲有兩個目標：保持本地頁面集中存儲的頁面為最新頁面和提高本地頁面集中頁面的質(zhì)量。為實現(xiàn)第一個目標，增量式爬蟲需要通過重新訪問網(wǎng)頁來更新本地頁面集中頁面內(nèi)容，常用的方法有：

統(tǒng)一更新法：爬蟲以相同的頻率訪問所有網(wǎng)頁，不考慮網(wǎng)頁的改變頻率；

個體更新法：爬蟲根據(jù)個體網(wǎng)頁的改變頻率來重新訪問各頁面；

基于分類的更新法：爬蟲根據(jù)網(wǎng)頁改變頻率將其分為更新較快網(wǎng)頁子集和更新較慢網(wǎng)頁子集兩類，然后以不同的頻率訪問這兩類網(wǎng)頁。

為實現(xiàn)第二個目標，增量式爬蟲需要對網(wǎng)頁的重要性排序，常用的策略有：廣度優(yōu)先策略、PageRank 優(yōu)先策略等。IBM 開發(fā)的 WebFountain是一個功能強大的增量式網(wǎng)絡(luò)爬蟲，它采用一個優(yōu)化模型控制爬行過程，并沒有對頁面變化過程做任何統(tǒng)計假設(shè)，而是采用一種自適應(yīng)的方法根據(jù)先前爬行周期里爬行結(jié)果和網(wǎng)頁實際變化速度對頁面更新頻率進行調(diào)整。北京大學的天網(wǎng)增量爬行系統(tǒng)旨在爬行國內(nèi) Web，將網(wǎng)頁分為變化網(wǎng)頁和新網(wǎng)頁兩類，分別采用不同爬行策略。為緩解對大量網(wǎng)頁變化歷史維護導致的性能瓶頸，它根據(jù)網(wǎng)頁變化時間局部性規(guī)律，在短時期內(nèi)直接爬行多次變化的網(wǎng)頁，為盡快獲取新網(wǎng)頁，它利用索引型網(wǎng)頁跟蹤新出現(xiàn)網(wǎng)頁。

Deep Web 爬蟲

Web 頁面按存在方式可以分為表層網(wǎng)頁（Surface Web）和深層網(wǎng)頁（Deep Web，也稱 Invisible Web Pages 或 Hidden Web）。表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面，以超鏈接可以到達的靜態(tài)網(wǎng)頁為主構(gòu)成的 Web 頁面。Deep Web 是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁面。例如那些用戶注冊后內(nèi)容才可見的網(wǎng)頁就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可訪問信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源。
Deep Web 爬蟲體系結(jié)構(gòu)包含六個基本功能模塊（爬行控制器、解析器、表單分析器、表單處理器、響應(yīng)分析器、LVS 控制器）和兩個爬蟲內(nèi)部數(shù)據(jù)結(jié)構(gòu)（URL 列表、LVS 表）。其中 LVS（Label Value Set）表示標簽/數(shù)值集合，用來表示填充表單的數(shù)據(jù)源。
Deep Web 爬蟲爬行過程中最重要部分就是表單填寫，包含兩種類型：

基于領(lǐng)域知識的表單填寫：此方法一般會維持一個本體庫，通過語義分析來選取合適的關(guān)鍵詞填寫表單。 Yiyao Lu[25]等人提出一種獲取 Form 表單信息的多注解方法，將數(shù)據(jù)表單按語義分配到各個組中，對每組從多方面注解，結(jié)合各種注解結(jié)果來預(yù)測一個最終的注解標簽；鄭冬冬等人利用一個預(yù)定義的領(lǐng)域本體知識庫來識別 Deep Web 頁面內(nèi)容，同時利用一些來自 Web 站點導航模式來識別自動填寫表單時所需進行的路徑導航。

基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫：此方法一般無領(lǐng)域知識或僅有有限的領(lǐng)域知識，將網(wǎng)頁表單表示成 DOM 樹，從中提取表單各字段值。 Desouky 等人提出一種 LEHW 方法，該方法將 HTML 網(wǎng)頁表示為DOM 樹形式，將表單區(qū)分為單屬性表單和多屬性表單，分別進行處理；孫彬等人提出一種基于 XQuery 的搜索系統(tǒng)，它能夠模擬表單和特殊頁面標記切換，把網(wǎng)頁關(guān)鍵字切換信息描述為三元組單元，按照一定規(guī)則排除無效表單，將 Web 文檔構(gòu)造成 DOM 樹，利用 XQuery 將文字屬性映射到表單字段。

Raghavan 等人提出的 HIWE 系統(tǒng)中，爬行管理器負責管理整個爬行過程，分析下載的頁面，將包含表單的頁面提交表單處理器先從頁面中提取表單，從預(yù)先準備好的數(shù)據(jù)集中選擇數(shù)據(jù)自動填充并提交表單，由爬行控制器下載相應(yīng)的結(jié)果頁面。

更多精品課程：

阿里云大學官網(wǎng)（阿里云大學 - 官方網(wǎng)站，云生態(tài)下的創(chuàng)新人才工場）

轉(zhuǎn)載于:https://juejin.im/post/5cce9fddf265da036023c2e7

總結(jié)

以上是生活随笔為你收集整理的简单了解Python网络爬虫的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 3、java基础：抽象类与接口的区别
下一篇： Python 的文件IO相关操作说明

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

简单了解Python网络爬虫

總結(jié)