数据增量更新定义_封面数据 | 爬虫技术与应用
生活随笔
收集整理的這篇文章主要介紹了
数据增量更新定义_封面数据 | 爬虫技术与应用
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
閱前提示
本文一些案例來源于各大網(wǎng)站,僅供學習和交流,如有侵權請聯(lián)系刪除
網(wǎng)絡爬蟲是一種用來自動瀏覽互聯(lián)網(wǎng)的網(wǎng)絡機器人。根據(jù)實際情況,從小范圍來說,爬蟲只是為了自動化獲取網(wǎng)絡上的數(shù)據(jù),從廣泛意義來說,爬蟲也是自動化的一部分,自動化操作頁面元素,不僅可以獲取數(shù)據(jù),還可以執(zhí)行一些業(yè)務。小封本次邀請到的分享嘉賓是數(shù)據(jù)研究部-數(shù)據(jù)抓取工程師Eason,帶我們一起探討爬蟲技術與應用。一、爬蟲概述1.1什么是爬蟲其實網(wǎng)絡爬蟲(web crawler), 以前經(jīng)常稱為網(wǎng)絡蜘蛛(spider), 是按照一定的規(guī)則自動瀏覽萬維網(wǎng)并獲取信息的機器人程序(或叫腳本), 曾經(jīng)被廣泛的應用于互聯(lián)網(wǎng)搜索引擎. 使用過互聯(lián)網(wǎng)和瀏覽器的人都知道, 網(wǎng)頁中除了提供用戶閱讀的文字信息之外, 還包含一些超鏈接。網(wǎng)絡爬蟲系統(tǒng)正是通過網(wǎng)頁中的超鏈接信息不斷獲得網(wǎng)絡上的其他頁面. 正因為如此, 網(wǎng)絡數(shù)據(jù)采集的過程就像一個爬蟲或者蜘蛛在網(wǎng)絡上漫游, 所有才被形象的稱之為網(wǎng)絡爬蟲或者網(wǎng)絡蜘蛛。1.2爬蟲的分類網(wǎng)絡爬蟲按照系統(tǒng)結構和實現(xiàn)技術,大致可以分為以下幾種類型:通用網(wǎng)絡爬蟲(General Purpose Web Crawler)、聚焦網(wǎng)絡爬蟲(Focused Web Crawler)、增量式網(wǎng)絡爬蟲(Incremental Web Crawler)、深層網(wǎng)絡爬蟲(Deep Web Crawler)。實際的網(wǎng)絡爬蟲系統(tǒng)通常是幾種爬蟲技術相結合實現(xiàn)的。通用網(wǎng)絡爬蟲又稱全網(wǎng)爬蟲,爬行對象從一些種子 URL 擴充到整個 Web,主要為門戶站點搜索引擎和大型 Web 服務提供商采集數(shù)據(jù)。?聚焦網(wǎng)絡爬蟲是指選擇性地爬行那些與預先定義好的主題相關頁面的網(wǎng)絡爬蟲。增量式網(wǎng)絡爬蟲是指對已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。?深層網(wǎng)絡是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的,只有用戶提交一些關鍵詞才能獲得的 Web 頁面。深層網(wǎng)絡爬蟲就是抓取深層網(wǎng)絡的爬蟲。1.3爬蟲的基本結構一個基本的爬蟲包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲。一個基本爬蟲框架主要包括控制器、解析器、資源庫。(1)控制器負責給各個爬蟲線程分配任務(2)解析器負責下載網(wǎng)頁,頁面處理,提取信息(3)資源庫負責保存網(wǎng)絡資源,通常是數(shù)據(jù)庫,并建立索引1.4爬蟲的應用與技術難點爬蟲最早是應用在搜索引擎中,隨著不斷地發(fā)展,其應用領域也越來越廣泛,主要包括以下幾種:(1)搜索引擎(2)新聞聚合(3)社交應用(4)輿情監(jiān)控(5)行業(yè)數(shù)據(jù)爬蟲的難點主要為兩個方向:(1)數(shù)據(jù)的獲取一般來說我們想要抓取的網(wǎng)站是不希望我們?nèi)プト∷臄?shù)據(jù)的,那么這些網(wǎng)站就會做一些反爬蟲的措施,來讓我們無法去他的網(wǎng)站上抓取數(shù)據(jù)。所以我們也要做相應的措施去繞過這些反爬蟲措施。(2)抓取數(shù)據(jù)的速度我們抓取的目標的數(shù)據(jù)量,有時是非常龐大的,甚至幾千萬上億的數(shù)據(jù)量,而有些甚至會要求實時的更新,所以抓取的速度也非常重要。我們一般會使用并發(fā)和分布式來解決速度的問題。二、常見爬蟲業(yè)務應用與技術手段使用的技術手段:(1)聚焦抓取策略選擇性地爬行與預先定義好的主題相關頁面的網(wǎng)絡爬蟲,方法是提前定義好要抓取的url規(guī)則。(2)增量抓取采用統(tǒng)一更新法和個體更新法,對于某些重要網(wǎng)頁采用特征頻率訪問,并利用布隆過濾技術避免重復抓取,提升抓取速度與避免資源浪費。(3)并發(fā)與分布式任務調(diào)度使用redis做任務隊列實現(xiàn)并發(fā)與分布式。(4)任務優(yōu)先級設置任務優(yōu)先級,對于優(yōu)先級較高的任務提高更新速度。三、總結本文簡單介紹了爬蟲的概念,以及常見的反爬手段和并提出解決措施,最后介紹了爬蟲的一些應用,但爬蟲的技術與應用遠不及于此。本文一些案例來源于各大網(wǎng)站,僅供學習和交流,如有侵權請聯(lián)系刪除。掃碼關注
RECOMMEND推薦閱讀封面數(shù)據(jù) | 知識圖譜的入門與應用
媒體產(chǎn)業(yè)轉(zhuǎn)型新空間:技術賦能智慧文博
案例分享 | “云上科博會”開啟云展會運營新模式
封面數(shù)據(jù) | 行業(yè)案例,AI驅(qū)動醫(yī)療行業(yè)技術解決方案
案例分享 | 智媒云攜手洪雅融媒體中心,傾力打造《康養(yǎng)洪雅》
總結
以上是生活随笔為你收集整理的数据增量更新定义_封面数据 | 爬虫技术与应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 嵌入键值数据库_PupDB
- 下一篇: 把数据自动填入exe的输入框_2000余