数据获取之网络爬虫专栏简介
一、技術(shù)選型
眾所周知,針對不同的業(yè)務(wù)場景和需求選取不同的技術(shù)選型和架構(gòu)方案方案??梢宰屛覀兪掳牍Ρ?,提升工作效率的同時完成本職工作。而針對互聯(lián)網(wǎng)上的數(shù)據(jù)獲取需求也是一樣。下面我們將介紹三種場景的爬蟲數(shù)據(jù)獲取需求和場景,并推薦其相應(yīng)的解決方案。
1、簡單需求(單文件腳本 / 基于 request 網(wǎng)絡(luò)庫及相關(guān)第三方庫 )
針對一次需求和沒有持續(xù)集成的要求的場景,對于這類簡單的任務(wù),不使用爬蟲框架也能實現(xiàn)很好的效果,而且代碼更少。當(dāng)采用 Python 語言實現(xiàn)時,常用的相關(guān)依賴庫有 requests 和BeautifulSoup、selenium ( Web自動化工具Selenium,內(nèi)核采用WebDriver) 以及涉及到的其他相關(guān)庫。其實 Selenium 是一個模擬人行為的自動化測試工具,當(dāng)然也可以用來渲染動態(tài)網(wǎng)頁,模擬登陸,滑動等,但是其依賴瀏覽器,且一次只能加載一個頁面,無法異步渲染頁面,也就限制了selenium爬蟲的抓取效率。但是在頁面點擊,模擬登陸方面selenium 還是比較靈活的。
2、項目工程化(數(shù)據(jù)獲取只是整個系統(tǒng)集成的一小部分、且需要持續(xù)集成優(yōu)化場景)
考慮到 Python 語言及其生態(tài)的開發(fā)便捷性和快速迭代的特點,本系列主要介紹 Python 語言中知名的爬蟲框架 Scrapy (后面系列文章以該框架進(jìn)行介紹其細(xì)節(jié))。具體內(nèi)容參見此系列其他相關(guān)文章。
框架的好處在于提供了統(tǒng)一的項目結(jié)構(gòu),以及易用的接口和預(yù)設(shè)類,因此對于龐大的工程,使用框架會提供很好的 BUFF 加持。此外,針對對于一些簡單的爬蟲任務(wù),有時不使用框架反而相比使用框架更加簡潔、優(yōu)美。
此外,scrapy
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的数据获取之网络爬虫专栏简介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【C语言】C语言Code的编译与执行
- 下一篇: 【数据结构与算法】比较法分析查找算法与查