数据获取之网络爬虫专栏简介
一、技術選型
眾所周知,針對不同的業務場景和需求選取不同的技術選型和架構方案方案。可以讓我們事半功倍,提升工作效率的同時完成本職工作。而針對互聯網上的數據獲取需求也是一樣。下面我們將介紹三種場景的爬蟲數據獲取需求和場景,并推薦其相應的解決方案。
1、簡單需求(單文件腳本 / 基于 request 網絡庫及相關第三方庫 )
針對一次需求和沒有持續集成的要求的場景,對于這類簡單的任務,不使用爬蟲框架也能實現很好的效果,而且代碼更少。當采用 Python 語言實現時,常用的相關依賴庫有 requests 和BeautifulSoup、selenium ( Web自動化工具Selenium,內核采用WebDriver) 以及涉及到的其他相關庫。其實 Selenium 是一個模擬人行為的自動化測試工具,當然也可以用來渲染動態網頁,模擬登陸,滑動等,但是其依賴瀏覽器,且一次只能加載一個頁面,無法異步渲染頁面,也就限制了selenium爬蟲的抓取效率。但是在頁面點擊,模擬登陸方面selenium 還是比較靈活的。
2、項目工程化(數據獲取只是整個系統集成的一小部分、且需要持續集成優化場景)
考慮到 Python 語言及其生態的開發便捷性和快速迭代的特點,本系列主要介紹 Python 語言中知名的爬蟲框架 Scrapy (后面系列文章以該框架進行介紹其細節)。具體內容參見此系列其他相關文章。
框架的好處在于提供了統一的項目結構,以及易用的接口和預設類,因此對于龐大的工程,使用框架會提供很好的 BUFF 加持。此外,針對對于一些簡單的爬蟲任務,有時不使用框架反而相比使用框架更加簡潔、優美。
此外,scrapy
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的数据获取之网络爬虫专栏简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【C语言】C语言Code的编译与执行
- 下一篇: 【数据结构与算法】比较法分析查找算法与查