Python 网络爬虫的常用库汇总
生活随笔
收集整理的這篇文章主要介紹了
Python 网络爬虫的常用库汇总
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
爬蟲的編程語言有不少,但 Python 絕對是其中的主流之一。下面就為大家介紹下 Python 在編寫網(wǎng)絡(luò)爬蟲常常用到的一些庫。
請求庫:實(shí)現(xiàn) HTTP 請求操作
- **urllib:**一系列用于操作URL的功能。
- **requests:**基于 urllib 編寫的,阻塞式 HTTP 請求庫,發(fā)出一個(gè)請求,一直等待服務(wù)器響應(yīng)后,程序才能進(jìn)行下一步處理。
- **selenium:**自動化測試工具。一個(gè)調(diào)用瀏覽器的 driver,通過這個(gè)庫你可以直接調(diào)用瀏覽器完成某些操作,比如輸入驗(yàn)證碼。
- **aiohttp:**基于 asyncio 實(shí)現(xiàn)的 HTTP 框架。異步操作借助于 async/await 關(guān)鍵字,使用異步庫進(jìn)行數(shù)據(jù)抓取,可以大大提高效率。
解析庫:從網(wǎng)頁中提取信息
- **beautifulsoup:**html 和 XML 的解析,從網(wǎng)頁中提取信息,同時(shí)擁有強(qiáng)大的API和多樣解析方式。
- **pyquery:**jQuery 的 Python 實(shí)現(xiàn),能夠以 jQuery 的語法來操作解析 HTML 文檔,易用性和解析速度都很好。
- **lxml:**支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。
- **tesserocr:**一個(gè) OCR 庫,在遇到驗(yàn)證碼(圖形驗(yàn)證碼為主)的時(shí)候,可直接用 OCR 進(jìn)行識別。
存儲庫:Python 與數(shù)據(jù)庫交互
- **pymysql:**一個(gè)純 Python 實(shí)現(xiàn)的 MySQL 客戶端操作庫。
- **pymongo:**一個(gè)用于直接連接 mongodb 數(shù)據(jù)庫進(jìn)行查詢操作的庫。
- **redisdump:**一個(gè)用于 redis 數(shù)據(jù)導(dǎo)入/導(dǎo)出的工具。基于 ruby 實(shí)現(xiàn)的,因此使用它,需要先安裝 Ruby。
爬蟲框架
- **Scrapy:**很強(qiáng)大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個(gè)框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。但是對于稍微復(fù)雜一點(diǎn)的頁面,如 weibo 的頁面信息,這個(gè)框架就滿足不了需求了。
- **Crawley:**高速爬取對應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫,數(shù)據(jù)可以導(dǎo)出為 JSON、XML 等。
- **Portia:**可視化爬取網(wǎng)頁內(nèi)容。
- **newspaper:**提取新聞、文章以及內(nèi)容分析。
- **python-goose:**java 寫的文章提取工具。
- **cola:**一個(gè)分布式爬蟲框架。項(xiàng)目整體設(shè)計(jì)有點(diǎn)糟,模塊間耦合度較高。
Web 框架庫
- **flask:**輕量級的 web 服務(wù)程序,簡單,易用,靈活,主要來做一些 API 服務(wù)。做代理時(shí)可能會用到。
- **django:**一個(gè) web 服務(wù)器框架,提供了一個(gè)完整的后臺管理,引擎、接口等,使用它可做一個(gè)完整網(wǎng)站。
相關(guān)推薦:
- 80個(gè)Python練手項(xiàng)目列表
- 使用 Python 批量爬取網(wǎng)站信息
- 這么多人推崇Python,如果他們學(xué)了找不到工作怎么辦?
- 常見數(shù)據(jù)結(jié)構(gòu)的 Python 實(shí)現(xiàn)(建議收藏)
- 快速入門 Python 數(shù)據(jù)分析實(shí)用指南
- [新手必備]Python 基礎(chǔ)入門必學(xué)知識點(diǎn)筆記
總結(jié)
以上是生活随笔為你收集整理的Python 网络爬虫的常用库汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [新手必备]Python 基础入门必学知
- 下一篇: 8 个 Python 实用脚本,赶紧收藏