日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python爬虫库的功能_Python学习爬虫掌握的库资料大全和框架的选择的分析

發(fā)布時(shí)間:2025/4/5 python 22 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python爬虫库的功能_Python学习爬虫掌握的库资料大全和框架的选择的分析 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

學(xué)Python,想必大家都是從爬蟲開始的吧。畢竟網(wǎng)上類似的資源很豐富,開源項(xiàng)目也非常多。

Python學(xué)習(xí)網(wǎng)絡(luò)爬蟲主要分3個(gè)大的版塊:抓取,分析,存儲(chǔ)

當(dāng)我們?cè)跒g覽器中輸入一個(gè)url后回車,后臺(tái)會(huì)發(fā)生什么?

簡(jiǎn)單來說這段過程發(fā)生了以下四個(gè)步驟:

查找域名對(duì)應(yīng)的IP地址。

向IP對(duì)應(yīng)的服務(wù)器發(fā)送請(qǐng)求。

服務(wù)器響應(yīng)請(qǐng)求,發(fā)回網(wǎng)頁(yè)內(nèi)容。

瀏覽器解析網(wǎng)頁(yè)內(nèi)容。

那么學(xué)習(xí)爬蟲需要掌握哪些庫(kù)呢?

通用:

urllib -網(wǎng)絡(luò)庫(kù)(stdlib)。

requests -網(wǎng)絡(luò)庫(kù)。

grab – 網(wǎng)絡(luò)庫(kù)(基于pycurl)。

pycurl – 網(wǎng)絡(luò)庫(kù)(綁定libcurl)。

urllib3 – Python HTTP庫(kù),安全連接池、支持文件post、可用性高。

httplib2 – 網(wǎng)絡(luò)庫(kù)。

RoboBrowser – 一個(gè)簡(jiǎn)單的、極具Python風(fēng)格的Python庫(kù),無(wú)需獨(dú)立的瀏覽器即可瀏覽網(wǎng)頁(yè)。

MechanicalSoup -一個(gè)與網(wǎng)站自動(dòng)交互Python庫(kù)。

mechanize -有狀態(tài)、可編程的Web瀏覽庫(kù)。

socket – 底層網(wǎng)絡(luò)接口(stdlib)。

Unirest for Python – Unirest是一套可用于多種語(yǔ)言的輕量級(jí)的HTTP庫(kù)。

hyper – Python的HTTP/2客戶端。

PySocks – SocksiPy更新并積極維護(hù)的版本,包括錯(cuò)誤修復(fù)和一些其他的特征。作為socket模塊的直接替換。

網(wǎng)絡(luò)爬蟲框架

功能齊全的爬蟲

grab – 網(wǎng)絡(luò)爬蟲框架(基于pycurl/multicur)。

scrapy – 網(wǎng)絡(luò)爬蟲框架(基于twisted),不支持Python3。

pyspider – 一個(gè)強(qiáng)大的爬蟲系統(tǒng)。

cola – 一個(gè)分布式爬蟲框架。

其他

portia – 基于Scrapy的可視化爬蟲。

restkit – Python的HTTP資源工具包。它可以讓你輕松地訪問HTTP資源,并圍繞它建立的對(duì)象。

demiurge – 基于PyQuery的爬蟲微框架。

HTML/XML解析器

通用

lxml – C語(yǔ)言編寫高效HTML/ XML處理庫(kù)。支持XPath。

cssselect – 解析DOM樹和CSS選擇器。

pyquery – 解析DOM樹和jQuery選擇器。

BeautifulSoup – 低效HTML/ XML處理庫(kù),純Python實(shí)現(xiàn)。

html5lib – 根據(jù)WHATWG規(guī)范生成HTML/ XML文檔的DOM。該規(guī)范被用在現(xiàn)在所有的瀏覽器上。

feedparser – 解析RSS/ATOM feeds。

MarkupSafe – 為XML/HTML/XHTML提供了安全轉(zhuǎn)義的字符串。

xmltodict – 一個(gè)可以讓你在處理XML時(shí)感覺像在處理JSON一樣的Python模塊。

xhtml2pdf – 將HTML/CSS轉(zhuǎn)換為PDF。

untangle – 輕松實(shí)現(xiàn)將XML文件轉(zhuǎn)換為Python對(duì)象。

清理

Bleach – 清理HTML(需要html5lib)。

sanitize – 為混亂的數(shù)據(jù)世界帶來清明。

文本處理

用于解析和操作簡(jiǎn)單文本的庫(kù)。

通用

difflib – (Python標(biāo)準(zhǔn)庫(kù))幫助進(jìn)行差異化比較。

Levenshtein – 快速計(jì)算Levenshtein距離和字符串相似度。

fuzzywuzzy – 模糊字符串匹配。

esmre – 正則表達(dá)式加速器。

ftfy – 自動(dòng)整理Unicode文本,減少碎片化。

自然語(yǔ)言處理

處理人類語(yǔ)言問題的庫(kù)。

NLTK -編寫Python程序來處理人類語(yǔ)言數(shù)據(jù)的最好平臺(tái)。

Pattern – Python的網(wǎng)絡(luò)挖掘模塊。他有自然語(yǔ)言處理工具,機(jī)器學(xué)習(xí)以及其它。

TextBlob – 為深入自然語(yǔ)言處理任務(wù)提供了一致的API。是基于NLTK以及Pattern的巨人之肩上發(fā)展的。

jieba – 中文分詞工具。

SnowNLP – 中文文本處理庫(kù)。

loso – 另一個(gè)中文分詞庫(kù)。

瀏覽器自動(dòng)化與仿真

selenium – 自動(dòng)化真正的瀏覽器(Chrome瀏覽器,火狐瀏覽器,Opera瀏覽器,IE瀏覽器)。

Ghost.py – 對(duì)PyQt的webkit的封裝(需要PyQT)。

Spynner – 對(duì)PyQt的webkit的封裝(需要PyQT)。

Splinter – 通用API瀏覽器模擬器(selenium web驅(qū)動(dòng),Django客戶端,Zope)。

多重處理

multiprocessing – 標(biāo)準(zhǔn)的Python庫(kù)運(yùn)行多進(jìn)程。

celery – 基于分布式消息傳遞的異步任務(wù)隊(duì)列/作業(yè)隊(duì)列。

concurrent-futures – concurrent-futures 模塊為調(diào)用異步執(zhí)行提供了一個(gè)高層次的接口。

異步

異步網(wǎng)絡(luò)編程庫(kù)

asyncio – (在Python 3.4 +版本以上的 Python標(biāo)準(zhǔn)庫(kù))異步I/O,時(shí)間循環(huán),協(xié)同程序和任務(wù)。

Twisted – 基于事件驅(qū)動(dòng)的網(wǎng)絡(luò)引擎框架。

Tornado – 一個(gè)網(wǎng)絡(luò)框架和異步網(wǎng)絡(luò)庫(kù)。

pulsar – Python事件驅(qū)動(dòng)的并發(fā)框架。

diesel – Python的基于綠色事件的I/O框架。

gevent – 一個(gè)使用greenlet 的基于協(xié)程的Python網(wǎng)絡(luò)庫(kù)。

eventlet – 有WSGI支持的異步框架。

Tomorrow – 異步代碼的奇妙的修飾語(yǔ)法。

隊(duì)列

celery – 基于分布式消息傳遞的異步任務(wù)隊(duì)列/作業(yè)隊(duì)列。

huey – 小型多線程任務(wù)隊(duì)列。

mrq – Mr. Queue – 使用redis & Gevent 的Python分布式工作任務(wù)隊(duì)列。

RQ – 基于Redis的輕量級(jí)任務(wù)隊(duì)列管理器。

simpleq – 一個(gè)簡(jiǎn)單的,可無(wú)限擴(kuò)展,基于Amazon SQS的隊(duì)列。

python-gearman – Gearman的Python API。

云計(jì)算

picloud – 云端執(zhí)行Python代碼。

dominoup.com – 云端執(zhí)行R,Python和matlab代碼

網(wǎng)頁(yè)內(nèi)容提取

提取網(wǎng)頁(yè)內(nèi)容的庫(kù)。

HTML頁(yè)面的文本和元數(shù)據(jù)

newspaper – 用Python進(jìn)行新聞提取、文章提取和內(nèi)容策展。

html2text – 將HTML轉(zhuǎn)為Markdown格式文本。

python-goose – HTML內(nèi)容/文章提取器。

lassie – 人性化的網(wǎng)頁(yè)內(nèi)容檢索工具

WebSocket

用于WebSocket的庫(kù)。

Crossbar – 開源的應(yīng)用消息傳遞路由器(Python實(shí)現(xiàn)的用于Autobahn的WebSocket和WAMP)。

AutobahnPython – 提供了WebSocket協(xié)議和WAMP協(xié)議的Python實(shí)現(xiàn)并且開源。

WebSocket-for-Python – Python 2和3以及PyPy的WebSocket客戶端和服務(wù)器庫(kù)。

DNS解析

dnsyo – 在全球超過1500個(gè)的DNS服務(wù)器上檢查你的DNS。

pycares – c-ares的接口。c-ares是進(jìn)行DNS請(qǐng)求和異步名稱決議的C語(yǔ)言庫(kù)。

OpenCV – 開源計(jì)算機(jī)視覺庫(kù)。

SimpleCV – 用于照相機(jī)、圖像處理、特征提取、格式轉(zhuǎn)換的簡(jiǎn)介,可讀性強(qiáng)的接口(基于OpenCV)。

mahotas – 快速計(jì)算機(jī)圖像處理算法(完全使用 C++++ 實(shí)現(xiàn)),完全基于 numpy 的數(shù)組作為它的數(shù)據(jù)類型。

web開發(fā)的一些框架

1.Django

Django是一個(gè)開源的Web應(yīng)用框架,由Python寫成,支持許多數(shù)據(jù)庫(kù)引擎,可以讓W(xué)eb開發(fā)變得迅速和可擴(kuò)展,并會(huì)不斷的版本更新以匹配Python最新版本,如果是新手程序員,可以從這個(gè)框架入手。

2.Flask

Flask是一個(gè)輕量級(jí)的Web應(yīng)用框架, 使用Python編寫。基于 WerkzeugWSGI工具箱和 Jinja2模板引擎。使用 BSD 授權(quán)。

Flask也被稱為 “microframework” ,因?yàn)樗褂煤?jiǎn)單的核心,用 extension 增加其他功能。Flask沒有默認(rèn)使用的數(shù)據(jù)庫(kù)、窗體驗(yàn)證工具。然而,Flask保留了擴(kuò)增的彈性,可以用Flask-extension加入這些功 能:ORM、窗體驗(yàn)證工具、文件上傳、各種開放式身份驗(yàn)證技術(shù)。

3.Web2py

Web2py是一個(gè)用Python語(yǔ)言編寫的免費(fèi)的開源Web框架,旨在敏捷快速的開發(fā)Web應(yīng)用,具有快速、可擴(kuò)展、安全以及可移植的數(shù)據(jù)庫(kù)驅(qū)動(dòng)的應(yīng)用,遵循LGPLv3開源協(xié)議。

Web2py提供一站式的解決方案,整個(gè)開發(fā)過程都可以在瀏覽器上進(jìn)行,提供了Web版的在線開發(fā),HTML模版編寫,靜態(tài)文件的上傳,數(shù)據(jù)庫(kù)的編寫的功能。其它的還有日志功能,以及一個(gè)自動(dòng)化的admin接口。

4.Tornado

Tornado即是一個(gè)Web server(對(duì)此本文不作詳述),同時(shí)又是一個(gè)類web.py的micro-framework,作為框架Tornado的思想主要來源于Web.py,大家在Web.py的網(wǎng)站首頁(yè)也可以看到Tornado的大佬Bret Taylor的這么一段話(他這里說的FriendFeed用的框架跟Tornado可以看作是一個(gè)東西):

“[web.py inspired the] Web framework we use at FriendFeed [and] the webapp framework that ships with App Engine…”

因?yàn)橛羞@層關(guān)系,后面不再單獨(dú)討論Tornado。

5.CherryPy

CherryPy是一種用于Python的、簡(jiǎn)單而非常有用的Web框架,其主要作用是以盡可能少的操作將Web服務(wù)器與Python代碼連接,其功能包括內(nèi)置的分析功能、靈活的插件系統(tǒng)以及一次運(yùn)行多個(gè)HTTP服務(wù)器的功能,可與運(yùn)行在最新版本的Python、Jython、Android上。

關(guān)于框架的選擇誤區(qū)

在框架的選擇問題上,許多人很容易就陷入了下面兩個(gè)誤區(qū)中而不自知:哪個(gè)框架最好——世上沒有最好的框架,只有最適合你自己、最適合你的團(tuán)隊(duì)的框架。編程語(yǔ)言選擇也是一個(gè)道理,你的團(tuán)隊(duì)Python最熟就用Python好了,如果最熟悉的是Ruby那就用Ruby好了,編程語(yǔ)言、框架都只是工具,能多、快、好、省的干完活就是好東西。

過分關(guān)注性能——其實(shí)大部分人是沒必要太關(guān)心框架的性能的,因?yàn)槟汩_發(fā)的網(wǎng)站根本就是個(gè)小站,能上1萬(wàn)的IP的網(wǎng)站已經(jīng)不多了,上10萬(wàn)的更是很少很少。在沒有一定的訪問量前談性能其實(shí)是沒有多大意義的,因?yàn)槟愕腃PU和內(nèi)存一直就閑著呢。

總結(jié)

以上是生活随笔為你收集整理的python爬虫库的功能_Python学习爬虫掌握的库资料大全和框架的选择的分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 亚洲网站在线看 | 国产一级性生活 | 色婷婷狠狠18禁久久 | 香蕉视频啪啪 | 91精品国产91久久久久久久久久久久 | 黄色在线免费观看视频 | 精品免费国产一区二区三区 | 国内性爱视频 | 97久久人人 | 天躁夜夜躁狼狠躁 | 男男gay同性三级 | 少妇精品偷拍高潮白浆 | 日日摸夜夜添狠狠添久久精品成人 | 国产又黄又粗的视频 | 国语一区 | 欧美精品久久天天躁 | 一级中文片 | 天天爱夜夜操 | 国产精品欧美久久久久天天影视 | 两根大肉大捧一进一出好爽视频 | 久久人妻少妇嫩草av无码专区 | 亚洲ⅴ国产v天堂a无码二区 | 国产喷白浆一区二区三区 | 欧美另类综合 | 一级免费毛片 | 欧美极品少妇xxxxⅹ裸体艺术 | 亚洲色图综合网 | 欧美性第一页 | 激情亚洲视频 | 日韩免费在线观看 | 污污视频在线播放 | 日日爱视频 | 精品人妻一区二区三区久久夜夜嗨 | 中文字幕免费高清网站 | 国产黄色www | 国产三级久久 | 欧美性生活一区二区 | 亚洲国产成人一区二区 | 久久无吗视频 | 舒淇裸体午夜理伦 | 波多野结衣影片 | 国产福利在线视频观看 | 色诱av手机版 | 少妇精品无码一区二区三区 | 亚洲国产精品成人无久久精品 | 国产h在线观看 | 欧美最顶级a∨艳星 | 国产夜色精品一区二区av | 4438亚洲最大| 香蕉av一区 | 亚洲一区久久 | 玖玖玖精品| 狼人久久 | 少妇真人直播免费视频 | 国产一区二区黑人欧美xxxx | 亚洲一区成人在线 | 爱吃波客今天最新视频 | 印度毛茸茸| 超碰公开在线观看 | 久久成人18免费观看 | 欧美日韩精品一区二区三区 | 日韩av在线播 | 亚洲国产精品美女 | 一区免费在线观看 | 性大片潘金莲裸体 | 91视频黄色 | 欧美日韩一区二区三区不卡视频 | 天天碰天天碰 | 欧美性猛交bbbbb精品 | 国产精品视频一区二区三区在3 | 久久免费公开视频 | 久久一区二区精品 | 热热色国产| 亚洲免费砖区 | 黄色一级视频在线观看 | 性视频久久| 精品乱码一区二区三区四区 | 97在线播放 | a免费视频 | 97国产成人 | 精品三区视频 | 巨胸喷奶水www久久久免费动漫 | 午夜福利视频 | 欧美永久 | 国产精品无码久久久久 | 午夜av不卡 | 中字幕视频在线永久在线观看免费 | 亚洲视频在线观看免费 | 成人免费看视频 | 色在线免费视频 | 国产精品国产三级国产专播品爱网 | 古装做爰无遮挡三级视频 | 91麻豆精品国产91久久久无需广告 | 巨胸喷奶水www久久久免费动漫 | 亚洲三区视频 | 国产黄色录像 | 日韩女优在线视频 | 99精品视频网站 | 成人欧美一区二区三区黑人孕妇 |