日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python3 爬虫 requests安装_BOSS直聘招聘信息获取之爬虫工具分析

發(fā)布時(shí)間:2023/12/10 python 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python3 爬虫 requests安装_BOSS直聘招聘信息获取之爬虫工具分析 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

點(diǎn)擊藍(lán)色“不太靈光的程序員”關(guān)注我喲

加個(gè)“星標(biāo)”,每天上午 09:30,干貨推送!

文中使用的組件庫(kù)僅限于Python語言,由于最近收到一些同學(xué)的留言說,按照網(wǎng)上的教程一步一步的學(xué)習(xí),卻頻繁的出現(xiàn)報(bào)錯(cuò),很多情況是因?yàn)榘姹静灰恢碌膯栴}導(dǎo)致的,我會(huì)在文中描述示例的庫(kù)版本號(hào),新手同學(xué)還需多加留意。

爬蟲程序分析

我們可以使用很多方式來完成一個(gè)爬蟲程序的編寫,可以使用比較完善的爬蟲框架(博主是并沒有使用過這方面的框架,只會(huì)些小打小鬧的,所以不過多描述),也可以使用request、aiohttp、BeautifulSoup庫(kù)實(shí)現(xiàn)基礎(chǔ)的爬蟲功能,我們后面的學(xué)習(xí)也是基于這幾個(gè)庫(kù)迭代完成的。

Python主流的爬蟲框架

你以為Python爬蟲框架只有Scrapy么,Python中還有些主流的爬蟲框架我們?cè)诖撕?jiǎn)答介紹下

1.Scrapy

Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。可以應(yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中。。用這個(gè)框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。

項(xiàng)目地址:https://scrapy.org/

2.PySpider

pyspider 是一個(gè)用python實(shí)現(xiàn)的功能強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng),能在瀏覽器界面上進(jìn)行腳本的編寫,功能的調(diào)度和爬取結(jié)果的實(shí)時(shí)查看,后端使用常用的數(shù)據(jù)庫(kù)進(jìn)行爬取結(jié)果的存儲(chǔ),還能定時(shí)設(shè)置任務(wù)與任務(wù)優(yōu)先級(jí)等。

項(xiàng)目地址:https://github.com/binux/pyspider

3.Crawley

Crawley可以高速爬取對(duì)應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)可以導(dǎo)出為JSON、XML等。

項(xiàng)目地址:http://project.crawley-cloud.com/

4.Portia

Portia是一個(gè)開源可視化爬蟲工具,可讓您在不需要任何編程知識(shí)的情況下爬取網(wǎng)站!簡(jiǎn)單地注釋您感興趣的頁(yè)面,Portia將創(chuàng)建一個(gè)蜘蛛來從類似的頁(yè)面提取數(shù)據(jù)。

項(xiàng)目地址:https://github.com/scrapinghub/portia

5.Newspaper

Newspaper可以用來提取新聞、文章和內(nèi)容分析。使用多線程,支持10多種語言等。

項(xiàng)目地址:https://github.com/codelucas/newspaper

6.Beautiful Soup

Beautiful Soup 是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫(kù).它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間。

項(xiàng)目地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

7.Grab

Grab是一個(gè)用于構(gòu)建Web看板的Python框架。借助Grab,您可以構(gòu)建各種復(fù)雜的網(wǎng)頁(yè)抓取工具,從簡(jiǎn)單的5行腳本到處理數(shù)百萬個(gè)網(wǎng)頁(yè)的復(fù)雜異步網(wǎng)站抓取工具。Grab提供一個(gè)API用于執(zhí)行網(wǎng)絡(luò)請(qǐng)求和處理接收到的內(nèi)容,例如與HTML文檔的DOM樹進(jìn)行交互。

項(xiàng)目地址:http://docs.grablib.org/en/latest/#grab-spider-user-manual

8.Cola

Cola是一個(gè)分布式的爬蟲框架,對(duì)于用戶來說,只需編寫幾個(gè)特定的函數(shù),而無需關(guān)注分布式運(yùn)行的細(xì)節(jié)。任務(wù)會(huì)自動(dòng)分配到多臺(tái)機(jī)器上,整個(gè)過程對(duì)用戶是透明的。

項(xiàng)目地址:https://github.com/chineking/cola

基于Cola實(shí)現(xiàn)的爬蟲位于contrib/目錄下。目前實(shí)現(xiàn)了四個(gè)爬蟲:

  • wiki:維基百科。

  • weibo:新浪微博爬蟲。從初始用戶出發(fā),然后是其關(guān)注和粉絲,依次類推,抓取指定個(gè)數(shù)的新浪微博用戶的微博、個(gè)人信息、關(guān)注和粉絲。其中,用戶微博只獲取了內(nèi)容、贊的個(gè)數(shù)、轉(zhuǎn)發(fā)和評(píng)論的個(gè)數(shù)等等,而沒有具體去獲取此微博被轉(zhuǎn)發(fā)和評(píng)論的內(nèi)容。

  • generic(unstable):通用爬蟲,只需配置,而無需修改代碼。目前Cola實(shí)現(xiàn)了一個(gè)抽取器(cola/core/extractor),能夠從網(wǎng)頁(yè)正文中自動(dòng)抽取主要內(nèi)容,即去除類似邊欄和底腳等內(nèi)容。但是,此抽取器目前準(zhǔn)確度還不夠,效率也不夠高,所以需要謹(jǐn)慎使用。

  • weibosearch(unstable):新浪微博搜索的爬蟲。這個(gè)爬蟲使用cola.core.opener.SpynnerOpener,基于spynner實(shí)現(xiàn)了一個(gè)Opener能夠執(zhí)行JavaScript和Ajax代碼。目前這個(gè)爬蟲存在的問題是:新浪微博可能會(huì)將其識(shí)別成機(jī)器人,因此有可能會(huì)讓輸入驗(yàn)證碼。

到此,想要學(xué)框架的同學(xué)可以準(zhǔn)備關(guān)閉網(wǎng)頁(yè)了。

先了解下后面爬取需要的模塊

Requests 模塊

幫助文檔:https://requests.readthedocs.io/en/master/

雖然Python的標(biāo)準(zhǔn)庫(kù)中 urllib2 模塊已經(jīng)包含了平常我們使用的大多數(shù)功能,但是它的 API 使用起來讓人感覺不太好,而 Requests 自稱 “HTTP for Humans”,說明使用更簡(jiǎn)潔方便。

Requests 繼承了urllib2的所有特性。Requests支持HTTP連接保持和連接池,支持使用cookie保持會(huì)話,支持文件上傳,支持自動(dòng)確定響應(yīng)內(nèi)容的編碼,支持國(guó)際化的 URL 和 POST 數(shù)據(jù)自動(dòng)編碼。

核心功能:

  • Keep-Alive & 連接池

  • 國(guó)際化域名和 URL

  • 帶持久 Cookie 的會(huì)話

  • 瀏覽器式的 SSL 認(rèn)證

  • 自動(dòng)內(nèi)容解碼

  • 基本/摘要式的身份認(rèn)證

  • 優(yōu)雅的 key/value Cookie

  • 自動(dòng)解壓

  • Unicode 響應(yīng)體

  • HTTP(S) 代理支持

  • 文件分塊上傳

  • 流下載

  • 連接超時(shí)

  • 分塊請(qǐng)求

  • 支持 .netrc

Requests 支持 Python 2.6—2.7以及3.3—3.7,而且能在 PyPy 下完美運(yùn)行。

簡(jiǎn)單的頁(yè)面獲取

我們來嘗試獲取BOSS的首頁(yè)。

# Python3.7
# requests==2.23.0
import requests


def run():
req = requests.get('https://www.zhipin.com')
if req.status_code == 200:
print(req.content.decode("utf-8"))


if __name__ == "__main__":
run()

BOSS首頁(yè)獲取到的部分信息

aiohttp 模塊

aiohttp是一個(gè)為Python提供異步HTTP 客戶端/服務(wù)端編程,基于asyncio(Python用于支持異步編程的標(biāo)準(zhǔn)庫(kù))的異步庫(kù)。由于是基于asyncio的,所以支持 Python 3.5+,如果你使用的是Python 3.4, 請(qǐng)將await替換成yield from,將async 替換成帶有 @corotine裝飾器的def。

幫助文檔:https://docs.aiohttp.org/en/stable/

核心功能:

  • 同時(shí)支持客戶端使用和服務(wù)端使用。

  • 同時(shí)支持服務(wù)端WebSockets組件和客戶端WebSockets組件,開箱即用。

  • web服務(wù)器具有中間件,信號(hào)組件和可插拔路由的功能。

簡(jiǎn)單的頁(yè)面獲取

我們還是來獲取BOSS的首頁(yè)。

# Python3.7
# aiohttp==3.6.3
import aiohttp


async def run():
async with aiohttp.ClientSession() as session:
async with session.get('https://www.zhipin.com') as resp:
assert resp.status == 200
print(await resp.text())


if __name__ == "__main__":
asyncio.run(run())

BOSS首頁(yè)獲取到的部分信息

bs4模塊

Beautiful Soup 4.4.0 文檔

Beautiful Soup 是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫(kù)。
它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式。Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間。

  • Beautiful Soup 4 支持 Python2.x 和Python3.x

  • Beautiful Soup3 支持 Python2.x

  • Beautiful Soup 4兼容Beautiful Soup3的功能

幫助文檔:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

簡(jiǎn)單的頁(yè)面數(shù)據(jù)提取

我們還是來提取BOSS的title。

# Python3.7
# requests==2.23.0
import requests


def run():
req = requests.get('https://www.zhipin.com')
if req.status_code == 200:
content = req.content.decode("utf-8")
content = bs(content, "html.parser")
print(content.find("title").text)


if __name__ == "__main__":
run()

BOSS招聘信息爬取

到此我們需要的基本工具就介紹完了,點(diǎn)波關(guān)注,后面會(huì)繼續(xù)分享 如何將這些工具運(yùn)用到實(shí)戰(zhàn)中。

end

推薦閱讀:

  • BOSS直聘招聘信息獲取之網(wǎng)站分析

  • BOSS直聘招聘信息獲取之爬蟲工具分析

  • BOSS直聘招聘信息獲取之爬蟲程序分析

如有收獲,點(diǎn)個(gè)在看,誠(chéng)摯感謝

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的python3 爬虫 requests安装_BOSS直聘招聘信息获取之爬虫工具分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 337p粉嫩大胆噜噜噜亚瑟影院 | 性色av网| 五月网站 | 国产裸体永久免费无遮挡 | 丝袜人妖 | 亚洲成人福利在线 | 毛片在线免费视频 | 超碰在线视屏 | 色在线免费视频 | 伊人青青久久 | 一区二区三区入口 | 欧美色鬼| 性——交——性——乱免费的 | 91精产国品| 日本黄色片一级 | 婷婷激情四射 | 在线免费观看av的网站 | 亚洲自拍偷拍av | 亚洲精品.www | 天堂中文在线免费观看 | 自拍偷拍亚洲综合 | 日韩 欧美 自拍 | 亚洲精品视频在线看 | www视频免费在线观看 | 成人深夜在线观看 | 99热6这里只有精品 三级av在线免费观看 | 奇米在线观看 | 91精品视频在线看 | 91久久一区二区 | 麻豆视频在线观看免费网站 | 亚洲国产精品久久久久婷蜜芽 | 国产66页 | 欧美久久久久久久久久 | 欧亚乱熟女一区二区在线 | 狼性av懂色av禁果av | 香蕉久热 | 日本黄网站 | 男人用嘴添女人下身免费视频 | 欧美日韩视频在线观看免费 | 国产私密视频 | 国产无遮挡又黄又爽又色视频 | 色婷婷婷 | 天天看黄色 | 成人tiktok黄短视频 | 精品成人中文无码专区 | 欧美一级视频免费 | 国产精品99无码一区二区视频 | 蜜桃传媒一区二区亚洲av | 精品久久久久久久无码 | 久久五月视频 | 妺妺窝人体色www在线小说 | 国产无遮挡免费 | 理论片中文字幕 | 国产第五页 | 激情视频激情小说 | www.av72| 青青草久久爱 | 日韩亚洲在线观看 | 久久精品a亚洲国产v高清不卡 | 伊人免费在线观看高清版 | 日韩欧美视频在线免费观看 | 黄色的毛片 | 在线看的av | 6080一级片| 天堂视频一区 | 日本白嫩的bbw | 国产亚洲欧美一区二区三区 | 国产乱码精品一区二区三区中文 | 久久综合爱 | 国产成年人视频网站 | 91成人在线观看喷潮 | 成人在线免费播放 | 五月婷婷小说 | 欧美人一级淫片a免费播放 西方av在线 | 3d动漫啪啪精品一区二区中文字幕 | 久久视频99 | 黄色香蕉网 | 国产美女激情视频 | 爆乳熟妇一区二区三区 | 无码乱人伦一区二区亚洲 | 美女露胸露尿口 | 国产三级国产精品国产专区50 | 国产成人综合在线视频 | 中文字幕一区二区久久人妻网站 | 亚洲福利视频导航 | 日日干日日草 | 男人操女人的免费视频 | 国产成人区| 欧美黄色录像 | 丝袜性爱视频 | 另类ts人妖一区二区三区 | 中文字幕无码不卡免费视频 | 黄色片视频免费看 | 亚洲AV乱码国产精品观看麻豆 | 精品一区二区三区无码按摩 | 成年黄色片 | 香蕉视频官网 | 日韩一级二级视频 | 在线免费观看日本 |