日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python3异步协程爬虫,simpyder

發(fā)布時(shí)間:2025/3/12 python 45 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python3异步协程爬虫,simpyder 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

Simpyder - Simple Python Spider

Simpyder - 輕量級(jí)協(xié)程Python爬蟲(chóng)

特點(diǎn)

輕量級(jí):下載便利,依賴較少,使用簡(jiǎn)單。

協(xié)程:單線程,通過(guò)協(xié)程實(shí)現(xiàn)并發(fā)。

可定制:簡(jiǎn)單配置,適應(yīng)各種爬取場(chǎng)合。

快速開(kāi)始

下載

#使用pip3

pip3 installsimpyder --user

# 更新包

pip3 installsimpyder --upgrade

編碼

用戶只需要定義三個(gè)函數(shù),實(shí)現(xiàn)三個(gè)模塊:

鏈接獲取

我們需要一個(gè)定義一個(gè)異步生成器,用于產(chǎn)生鏈接。

async def gen_url():

for each_id in range(100):

yield "https://www.biliob.com/api/video/{}".format(each_id)

鏈接解析

我們需要定義一個(gè)解析鏈接的函數(shù)。其中第一個(gè)參數(shù)是Response對(duì)象,也就是上述函數(shù)對(duì)應(yīng)URL的訪問(wèn)結(jié)果。

該函數(shù)需要返回一個(gè)對(duì)象,作為處理結(jié)果。

注意,與普通函數(shù)不同,這是一個(gè)協(xié)程函數(shù)。需要在前面加上async。代表該函數(shù)是異步的。

async def parse(response):

return response.xpath('//meta[@name="title"]/@content')[0]

數(shù)據(jù)導(dǎo)出

上面函數(shù)的處理結(jié)果將在這個(gè)函數(shù)中統(tǒng)一被導(dǎo)出。下列例子為直接在控制臺(tái)中打印導(dǎo)出結(jié)果。

保存需要IO操作,因此這個(gè)函數(shù)可能運(yùn)行較慢,因此也需要是異步的。我們?cè)谇懊嫣砑觓sync關(guān)鍵詞

async def save(item):

print(item)

然后將這些模塊組成一個(gè)Spider

首先導(dǎo)入爬蟲(chóng)對(duì)象:

import AsynSpider from simpyder.spiders

你可以這樣組裝Spider

spider = AsyncSpider()

spider.gen_url = gen_url

spider.parse = parse

spider.save = save

接著就可以開(kāi)始爬蟲(chóng)任務(wù)

s.run()

你也可以通過(guò)構(gòu)造函數(shù)進(jìn)行一些配置

spider = AsyncSpider(name="TEST")

示例程序

from simpyder.spiders import AsynSpider

# new一個(gè)異步爬蟲(chóng)

s = AsynSpider()

# 定義鏈接生成的生成器,這里是爬取800次百度首頁(yè)的爬蟲(chóng)

def g():

count = 0

while count < 800:

count += 1

yield "https://www.baidu.com"

# 綁定生成器

s.gen_url = g

# 定義用于解析的異步函數(shù),這里不進(jìn)行任何操作,返回一段文本

async def p(res):

return "parsed item"

# 綁定解析器

s.parse = p

# 定義用于存儲(chǔ)的異步函數(shù),這里不進(jìn)行任何操作,但是返回2,表示解析出2個(gè)對(duì)象

async def s(item):

return 2

# 綁定存儲(chǔ)器

s.save = s

# 運(yùn)行

s.run()

理論速率

運(yùn)行上述代碼,可以得到單進(jìn)程、并發(fā)數(shù):64、僅進(jìn)行計(jì)數(shù)操作的下載速率:

[2020-09-02 23:42:48,097][CRITICAL] @ Simpyder: user_agent: Simpyder ver.0.1.9

[2020-09-02 23:42:48,169][CRITICAL] @ Simpyder: concurrency: 64

[2020-09-02 23:42:48,244][CRITICAL] @ Simpyder: interval: 0

[2020-09-02 23:42:48,313][INFO] @ Simpyder: 已經(jīng)爬取0個(gè)鏈接(0/min),共產(chǎn)生0個(gè)對(duì)象(0/min)

[2020-09-02 23:42:48,319][INFO] @ Simpyder: Start Crawler: 0

[2020-09-02 23:42:53,325][INFO] @ Simpyder: 已經(jīng)爬取361個(gè)鏈接(4332/min),共產(chǎn)生658個(gè)對(duì)象(7896/min)

[2020-09-02 23:42:58,304][INFO] @ Simpyder: 已經(jīng)爬取792個(gè)鏈接(5280/min),共產(chǎn)生1540個(gè)對(duì)象(10266/min)

[2020-09-02 23:43:03,304][INFO] @ Simpyder: 已經(jīng)爬取1024個(gè)鏈接(4388/min),共產(chǎn)生2048個(gè)對(duì)象(8777/min)

[2020-09-02 23:43:05,007][CRITICAL] @ Simpyder: Simpyder任務(wù)執(zhí)行完畢

[2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累計(jì)消耗時(shí)間:0:00:16.695013

[2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累計(jì)爬取鏈接:1024

[2020-09-02 23:43:05,009][CRITICAL] @ Simpyder: 累計(jì)生成對(duì)象:2048

總結(jié)

以上是生活随笔為你收集整理的python3异步协程爬虫,simpyder的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。