日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爱玛士关于爬虫的scrapy框架的心得

發布時間:2025/4/5 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爱玛士关于爬虫的scrapy框架的心得 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2019獨角獸企業重金招聘Python工程師標準>>>

前言

Scrapy是爬蟲必須學會的一個框架!一般人確實很難搞的透徹!不過他的功能方面確實特別好用。

scrapy

scrapy 是一個異步爬蟲框架,使用它,可以屏蔽很多復雜的底層設計,只需要解析下載下來的頁面,更多了我們需要關注的是目標網站/頁面爬取的難易程度,該怎么來實現它。雖然是,但是在爬取大量網站可能需要 用分布式的爬蟲,當然scrapy 也有

操作流程圖

指定一個起始url后,scrapy就可以根據以上原理圖進行工作了。一個最簡單的頁面,指定頁面的url進行第一次請求,經過引擎,交給調度器,然后調度器再返回給引擎,去下載這個頁面,拿到這個頁面就可以進行解析了。 這里明顯看的出來繞了一個圈子,如果最簡單的的頁面,這樣子會發現多了調度這一步。但是一般在實際業務中,特別是分布式爬蟲,會有很多url 需要爬取,而且一些url是動態添加到待爬隊列的,
我們將所有的待爬都在調度器進行分配,當然這里也有其他操作,比如,一個url已經調度過,那么會進行標識,做到不再重復爬取。

隊列

scrapy 默認的隊列

SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue' SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue' SCHEDULER_PRIORITY_QUEUE = 'queuelib.PriorityQueue'

一般我們不關心這個隊列結構,但是在做分布式時這個隊列就需要替換

scrapy_redis

scrapy 本身是異步,但是不支持分布式爬取。 要做到分布式爬取,那么需要一個公共的待爬隊列

scrapy_redis 需要制定隊列結構,可在 SpiderQueue,SpiderStack,
SpiderPriorityQueue 中選者一個,形如

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"

scrapy注意事項

這里說一下scrapy的一個要注意的細節問題,對個人來說,其實他的文檔有些地方存在誤導,當然我指的是中文文檔,格式是標題加內容,區分通過數字。

scrapy流程問題中下載和請求有什么區別

?

流程圖

?

如果對Python編程、網絡爬蟲、機器學習、數據挖掘、web開發、人工智能、面試經驗交流。感興趣可以519970686,群內會有不定期的發放免費的資料鏈接,這些資料都是從各個技術網站搜集、整理出來的,如果你有好的學習資料可以私聊發我,我會注明出處之后分享給大家。

spider通過engine產生Requests給Scheduler,之后通過Downloader產生Responses。這里有一個詭異的現象,比如我們通過request這個庫寫一個爬去百度的爬蟲

import request page = request.get('http://www.baidu.com')

可能request拼錯了

這樣的一行命令,就已經實現了把百度的頁面下載下來這個功能,那么請求和下載在這行代碼體現在哪里?

每一個請求的過程,就已經實現了下載,換句話說,請求就是下載。

那么,所謂scrapy的請求和下載是什么?
請求,就是url
下載,就是請求url或者說訪問url

知道了這一點,很多東西都可以理解
比如,下載中間件這個東西
他是在parse函數前還是后執行?肯定是前啊,因為parse是下載
還有就是scrapy.Request在中間件之前還是之后?按照文檔說法,Request通過下載中間件到下載啊,應該是之前啊,但其實,scrapy.Request在中間件后面執行。因為它是下載里面的(請求就是下載)。

當然,如果上面你不相信的話,可以試一下換代理,中間件需要這樣一句代碼

request.meta['proxy'] = 'http://192.13.2.2:8888'

之后,才是才是請求呢。你不會用的時候,覺得很多地方不合理。你就覺得工具很爛,應該是你用的不好。

轉載于:https://my.oschina.net/u/3942476/blog/2252261

總結

以上是生活随笔為你收集整理的爱玛士关于爬虫的scrapy框架的心得的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 强伦人妻一区二区三区视频18 | 久久精品国产精品亚洲毛片 | 国产女主播一区二区 | 激情久久久久 | 免费成人在线观看视频 | 亚洲综合在线一区二区 | 香蕉在线视频播放 | 爆操女秘书 | 青青艹av| 久操操| www.av麻豆 | 激情小说激情视频 | 色香五月 | 国产免费内射又粗又爽密桃视频 | 国产999精品久久久久久 | 西西久久 | 在线看a网站 | 99视频网站| 人妻 日韩精品 中文字幕 | 国产色综合视频 | 人碰人操 | 欧美日韩精品在线观看 | 91麻豆精品国产91 | 久久亚洲av永久无码精品 | 久久久久久久久久久网站 | h无码动漫在线观看 | 欧美日韩免费一区 | 喷水av | 久久久久久一区二区三区 | 日美韩一区二区三区 | 美女脱光内衣内裤 | 午夜免费网址 | 亚洲男人天堂视频 | 琪琪电影午夜理论片八戒八戒 | 午夜视频免费 | 成人看片在线观看 | 日本一区中文 | 高跟鞋av | 老司机午夜在线 | 91久久精品日日躁夜夜躁欧美 | 在线观看污污视频 | 欧美天堂一区 | 特黄aaaaaaaaa毛片免费视频 | 国产午夜精品一区二区理论影院 | 丰满少妇被猛烈进入高清播放 | 午夜影院福利社 | 日韩福利网 | 日韩一级性 | 一区二区中文字幕在线观看 | 国产欧美激情 | 日韩在线你懂的 | 青青草超碰 | 四虎网站在线播放 | 超碰人人91| 刘玥91精选国产在线观看 | 国产精品久久久久久久蜜臀 | 久久女人网 | 国产精品成久久久久三级 | 另类小说一区二区 | 台湾佬av | 国产又大又黄又粗 | 欧美色一区二区三区在线观看 | 六月丁香婷婷网 | 亚洲激情片 | 啪啪av| 欧美一级黄 | 好爽又高潮了毛片 | 精品人妻一区二区三区日产乱码卜 | 日本无遮挡边做边爱边摸 | 丝袜av在线播放 | av在线不卡网站 | 国产精品一品二品 | 免费国产羞羞网站视频 | 亚洲一级Av无码毛片久久精品 | 秋霞影院午夜丰满少妇在线视频 | 黄瓜视频在线免费看 | 色婷婷香蕉在线一区二区 | 成人在线短视频 | 日日噜噜噜 | 91麻豆视频 | 2021亚洲天堂 | 岛国av一区二区三区 | 国产亚洲精品久久久久动 | 四虎国产在线 | 天天撸一撸| 插我舔内射18免费视频 | 高清不卡一区二区三区 | 久草三级 | 欧美一区二区三区久久精品 | 欧美偷拍第一页 | 成人午夜淫片免费观看 | 天天干夜夜爽 | 久久高清精品 | av先锋在线 | 日韩人妻精品在线 | 日韩欧美综合在线 | 69精品在线观看 | 伊人艹| 少妇人妻偷人精品一区二区 |