當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫总结(三)-- cloud scrapy

發布時間：2025/3/15 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫总结(三)-- cloud scrapy 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

發現了一個比較好玩的東西，scrapinghub，試著玩了一下 cloud scrapy，因為就它是免費的。。最大優點是可以將爬蟲可視化。這里就簡單記錄一下它怎么用。

注冊賬號 & 新建 scrapy cloud project

在scrapyinghub 官網?注冊賬號
登錄后 create project，在新建的項目下，查看 Code & Deploys，找到 API key 和 Project ID

Deploy your project

$ pip install shub

$ shub login Enter your API key from https://dash.scrapinghub.com/account/apikey API key: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Validating API key... API key is OK, you are logged in now.

deploy 并輸入 Project ID

$ shub deploy ProjectID Packing version ed6b3b8-master Deploying to Scrapy Cloud project "76180" {"status": "ok", "project": 76180, "version": "ed6b3b8-master", "spiders": 1} Run your spiders at: https://dash.scrapinghub.com/p/76180/

Schedule your spider

在自己的項目面板下選擇 run spider 開啟爬蟲，也可以通過命令行開啟。

shub schedule Zhidao Spider Zhidao scheduled, job ID: 76153/2/2 Watch the log on the command line:shub log -f 2/2 or print items as they are being scraped:shub items -f 2/2 or watch it running in Scrapinghub's web interface:https://dash.scrapinghub.com/p/76153/job/2/3

看最新的 log 和 items
JOBID格式：2/2， 2/1 …

shub log JOBID shub items JOBID

或者 Dashboard 查看結果

通過 Dashbord 還可以實時監控 crawler job 的情況，發出的請求數，抓取的 item 數，log 和 error 信息，執行的時間等，都一目了然。

Save items

curl -u APIkey: http://storage.scrapinghub.com/items/76153/2/2 > items.json

分布式爬蟲

cloud scrapy 也提供了分布式爬蟲的選擇，當然是付費的。

Crawlera

強悍的 Crawlera 提供了防止 ban 的機制，通過 ip、user-agent、cookie 等設置，防止爬蟲被禁，詳見?billing

完整代碼

參考鏈接:
http://doc.scrapinghub.com/scrapy-cloud.html#deploying-a-scrapy-spider

原文地址：　http://www.shuang0420.com/2016/06/15/%E7%88%AC%E8%99%AB%E6%80%BB%E7%BB%93-%E4%B8%89-scrapinghub/

總結

以上是生活随笔為你收集整理的爬虫总结(三)-- cloud scrapy的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：爬虫总结(一)-- 爬虫基础 pyth
下一篇：爬虫总结(四)-- 分布式爬虫