爬虫总结(三)-- cloud scrapy
發現了一個比較好玩的東西,scrapinghub,試著玩了一下 cloud scrapy,因為就它是免費的。。最大優點是可以將爬蟲可視化。這里就簡單記錄一下它怎么用。
注冊賬號 & 新建 scrapy cloud project
在scrapyinghub 官網?注冊賬號
登錄后 create project,在新建的項目下,查看 Code & Deploys,找到 API key 和 Project ID
Deploy your project
$ pip install shublogin 并輸入 API key
$ shub login Enter your API key from https://dash.scrapinghub.com/account/apikey API key: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Validating API key... API key is OK, you are logged in now.deploy 并輸入 Project ID
$ shub deploy ProjectID Packing version ed6b3b8-master Deploying to Scrapy Cloud project "76180" {"status": "ok", "project": 76180, "version": "ed6b3b8-master", "spiders": 1} Run your spiders at: https://dash.scrapinghub.com/p/76180/Schedule your spider
在自己的項目面板下選擇 run spider 開啟爬蟲,也可以通過命令行開啟。
shub schedule Zhidao Spider Zhidao scheduled, job ID: 76153/2/2 Watch the log on the command line:shub log -f 2/2 or print items as they are being scraped:shub items -f 2/2 or watch it running in Scrapinghub's web interface:https://dash.scrapinghub.com/p/76153/job/2/3看最新的 log 和 items
JOBID格式:2/2, 2/1 …
或者 Dashboard 查看結果
通過 Dashbord 還可以實時監控 crawler job 的情況,發出的請求數,抓取的 item 數,log 和 error 信息,執行的時間等,都一目了然。
Save items
curl -u APIkey: http://storage.scrapinghub.com/items/76153/2/2 > items.json分布式爬蟲
cloud scrapy 也提供了分布式爬蟲的選擇,當然是付費的。
Crawlera
強悍的 Crawlera 提供了防止 ban 的機制,通過 ip、user-agent、cookie 等設置,防止爬蟲被禁,詳見?billing
完整代碼
參考鏈接:
http://doc.scrapinghub.com/scrapy-cloud.html#deploying-a-scrapy-spider
原文地址: http://www.shuang0420.com/2016/06/15/%E7%88%AC%E8%99%AB%E6%80%BB%E7%BB%93-%E4%B8%89-scrapinghub/
總結
以上是生活随笔為你收集整理的爬虫总结(三)-- cloud scrapy的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 爬虫总结(一)-- 爬虫基础 pyth
- 下一篇: 爬虫总结(四)-- 分布式爬虫