pyspider爬虫框架
特點:
去重處理,結果監控,多進程處理,pyquery提取,錯誤重試,webUI管理,代碼簡潔,JS渲染
安裝:
anaconda里邊沒搜到pyspider,所以手動安裝
?
查看pyspider的命令:
?
啟動pyspider所有組件:
在啟動之前,要先安裝phantomjs瀏覽器,因為pyspider組件中有phantomjs組件。
下載地址:http://phantomjs.org/download.html。安裝之后,配置環境變量(phantomjs.exe所在路徑):
之后,pyspider all命令開啟pyspider所有組件:
發現發生錯誤:
ValueError: Invalid configuration:
- Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.
錯誤說,domaincontroller被棄用,建議用http_authenticator.domain_controller代替。
原因是因為WsgiDAV發布了版本 pre-release 3.x。
解決方法如下:
在安裝包中找到pyspider的資源包,然后找到webui文件里面的webdav.py文件打開,修改第209行即可。
把
'domaincontroller': NeedAuthController(app),
修改為:
'http_authenticator':{
'HTTPAuthenticator':NeedAuthController(app),
},
然后再執行pyspider all就能夠通過http://localhost:5000打開頁面了。
(原文:https://blog.csdn.net/qq_37253540/article/details/88196994 )
此時webui組件開啟成功,在端口5000上,則在瀏覽器中輸入http://localhost:5000打開pyspider的webui界面。
?
?
點擊create創建一個項目。之后,右邊是編輯器,左邊是請求的參數
?
轉載于:https://www.cnblogs.com/wisir/p/10587938.html
總結
以上是生活随笔為你收集整理的pyspider爬虫框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LOJ2980 THUSC2017大魔法
- 下一篇: 1. git基础