當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

ubuntu下scrapyd部署爬虫项目

發布時間：2023/12/13 综合教程 42 生活家

生活随笔收集整理的這篇文章主要介紹了 ubuntu下scrapyd部署爬虫项目小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

scrapyd部署爬蟲的優勢：
1、方便監控爬蟲的實時運行狀態，也可以通過接口調用開發自己的監控爬蟲的頁面
2、方便統一管理，可以同時啟動或關閉多個爬蟲
3、擁有版本控制，如果爬蟲出現了不可逆的錯誤，可以通過接口恢復到之前的任意版本

注意：在安裝scrapyd之前要確保你的環境能夠運行scrapy（無論集成環境還在虛擬環境）
在這里我使用的是虛擬環境API部署（上傳）工程，并且控制工程中的爬蟲。

1.安裝scrapyd

pip install scrapyd
1
2.創建一個目錄用于存放爬蟲項目的數據文件

3 cd到創建的目錄下，之所以到這個目錄下運行scrapyd是因為運行時候會在這個目錄下產生一個dbs的文件
4 執行scrapyd

目錄下會出現dbs一個文件夾

瀏覽器訪問 127.0.0.1:6800

5 安裝scrapyd-clien 用于打包

6.拷貝scrapyd-deploy 到爬蟲項目下

7 修改項目中的scrapy.cfg 文件

8.執行scrapyd-deploy -l 啟動服務，可以看到設置的名稱

9.開始打包前，執行一個命令：scrapy list ，這個命令執行成功說明可以打包了，如果沒執行成功說明還有工作沒完成

返回了爬蟲名稱說明一切ok了.

10.執行打包命令： scrapyd-deploy 部署名稱 -p 項目名稱

此時說明打包成功

11.輸入開啟爬蟲命令
curl http://localhost:6800/schedule.json -d project=項目名稱 -d spider=爬蟲名稱
如果缺少curl，那么就 sudo apt install surl 安裝

停止爬蟲
curl http://localhost:6800/cancel.json -d project=scrapy項目名稱 -d job=運行ID

刪除scrapy項目
注意：一般刪除scrapy項目，需要先執行命令停止項目下在遠行的爬蟲
curl http://localhost:6800/delproject.json -d project=scrapy項目名稱

查看有多少個scrapy項目在api中
curl http://localhost:6800/listprojects.json

查看指定的scrapy項目中有多少個爬蟲
curl http://localhost:6800/listspiders.json?project=scrapy項目名稱

總結幾個請求url
1、獲取狀態
http://127.0.0.1:6800/daemonstatus.json
2、獲取項目列表
http://127.0.0.1:6800/listprojects.json
3、獲取項目下已發布的爬蟲列表
http://127.0.0.1:6800/listspiders.json?project=myproject
4、獲取項目下已發布的爬蟲版本列表
http://127.0.0.1:6800/listversions.json?project=myproject
5、獲取爬蟲運行狀態
http://127.0.0.1:6800/listjobs.json?project=myproject
6、啟動服務器上某一爬蟲（必須是已發布到服務器的爬蟲）
http://127.0.0.1:6800/schedule.json （post方式，data={“project”:myproject,”spider”:myspider}）
7、刪除某一版本爬蟲
http://127.0.0.1:6800/delversion.json
（post方式，data={“project”:myproject,”version”:myversion}）
8、刪除某一工程，包括該工程下的各版本爬蟲
http://127.0.0.1:6800/delproject.json（post方式，data={“project”:myproject}）
-------------------

總結

以上是生活随笔為你收集整理的ubuntu下scrapyd部署爬虫项目的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一些奇妙的线段树操作
下一篇： linux源码阅读笔记 jmpi指