日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python3安装scrapy及使用方法(爬虫框架)

發布時間:2025/3/15 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python3安装scrapy及使用方法(爬虫框架) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

安裝:

  • sudo pip3 install lxml
  • sudo apt-get install python-dev
  • sudo apt-get install build-essential
  • sudo apt-get install libxml2-dev
  • sudo apt-get install libxslt1-dev
  • sudo pip3 install scrapy
  • ?

    介紹:

    Scrapy運行流程大概如下:

  • 引擎從調度器中取出一個鏈接(URL)用于接下來的抓取
  • 引擎把URL封裝成一個請求(Request)傳給下載器
  • 下載器把資源下載下來,并封裝成應答包(Response)
  • 爬蟲解析Response
  • 解析出實體(Item),則交給實體管道進行進一步的處理
  • 解析出的是鏈接(URL),則把URL交給調度器等待抓取
  • 開發?Scrapy?爬蟲步驟:

  • 新建項目 (scrapy startproject xxx):新建一個新的爬蟲項目
  • 明確目標 (編寫items.py):明確你想要抓取的目標
  • 制作爬蟲 (spiders/xxspider.py):制作爬蟲開始爬取網頁
  • 存儲內容 (pipelines.py):設計管道存儲爬取內容
  • ?

    簡單實例?

    1. 創建工程

    scrapy startproject mySpider #創建scrapy工程 cd mySpider #進入工程目錄 scrapy genspider itcast "www.itcast.cn" #創建爬蟲(spider名不能與project名相同)

    2. 編寫代碼

    item文件編寫:items用于存儲字段的定義。即爬取的內容存與item類中。

    spider文件編寫:編寫爬蟲規則,頭,等請求后的返回信息處理

    pipeline文件編寫:pipeline文件用于將數據存儲到文件中。

    setting文件的修改:其他配置暫且不用修改,只修改pipeline配置。

    ?

    啟動測試:

    scrapy crawl itcast #運行爬蟲

    ?

    ?

    總結

    以上是生活随笔為你收集整理的python3安装scrapy及使用方法(爬虫框架)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。