日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

發布時間:2023/11/30 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Scrapy框架安裝

1、首先,終端執行命令升級pip: python -m pip install --upgrade pip
2、安裝,wheel(建議網絡安裝) pip install wheel
3、安裝,lxml(建議下載安裝)
4、安裝,Twisted(建議下載安裝)
5、安裝,Scrapy(建議網絡安裝) pip install Scrapy

測試Scrapy是否安裝成功

?

Scrapy框架指令

scrapy -h ?查看幫助信息

Available commands:
  bench       Run quick benchmark test?(scrapy bench??硬件測試指令,可以測試當前服務器每分鐘最多能爬多少個頁面)
  fetch       ? Fetch a URL using the Scrapy downloader?(scrapy fetch http://www.iqiyi.com/??獲取一個網頁html源碼)
  genspider      ??Generate new spider using pre-defined templates ()
  runspider      Run a self-contained spider (without creating a project) ()
  settings      ??Get settings values ()
  shell         Interactive scraping console ()
  startproject     Create new project?(cd 進入要創建項目的目錄,scrapy startproject 項目名稱?,創建scrapy項目)?
  version       ? Print Scrapy version ()
  view        ? ?Open URL in browser, as seen by Scrapy ()

?

創建項目以及項目說明

scrapy startproject adc ?創建項目

項目說明

目錄結構如下:

├── firstCrawler

│?? ├── __init__.py

│?? ├── items.py

│?? ├── middlewares.py

│?? ├── pipelines.py

│?? ├── settings.py

│?? └── spiders

│?? ? ? └── __init__.py

└── scrapy.cfg

    • scrapy.cfg: 項目的配置文件
    • tems.py: 項目中的item文件,用來定義解析對象對應的屬性或字段。
    • pipelines.py:?負責處理被spider提取出來的item。典型的處理有清理、 驗證及持久化(例如存取到數據庫)
    • settings.py: 項目的設置文件.
    • spiders:實現自定義爬蟲的目錄
    • middlewares.py:Spider中間件是在引擎及Spider之間的特定鉤子(specific hook),處理spider的輸入(response)和輸出(items及requests)。 其提供了一個簡便的機制,通過插入自定義代碼來擴展Scrapy功能。

?

?

項目指令

項目指令是需要cd進入項目目錄執行的指令

scrapy -h ?項目指令幫助

Available commands:
  bench      Run quick benchmark test
  check      Check spider contracts
  crawl    ?? Run a spider
  edit      ?? Edit spider
  fetch      ?Fetch a URL using the Scrapy downloader
  genspider  ? Generate new spider using pre-defined templates
  list       ?List available spiders
  parse      Parse URL (using its spider) and print the results
  runspider    Run a self-contained spider (without creating a project)
  settings   ? ?Get settings values
  shell      Interactive scraping console
  startproject  ?Create new project
  version  ? ? ?Print Scrapy version?(scrapy version??查看scrapy版本信息)
  view    ? Open URL in browser, as seen by Scrapy?(scrapy view http://www.zhimaruanjian.com/??下載一個網頁并打開)

?

創建爬蟲文件

創建爬蟲文件是根據scrapy的母版來創建爬蟲文件的

scrapy genspider -l??查看scrapy創建爬蟲文件可用的母版

Available templates:母版說明
  basic   ? ?  創建基礎爬蟲文件

  crawl     ? ?創建自動爬蟲文件
  csvfeed   ? ? ?創建爬取csv數據爬蟲文件

  xmlfeed    ?創建爬取xml數據爬蟲文件

創建一個基礎母版爬蟲,其他同理

scrapy genspider ?-t ?母版名稱 ?爬蟲文件名稱 ?要爬取的域名?創建一個基礎母版爬蟲,其他同理
如:scrapy genspider ?-t ?basic ?pach ?baidu.com

?

scrapy check 爬蟲文件名稱?測試一個爬蟲文件是否合規
如:scrapy check pach

?

?

scrapy crawl 爬蟲名稱??執行爬蟲文件,顯示日志 【重點】

scrapy crawl 爬蟲名稱 --nolog??執行爬蟲文件,不顯示日志【重點】

?

轉載于:https://www.cnblogs.com/meng-wei-zhi/p/8182599.html

總結

以上是生活随笔為你收集整理的十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。