三十五、Scrapy 中的杂知识总结和代理池的编写
生活随笔
收集整理的這篇文章主要介紹了
三十五、Scrapy 中的杂知识总结和代理池的编写
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
@Author:Runsen
上次 用scrapy爬了騰訊招聘網站,有兩個job.json 和detail.json,針對一個item,其實有更簡單的處理方法。
今天講講scrapy 中的雜知識,做一個系統的總結
文章目錄
- 保存信息
- 日記的使用
- Scrapy shell
- UserAgentMiddleware
保存信息
crapy保存信息的最簡單的方法主要有四種,-o 輸出指定格式的文件,命令如下:
- 默認json
scrapy crawl name -o 、spider.json
- json lines格式,默認為Unicode編碼
scrapy crawl name -o spider..jl
- csv 逗號表達式,可用Excel打開
scrapy crawl name -o spider..csv
- xml格式
scrapy crawl name -o spider..xml
但是保存的編碼不對,必須在settings中加入
FEED_EXPORT_EN
總結
以上是生活随笔為你收集整理的三十五、Scrapy 中的杂知识总结和代理池的编写的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: keras从入门到放弃(十四)模型的保存
- 下一篇: 09主板u盘怎么设coms 09主板如何