python笔记之利用scrapy框架爬取糗事百科首页段子
生活随笔
收集整理的這篇文章主要介紹了
python笔记之利用scrapy框架爬取糗事百科首页段子
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
環境準備:
教程:
-t: 后面跟爬蟲模板
qiushibaike.com 是開始爬取的域名
編輯改文件
編輯items.py文件,添加容器
import scrapyclass QqItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()content = scrapy.Field() #添加容器contentlink = scrapy.Field() #添加容器link編輯pipelines.py文件
class FirstPipeline(object):def process_item(self, item, spider):return item最后,我們在命令行調用該文件
進入到我們的項目下,輸入命令
如果沒有內容顯示,我們可以嘗試更改項目下的settings.py文件
將ROBOTSTXT_OBEY = True 改為ROBOTSTXT_OBEY = False 并將下面的內容去注釋 ITEM_PIPELINES = {'qq.pipelines.QqPipeline': 300, }至此,我們利用框架進行簡單爬蟲就完成了!
總結
以上是生活随笔為你收集整理的python笔记之利用scrapy框架爬取糗事百科首页段子的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python笔记之scrapy
- 下一篇: kali安装vmtools不能拖拽(复制