當前位置：首頁 >

python笔记之利用scrapy框架爬取糗事百科首页段子

發布時間：2024/1/23 50 豆豆

生活随笔收集整理的這篇文章主要介紹了 python笔记之利用scrapy框架爬取糗事百科首页段子小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

環境準備:

scrapy框架（可以安裝anaconda一個python的發行版本，有很多庫）

cmd命令窗口

教程：

創建爬蟲項目

scrapy startproject qq #創建了一個爬蟲項目qq

在項目中創建爬蟲文件

scrapy genspider -t basic qsbk qiushibaike.com

-t: 后面跟爬蟲模板
qiushibaike.com 是開始爬取的域名

由于我們在windows中操作，所以創建好后，我們可以使用Pycharm打開我們的爬蟲項目qq ,然后在spiders文件夾中找到我們創建的爬蟲文件qsbk.py
編輯改文件

# -*- coding: utf-8 -*- import scrapy #調用scrapy框架 from qq.items import QqItem #調用items.py中的容器 from scrapy import Requestclass QsbkSpider(scrapy.Spider):name = 'qsbk'allowed_domains = ['qiushibaike.com']start_urls = ['http://qiushibaike.com/']def start_requests(self):ua = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) ""AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"}yield Request('http://qiushibaike.com/', headers=ua)#對瀏覽器進行偽裝def parse(self, response):item = QqItem()item["content"] = response.xpath('//div[@class="content"]/span/text()').extract()item["link"] = response.xpath('//a[@class="contentHerf"]/@href').extract()yield item #根據條件提取指定內容

編輯items.py文件，添加容器

import scrapyclass QqItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()content = scrapy.Field() #添加容器contentlink = scrapy.Field() #添加容器link

編輯pipelines.py文件

class FirstPipeline(object):def process_item(self, item, spider):return item

最后，我們在命令行調用該文件
進入到我們的項目下，輸入命令

scrapy crawl qsbk

如果沒有內容顯示，我們可以嘗試更改項目下的settings.py文件

將ROBOTSTXT_OBEY = True 改為ROBOTSTXT_OBEY = False 并將下面的內容去注釋 ITEM_PIPELINES = {'qq.pipelines.QqPipeline': 300, }

至此，我們利用框架進行簡單爬蟲就完成了！

總結

以上是生活随笔為你收集整理的python笔记之利用scrapy框架爬取糗事百科首页段子的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python笔记之scrapy
下一篇： python笔记之利用Beautiful

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python笔记之利用scrapy框架爬取糗事百科首页段子

環境準備:

教程：

總結