當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy startproject【学习笔记02】

發布時間：2023/12/20 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 scrapy startproject【学习笔记02】小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

入門案例

學習目標

創建一個Scrapy項目
定義提取的結構化數據(Item)
編寫爬取網站的 Spider 并提取出結構化數據(Item)
編寫 Item Pipelines 來存儲提取到的Item(即結構化數據)

一. 新建項目(scrapy startproject)

在開始爬取之前，必須創建一個新的Scrapy項目。進入自定義的項目目錄中，運行下列命令：

scrapy startproject mySpider

其中， mySpider 為項目名稱，可以看到將會創建一個 mySpider 文件夾，目錄結構大致如下：

下面來簡單介紹一下各個主要文件的作用：

scrapy.cfg ：項目的配置文件

mySpider/ ：項目的Python模塊，將會從這里引用代碼

mySpider/items.py ：項目的目標文件

mySpider/pipelines.py ：項目的管道文件

mySpider/settings.py ：項目的設置文件

mySpider/spiders/ ：存儲爬蟲代碼目錄

二、明確目標(mySpider/items.py)

我們打算抓取：http://www.itcast.cn/channel/teacher.shtml?網站里的所有講師的姓名、職稱和個人信息。

打開mySpider目錄下的items.py

Item 定義結構化數據字段，用來保存爬取到的數據，有點像Python中的dict，但是提供了一些額外的保護減少錯誤。

可以通過創建一個 scrapy.Item 類，并且定義類型為 scrapy.Field的類屬性來定義一個Item。

接下來，創建一個ItcastItem 類，和構建item模型（model）。

import scrapyclass ItcastItem(scrapy.Item):name = scrapy.Field()level = scrapy.Field()info = scrapy.Field()

三、制作爬蟲（spiders/itcastSpider.py）

爬蟲功能要分兩步：

1. 爬數據

在當前目錄下輸入命令，將在mySpider/spider目錄下創建一個名為itcast的爬蟲，并指定爬取域的范圍：

scrapy genspider itcast "itcast.cn"

打開 mySpider/spider目錄里的 itcast.py，默認增加了下列代碼:

import scrapyclass ItcastSpider(scrapy.Spider):name = "itcast"allowed_domains = ["itcast.cn"]start_urls = ('http://www.itcast.cn/',)def parse(self, response):pass

其實也可以由我們自行創建itcast.py并編寫上面的代碼，只不過使用命令可以免去編寫固定代碼的麻煩

要建立一個Spider，你必須用scrapy.Spider類創建一個子類，并確定了三個強制的屬性和一個方法。

name = ""?：這個爬蟲的識別名稱，必須是唯一的，在不同的爬蟲必須定義不同的名字。
allow_domains = []?是搜索的域名范圍，也就是爬蟲的約束區域，規定爬蟲只爬取這個域名下的網頁，不存在的URL會被忽略。
start_urls = ()?：爬取的URL元祖/列表。爬蟲從這里開始抓取數據，所以，第一次下載的數據將會從這些urls開始。其他子URL將會從這些起始URL中繼承性生成。
parse(self, response)?：解析的方法，每個初始URL完成下載后將被調用，調用的時候傳入從每一個URL傳回的Response對象來作為唯一參數，主要作用如下：
負責解析返回的網頁數據(response.body)，提取結構化數據(生成item)
生成需要下一頁的URL請求。

將start_urls的值修改為需要爬取的第一個url

start_urls = ("http://www.itcast.cn/channel/teacher.shtml",)

修改parse()方法

def parse(self, response):with open("teacher.html", "w") as f:f.write(response.text)

然后運行一下看看，在mySpider目錄下執行：

scrapy crawl itcast

是的，就是 itcast，看上面代碼，它是 ItcastSpider 類的 name 屬性，也就是使用?scrapy genspider命令的爬蟲名。

一個Scrapy爬蟲項目里，可以存在多個爬蟲。各個爬蟲在執行時，就是按照 name 屬性來區分。

運行之后，如果打印的日志出現?[scrapy] INFO: Spider closed (finished)，代表執行完成。之后當前文件夾中就出現了一個 teacher.html 文件，里面就是我們剛剛要爬取的網頁的全部源代碼信息。

2. 取數據

爬取整個網頁完畢，接下來的就是的取過程了，首先觀察頁面源碼：

<div class="li_txt"><h3> xxx </h3><h4> xxxxx </h4><p> xxxxxxxx </p>

是不是一目了然？直接上XPath開始提取數據吧。

我們之前在mySpider/items.py 里定義了一個ItcastItem類。這里引入進來

from mySpider.items import ItcastItem

然后將我們得到的數據封裝到一個?ItcastItem?對象中，可以保存每個老師的屬性：

from mySpider.items import ItcastItemdef parse(self, response):#open("teacher.html","wb").write(response.body).close()# 存放老師信息的集合items = []for each in response.xpath("//div[@class='li_txt']"):# 將我們得到的數據封裝到一個 `ItcastItem` 對象item = ItcastItem()#extract()方法返回的都是字符串name = each.xpath("h3/text()").extract()title = each.xpath("h4/text()").extract()info = each.xpath("p/text()").extract()#xpath返回的是包含一個元素的列表item['name'] = name[0]item['title'] = title[0]item['info'] = info[0]items.append(item)# 直接返回最后數據return items

我們暫時先不處理管道，后面會詳細介紹。

保存數據

scrapy保存信息的最簡單的方法主要有四種，-o 輸出指定格式的文件，，命令如下：

# json格式，默認為Unicode編碼 scrapy crawl itcast -o teachers.json# json lines格式，默認為Unicode編碼 scrapy crawl itcast -o teachers.jsonl# csv 逗號表達式，可用Excel打開 scrapy crawl itcast -o teachers.csv# xml格式 scrapy crawl itcast -o teachers.xml

總結

以上是生活随笔為你收集整理的scrapy startproject【学习笔记02】的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：解决：UnsatisfiedDepend
下一篇：算法竞赛入门经典(第二版) —— 第一章