日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】

發布時間:2024/8/26 python 35 豆豆

本套課程正式進入Python爬蟲階段,具體章節根據實際發布決定,可點擊【python爬蟲】分類專欄進行倒序觀看:

【重點提示:請勿爬取有害他人或國家利益的內容,此課程雖可爬取互聯網任意內容,但無任何收益,只為大家學習分享。】

開發環境:【Win10】

開發工具:【Visual Studio 2019】

Python版本:【3.7】

1、scrapy框架介紹·【由于“廠子”里基本都用這個所以咱們就講這個】。

Scrapy:Python的爬蟲框架

Scrapy是一個使用Python編寫的,輕量級的,簡單輕巧,并且使用起來非常的方便。

Scrapy框架主要由5大組件組成,它們分別是:

調度器:抓取網頁的網址(鏈接)的優先隊列

下載器:抓取網頁的網址(鏈接)的優先隊列

爬蟲:用于從特定的網頁中提取自己需要的信息

實體管道:用于處理爬蟲提取的實體

Scrapy引擎:用來控制調試器、下載器和爬蟲

注:這根本不是個單詞啊.scrape的音標是:[skre?p],scrapy最后的字母y應該發i還是ai?既然是python框架,是不是應該發ai?

所以。。。。個人趨向于讀:【思科rai皮】

2、scrapy框架安裝·【2021年2月14日當前最新版本:2.4.1】

3、scrapy框架使用·創建【scrapy】項目:

環境變量設置1、添加變量:

環境變量設置2、添加變量到【Path】中【%PY_S%】:

測試是否成功:在任何地方都可以使用【scrapy命令】

項目創建:我的測試地址【E:\save\study\python\T2】

通過vs打開項目:

后續有步驟就點完成即可,如果報錯就點確定關閉就行了,項目已經創建完畢哦。

4、項目測試:

功能簡介:

爬蟲項目的工程目錄及各個組成的作用:

scrapy.cfg:項目配置文件。

settings.py:項目設置文件。

pipelines.py:項目管道文件,主要用于對Items定義的數據進行加工與處理。

middlewares.py:項目的中間件文件。

items.py:項目的數據容器文件,用于定義獲取的數據。

__init__.py:初始化文件。

spiders目錄:爬蟲目錄,例如,創建文件、編寫爬蟲解析規則等

4.1、創建爬蟲文件:【book_scrapy.py】

4.2、編寫爬蟲文件:

import scrapy import json from scrapy.selector import Selectorclass book_scrapy(scrapy.Spider):#用于區別Spidername = "book_scrapy"#允許訪問的域allowed_domains = ["book.zongheng.com"]#爬取的地址start_urls = ["http://book.zongheng.com/showchapter/1013348.html"]#爬取方法def parse(self, response):html=response.textsel=Selector(text=html)list1=sel.css("ul:nth-child(2) a::attr(href)").extract()list2=sel.css("ul:nth-child(2) a::text").extract()file=open("save.txt","w+",encoding='utf-8')item=[]for x in range(len(list1)):item.append({"title":list2[x],"url":list1[x]})print(str(item))file.write(str(item))file.close()

4.3、測試是否成功

輸入執行命令:【scrapy crawl book_scrapy --nolog】

?打印效果:

存儲效果:?

?

5、總結:

a)、從這篇文章里可以看到一些新的東西了,例如:json、css選擇器,這些知識點會在后面的課程里單獨講解。

歡迎【點贊】、【評論】、【關注】、【收藏】、【打賞】,為推廣知識貢獻力量。

總結

以上是生活随笔為你收集整理的零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。