當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

使用Python爬虫爬取豆瓣top250

發(fā)布時(shí)間：2023/12/31 python 42 豆豆

生活随笔收集整理的這篇文章主要介紹了使用Python爬虫爬取豆瓣top250 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

使用Python爬蟲爬取豆瓣top250

文章目錄

使用Python爬蟲爬取豆瓣top250
- @[toc]
- 1）任務(wù)介紹
- 2）爬蟲知識(shí)
- 3）基本流程
- - 3.1) 準(zhǔn)備工作
  - 3.2)獲取數(shù)據(jù)
  - 3.3)解析內(nèi)容
  - 3.4)保存數(shù)據(jù)

1）任務(wù)介紹

需求分析
爬取豆瓣電影Top250的基本信息，包括電影的名稱、豆瓣評(píng)分、評(píng)價(jià)數(shù)、電影概況、電影鏈接等。
鏈接：https://movie.douban.com/top250

2）爬蟲知識(shí)

什么是爬蟲
網(wǎng)絡(luò)爬蟲，是一種按照一定規(guī)則，自動(dòng)抓取互聯(lián)網(wǎng)信息的程序或者腳本。由于互聯(lián)網(wǎng)數(shù)據(jù)的多樣性和資源的有限性，根據(jù)用戶需求定向抓取相關(guān)網(wǎng)頁并分析已成為入境主流的爬取策略。
爬蟲可以做什么
你可以爬取妹子的照片，爬取自己想看的視頻等等，只要你能通過瀏覽器訪問的數(shù)據(jù)都可以通過爬蟲獲取
爬蟲的本質(zhì)是什么
模擬瀏覽器打開網(wǎng)頁，獲取網(wǎng)頁中我們想要的那部分?jǐn)?shù)據(jù)

3）基本流程

3.1) 準(zhǔn)備工作

通過瀏覽器查看分析目標(biāo)網(wǎng)頁

分析頁面
- 借助Chrome開發(fā)者工具（F12）來分析頁面，在Elements下找到需要的數(shù)據(jù)位置
編碼規(guī)范
- 一般Python程序第一行需要加入# -*- coding: utf-8 -*- 或者# coding = utf-8這樣可以在代碼中包含中文
- 在Python中，使用函數(shù)實(shí)現(xiàn)單一功能相關(guān)聯(lián)功能的代碼段，可以提高可讀性和代碼重復(fù)利用率，函數(shù)代碼塊以def關(guān)鍵詞開頭，后接空格、函數(shù)標(biāo)識(shí)符名稱、圓括號(hào)（）、冒號(hào)：，括號(hào)中可以傳入?yún)?shù)，函數(shù)段縮進(jìn)(Tab或者四個(gè)空格，只能任選一種），return用于結(jié)束函數(shù)，可以返回一個(gè)值，也可以不帶任何表達(dá)式（表示返回可以用None）
- Python文件可以加入main函數(shù)用于測試程序:if_name_== "_main_":
- Python使用#添加注釋，說明代碼（段）的作用
引入模塊
- 模塊（module）：用來從邏輯上組織Python代碼（變量、函數(shù)、類），本質(zhì)就是py文件，提高代碼的可維護(hù)性。Python使用import來導(dǎo)入模塊。
- 包（package）：為避免模塊名沖突，Python引入了按目錄組織模塊的方法，稱之為包（package）。包是含有Python模塊的文件夾

3.2)獲取數(shù)據(jù)

通過HTTP庫向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求，請(qǐng)求可以包含額外的hrader等信息，如果服務(wù)器能正常響應(yīng)，會(huì)得到一個(gè)Response，便是所要獲取的頁面內(nèi)容。

Python一般使用urllib庫獲取頁面
- 對(duì)每一個(gè)頁面，調(diào)用askURL函數(shù)獲取頁面內(nèi)容
- 定義一個(gè)獲取頁面對(duì)函數(shù)askURL，傳入一個(gè)url參數(shù)，表示網(wǎng)址，如https://movie.douban.com/top250
- urllib.Request生成請(qǐng)求；uellib.urlopen發(fā)送請(qǐng)求獲取響應(yīng)；read獲取頁面內(nèi)容
- 在訪問頁面時(shí)經(jīng)常會(huì)出現(xiàn)錯(cuò)誤為了程序正常運(yùn)行，加入異常獲取try...except...語句

3.3)解析內(nèi)容

得到的內(nèi)容可能是HTML、json等格式，可以用頁面解析庫、正則表達(dá)式等進(jìn)行解析。

1. 標(biāo)簽解析

對(duì)爬取的Html進(jìn)行解析
- 使用 BeautifulSoup定位特定的標(biāo)簽位置
- 使用正則表達(dá)式找到具體的內(nèi)容
BeautifulSoup
- BeautifulSoup是一個(gè)庫，提供一些簡單的、python式的用來處理導(dǎo)航、搜索、修改分析樹等功能，通過解析文檔為用戶提供需要抓取的數(shù)據(jù)。我們需要的每個(gè)電影都在一個(gè)<div>的標(biāo)簽中，且每個(gè)div標(biāo)簽都有一個(gè)屬性class="item"。

2. 正則提取

正則表達(dá)式
- 正則表達(dá)式，通常被用來檢索，替換那些符合某個(gè)模式（規(guī)則）的文本。正則表達(dá)式是對(duì)字符串操作的一種邏輯公式，就是事先定義好一些特定字符以及這些特定字符的組合，組成一個(gè)“規(guī)則字符串”。這個(gè)“規(guī)則字符串”用來表達(dá)對(duì)字符串的一種過濾邏輯。python中使用re模塊操作正則表達(dá)式。

正則表達(dá)模式

^ 匹配字符串的開頭
$匹配字符串的末尾。
.匹配任意字符，除了換行符，當(dāng)re.DOTALL標(biāo)記被指定時(shí)，則可以匹配包括換行符的任意字符。
[...]用來表示一組字符,單獨(dú)列出：[amk] 匹配 ‘a(chǎn)’，‘m’或’k’
[^...] 不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*匹配0個(gè)或多個(gè)的表達(dá)式。
re+匹配1個(gè)或多個(gè)的表達(dá)式。
re?匹配0個(gè)或1個(gè)由前面的正則表達(dá)式定義的片段，非貪婪方式
re{ n}匹配n個(gè)前面表達(dá)式。例如，"o{2}“不能匹配"Bob"中的"o”，但是能匹配"food"中的兩個(gè)o。
re{ n,}精確匹配n個(gè)前面表達(dá)式。例如，"o{2,}“不能匹配"Bob"中的"o”，但能匹配"foooood"中的所有o。"o{1,}“等價(jià)于"o+”。“o{0,}“則等價(jià)于"o*”。
re{ n, m}匹配 n 到 m 次由前面的正則表達(dá)式定義的片段，貪婪方式
a| b匹配a或b
(re)匹配括號(hào)內(nèi)的表達(dá)式，也表示一個(gè)組
(?imx)正則表達(dá)式包含三種可選標(biāo)志：i, m, 或 x 。只影響括號(hào)中的區(qū)域。
(?-imx)正則表達(dá)式關(guān)閉 i, m, 或 x 可選標(biāo)志。只影響括號(hào)中的區(qū)域。
(?: re)類似 (…), 但是不表示一個(gè)組
(?imx: re)在括號(hào)中使用i, m, 或 x 可選標(biāo)志
(?-imx: re)在括號(hào)中不使用i, m, 或 x 可選標(biāo)志
(?#...)注釋.
(?= re)前向肯定界定符。如果所含正則表達(dá)式，以 … 表示，在當(dāng)前位置成功匹配時(shí)成功，否則失敗。但一旦所含表達(dá)式已經(jīng)嘗試，匹配引擎根本沒有提高；模式的剩余部分還要嘗試界定符的右邊。
(?! re)前向否定界定符。與肯定界定符相反；當(dāng)所含表達(dá)式不能在字符串當(dāng)前位置匹配時(shí)成功。
(?> re)匹配的獨(dú)立模式，省去回溯。
\w匹配數(shù)字字母下劃線
\W匹配非數(shù)字字母下劃線
\s匹配任意空白字符，等價(jià)于 [\t\n\r\f]。
\S匹配任意非空字符
\d匹配任意數(shù)字，等價(jià)于 [0-9]。
\D匹配任意非數(shù)字
\A匹配字符串開始
\Z匹配字符串結(jié)束，如果是存在換行，只匹配到換行前的結(jié)束字符串。
\z匹配字符串結(jié)束
\G匹配最后匹配完成的位置。
\b匹配一個(gè)單詞邊界，也就是指單詞和空格間的位置。例如， ‘er\b’ 可以匹配"never” 中的 ‘er’，但不能匹配 “verb” 中的 ‘er’。
\B匹配非單詞邊界。‘er\B’ 能匹配 “verb” 中的 ‘er’，但不能匹配 “never” 中的 ‘er’。
\n, \t,等。匹配一個(gè)換行符。匹配一個(gè)制表符, 等
\1...\9匹配第n個(gè)分組的內(nèi)容。
\10匹配第n個(gè)分組的內(nèi)容，如果它經(jīng)匹配。否則指的是八進(jìn)制字符碼的表達(dá)式。

3.4)保存數(shù)據(jù)

保存形式多樣，可以存為文本也可以保存到數(shù)據(jù)庫，或者保存特定格式的文件

1. Excel表儲(chǔ)存數(shù)據(jù)

Excel表格儲(chǔ)存
利用python庫xlwt將抽取的數(shù)據(jù)datalist寫入Excel表格

from bs4 import BeautifulSoup # 網(wǎng)頁解析，獲取數(shù)據(jù) import re # 正則表達(dá)，實(shí)現(xiàn)文字匹配 import urllib.request, urllib.error # 制定url，獲取網(wǎng)頁數(shù)據(jù) import xlwt # 進(jìn)行excel操作 import sqlite3 # 進(jìn)行SQLite數(shù)據(jù)庫操作def main():# 1.爬取網(wǎng)頁baseurl = "https://movie.douban.com/top250?start="datalist = getData(baseurl)savepath = "豆瓣電影Top250.xls"# 3.保存數(shù)據(jù)saveData(datalist, savepath)# 影片鏈接的規(guī)則 findLink = re.compile(r'<a href="(.*?)">') # 創(chuàng)建正則表達(dá)式對(duì)象，表示規(guī)則（字符串表達(dá)式） # 影片的圖片的規(guī)則 findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S) # re.S讓換行符包含在字符中 # 影片片名 findTitle = re.compile(r'(.*)') # 影片評(píng)分 findRating = re.compile(r'(.*)') # 找到評(píng)價(jià)人數(shù) findJudge = re.compile(r'(\d*)人評(píng)價(jià)') # 找到概況 findInq = re.compile(r'(.*)') # 找到影片相關(guān)內(nèi)容 findBd = re.compile(r'(.*?)', re.S)def getData(baseurl):datalist = []for i in range(0, 10): # 調(diào)用獲取頁面信息的函數(shù)，10次url = baseurl + str(i * 25)html = askURL(url) # 保存獲取到的網(wǎng)頁源碼# 2.逐一解析數(shù)據(jù)soup = BeautifulSoup(html, "html.parser")for item in soup.find_all('div', class_="item"): # 查找符合要求的字符串，形成一個(gè)鏈表# print(item) #測試data = [] # 保存一部電影的所有信息item = str(item)link = re.findall(findLink, item)[0] # re庫用來通過正則表達(dá)式查找指定內(nèi)容data.append(link)imgSrc = re.findall(findImgSrc, item)[0] # 添加圖片data.append(imgSrc)titles = re.findall(findTitle, item) # 片名可能只有一個(gè)中文名if (len(titles) == 2):ctitle = titles[0]data.append(ctitle) # 添加中文名otitle = titles[1].replace("/", "") # 去掉無關(guān)的符號(hào)data.append(otitle) # 添加外國名else:data.append(titles[0])data.append(' ') # 外國名留空rating = re.findall(findRating, item)[0] # 添加評(píng)分data.append(rating)judgeNom = re.findall(findJudge, item)[0] # 添加評(píng)價(jià)人數(shù)data.append(judgeNom)inq = re.findall(findInq, item)if len(inq) != 0:inq = inq[0].replace("。", "") # 去掉句號(hào)data.append(inq) # 添加概述else:data.append(" ") # 留空bd = re.findall(findBd, item)[0]bd = re.sub('<br(\s+)?>(\s+)?', " ", bd) # 去掉 bd = re.sub('/', " ", bd) # 替換/data.append(bd.strip()) # 去掉前后空格datalist.append(data)return datalistdef saveData(datalist, savepath):print("save....")book = xlwt.Workbook(encoding="utf-8", style_compression=0) # 創(chuàng)建workbook對(duì)象sheet = book.add_sheet('豆瓣電影Top250', cell_overwrite_ok=True) # 創(chuàng)建工作表col = ("電影詳情鏈接", "圖片鏈接", "影片中文名", "影片外國名", "評(píng)分", "評(píng)價(jià)數(shù)", "概況", "相關(guān)信息")for i in range(0, 8):sheet.write(0, i, col[i])for i in range(0, 250):print("第%d條" % i)data = datalist[i]for j in range(0, 8):sheet.write(i + 1, j, data[j])book.save(savepath)def askURL(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0"}request = urllib.request.Request(url, headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode("utf-8")except urllib.error.URLError as e:if hasattr(e, "code"):print(e.code)if hasattr(e, "reason"):print(e.reason)return htmlif __name__ == '__main__':main()print("爬取完畢")

總結(jié)

以上是生活随笔為你收集整理的使用Python爬虫爬取豆瓣top250的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： C语言大作业商品库存管理系统
下一篇： python爬虫案例——爬取豆瓣图书信息