日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

网络爬虫 | 基础

發布時間:2024/3/12 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 网络爬虫 | 基础 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 1、 爬蟲工作原理
  • 2、 requests
    • 2.1 requests.get()
    • 2.2 Response對象的常用屬性
  • 3、 爬蟲理論
  • 4、BeautifulSoup
    • 4.1 解析數據
    • 4.2 提取數據
  • 5、例子:
    • 5.1 例一
    • 5.2 例二
      • 5.2.1 Network
      • 5.2.2 XHR
      • 5.2.3 JSON
    • 5.3 例三
      • 5.3.1 params
      • 5.3.2 Request Headers
  • 6、存儲數據
    • 6.1 存儲方式
    • 6.2 csv寫入與讀取
    • 6.3 Excel寫入與讀取
      • 6.3.1 例子
  • 7、爬取思想
  • 8、cookies及session
    • 8.1 cookies及其用法
      • 8.1.1 例子
    • 8.2 session及其用法
      • 8.2.1 例子
    • 8.3 存儲cookies
    • 8.4 讀取cookies
      • 8.4.1 例子
  • 9、selenium
    • 9.1 例子
  • 10、 協程
    • 10.1 gevent庫
    • 10.2 queue模塊
    • 10.3 例子
  • 11、Scrapy
  • 未完

1、 爬蟲工作原理

  • 首先,爬蟲可以模擬瀏覽器去向服務器發出請求;
  • 其次,等服務器響應后,爬蟲程序還可以代替瀏覽器幫我們解析數據;
  • 接著,爬蟲可以根據我們設定的規則批量提取相關數據,而不需要我們去手動提取;
  • 最后,爬蟲可以批量地把數據存儲到本地。

爬蟲的工作分為四步:

  • 第1步:獲取數據。爬蟲程序會根據我們提供的網址,向服務器發起請求,然后返回數據。
  • 第2步:解析數據。爬蟲程序會把服務器返回的數據解析成我們能讀懂的格式。
  • 第3步:提取數據。爬蟲程序再從中提取出我們需要的數據。
  • 第4步:儲存數據。爬蟲程序把這些有用的數據保存起來,便于你日后的使用和分析。

2、 requests

requests庫可以幫我們下載網頁源代碼、文本、圖片,甚至是音頻。其實,“下載”本質上是向服務器發送請求并得到響應。

2.1 requests.get()

import requests #引入requests庫 res = requests.get('URL') #requests.get是在調用requests庫中的get()方法,它向服務器發送了一個請求,括號里的參數是你需要的數據所在的網址,然后服務器對請求作出了響應。 #我們把這個響應返回的結果賦值在變量res上。
  • import requests:引入requests庫
  • res = requests.get(‘URL’):requests.get()發送了請求,然后得到了服務器的響應。服務器返回的結果是個Response對象,現在存儲到了我們定義的變量res中。

2.2 Response對象的常用屬性

res是一個對象,屬于requests.models.Response類。

import requests res = requests.get('URL') print(type(res)) #打印變量res的數據類型

結果:

<class 'requests.models.Response'>

Response對象常用的四個屬性:

屬性作用
response.status code檢查請求是否成功
response.content把reponse對象轉換為二進制數據
response.text把reponse對象轉換為字符串數據
response.encoding定義response對象的編碼

response.content 例子:

  • 下載圖片
import requests res = requests.get('xxx.png') #發出請求,并把返回的結果放在變量res中 pic=res.content #把Reponse對象的內容以二進制數據的形式返回 photo = open('ppt.jpg','wb') #新建了一個文件ppt.jpg,這里的文件沒加路徑,它會被保存在程序運行的當前目錄下。 #圖片內容需要以二進制wb讀寫。你在學習open()函數時接觸過它。 photo.write(pic) #獲取pic的二進制內容 photo.close() #關閉文件

response.text 例子:

  • 下載小說
import requests #引用requests庫 res = requests.get('xxx.md') #下載小說,我們得到一個對象,它被命名為res novel=res.text #把Response對象的內容以字符串的形式返回 print(novel[:800]) #現在,可以打印小說了,但考慮到整章太長,只輸出800字看看就好。在關于列表的知識那里,你學過[:800]的用法。

res.encoding 例子:

  • 下載小說
import requests #引用requests庫 res = requests.get('xxx.md') #下載小說,我們得到一個對象,它被命名為res res.encoding='utf-8' #定義Reponse對象的編碼為utf-8。 novel=res.text #把Response對象的內容以字符串的形式返回 print(novel[:800]) #打印小說的前800個字。

3、 爬蟲理論

  • Robots協議是互聯網爬蟲的一項公認的道德規范,它的全稱是==“網絡爬蟲排除標準”(Robots exclusion protocol)==,這個協議用來告訴爬蟲,哪些頁面是可以抓取的,哪些不可以。
  • 如何查看網站的robots協議呢,很簡單,在網站的域名后加上==/robots.txt==就可以了。
User-agent: Baiduspider #百度爬蟲 Allow: /article #允許訪問 /article.htm Allow: /oshtml #允許訪問 /oshtml.htm Allow: /ershou #允許訪問 /ershou.htm Allow: /$ #允許訪問根目錄,即淘寶主頁 Disallow: /product/ #禁止訪問/product/ Disallow: / #禁止訪問除 Allow 規定頁面之外的其他所有頁面 ? User-Agent: Googlebot #谷歌爬蟲 Allow: /article Allow: /oshtml Allow: /product #允許訪問/product/ Allow: /spu Allow: /dianpu Allow: /oversea Allow: /list Allow: /ershou Allow: /$ Disallow: / #禁止訪問除 Allow 規定頁面之外的其他所有頁面 ? …… # 文件太長,省略了對其它爬蟲的規定,想看全文的話,點擊上面的鏈接 ? User-Agent: * #其他爬蟲 Disallow: / #禁止訪問所有頁面
  • Allow代表可以被訪問,Disallow代表禁止被訪問。

4、BeautifulSoup

使用BeautifulSoup解析和提取網頁中的數據。

  • 【提取數據】是指把我們需要的數據從眾多數據中挑選出來。

4.1 解析數據

BeautifulSoup解析數據的用法:

bs對象= BeautifulSoup(要解析的文本,' 解析器')

例子:

import requests from bs4 import BeautifulSoup #引入BS庫 res = requests.get('xxx.html') html = res.text soup = BeautifulSoup(html,'html.parser') #把網頁解析為BeautifulSoup對象
  • soup的數據類型是<class ‘bs4.BeautifulSoup’>,說明soup是一個BeautifulSoup對象。

注意:
response.text和soup打印出的內容表面上看長得一模一樣,卻有著不同的內心,它們屬于不同的類:<class ‘str’> 與<class ‘bs4.BeautifulSoup’>。前者是字符串,后者是已經被解析過的BeautifulSoup對象。 之所以打印出來的是一樣的文本,是因為BeautifulSoup對象在直接打印它的時候會調用該對象內的__str__方法,所以直接打印 bs 對象顯示字符串是__str__的返回結果。

4.2 提取數據

  • find()與find_all()
    find()與find_all()是BeautifulSoup對象的兩個方法,它們可以匹配html的標簽和屬性,把BeautifulSoup對象里符合要求的數據都提取出來。
方法作用用法示例
find()提取滿足要求的首個數據BeautifulSoup對象.find (標簽,屬性)soup.find(‘div’ ,class_ =‘books’)
find_all()提取滿足要求的所有數據BeautifulSoup對象.find_all (標簽,屬性)soup.find_all(‘div’ ,class_ =‘books’)

例子:

import requests from bs4 import BeautifulSoup url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html' res = requests.get (url) print(res.status_code) soup = BeautifulSoup(res.text,'html.parser') item = soup.find('div') #使用find()方法提取首個<div>元素,并放到變量item里。print(type(item)) #打印item的數據類型print(item) #打印item

運行結果:首個<div>元素。還打印了它的數據類型:<class 'bs4.element.Tag'>,說明這是一個Tag類對象。

import requests from bs4 import BeautifulSoup url = 'https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html' res = requests.get (url) print(res.status_code) soup = BeautifulSoup(res.text,'html.parser') items = soup.find_all('div') #用find_all()把所有符合要求的數據提取出來,并放在變量items里print(type(items)) #打印item的數據類型print(items) #打印item

運行結果:三個<div>元素,它們一起組成了一個列表結構。打印items的類型,顯示的是<class 'bs4.element.ResultSet'>,是一個ResultSet類的對象。其實是Tag對象以列表結構儲存了起來,可以把它當做列表來處理。

  • Tag對象
屬性/方法作用
Tag.find()和Tag.fnd all()提取Tag中的Tag
Tag.text提取Tag中的文字
Tag['屬性名]輸入參數:屬性名,可以提取Tag中這個屬性的值

例子:

  • 爬取書苑不太冷網站中每本書的類型、鏈接、標題和簡介
import requests # 調用requests庫 from bs4 import BeautifulSoup # 調用BeautifulSoup庫 res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html') # 返回一個response對象,賦值給res html = res.text # 把res的內容以字符串的形式返回 soup = BeautifulSoup( html,'html.parser') # 把網頁解析為BeautifulSoup對象 items = soup.find_all(class_='books') # 通過定位標簽和屬性提取我們想要的數據 for item in items:kind = item.find('h2') # 在列表中的每個元素里,匹配標簽<h2>提取出數據title = item.find(class_='title') #在列表中的每個元素里,匹配屬性class_='title'提取出數據brief = item.find(class_='info') #在列表中的每個元素里,匹配屬性class_='info'提取出數據print(kind,'\n',title,'\n',brief) # 打印提取出的數據print(type(kind),type(title),type(brief)) # 打印提取出的數據類型
  • 用Tag.text提出Tag對象中的文字,用Tag[‘href’]提取出URL

5、例子:

5.1 例一

  • 寫一個循環,提取頁面的所有菜名、URL、食材,并將它存入列表。
[[菜A,URL_A,食材A],[菜B,URL_B,食材B],[菜C,URL_C,食材C]] import requests # 引用requests庫 from bs4 import BeautifulSoup # 引用BeautifulSoup庫res_foods = requests.get('http://www.xiachufang.com/explore/') # 獲取數據 bs_foods = BeautifulSoup(res_foods.text,'html.parser') # 解析數據 list_foods = bs_foods.find_all('div',class_='info pure-u') # 查找最小父級標簽list_all = [] # 創建一個空列表,用于存儲信息for food in list_foods:tag_a = food.find('a')# 提取第0個父級標簽中的<a>標簽name = tag_a.text[17:-13]# 菜名,使用[17:-13]切掉了多余的信息URL = 'http://www.xiachufang.com'+tag_a['href']# 獲取URLtag_p = food.find('p',class_='ing ellipsis')# 提取第0個父級標簽中的<p>標簽ingredients = tag_p.text[1:-1]# 食材,使用[1:-1]切掉了多余的信息list_all.append([name,URL,ingredients])# 將菜名、URL、食材,封裝為列表,添加進list_allprint(list_all) # 打印# 以下是另外一種解法list_foods = bs_foods.find_all('div',class_='info pure-u') # 查找最小父級標簽list_all = [] # 創建一個空列表,用于存儲信息for food in list_foods:tag_a = food.find('a')# 提取第0個父級標簽中的<a>標簽name = tag_a.text[17:-13]# 菜名,使用[17:-13]切掉了多余的信息URL = 'http://www.xiachufang.com'+tag_a['href']# 獲取URLtag_p = food.find('p',class_='ing ellipsis')# 提取第0個父級標簽中的<p>標簽ingredients = tag_p.text[1:-1]# 食材,使用[1:-1]切掉了多余的信息list_all.append([name,URL,ingredients])# 將菜名、URL、食材,封裝為列表,添加進list_allprint(list_all) # 打印

5.2 例二

  • 爬取歌
import requests from bs4 import BeautifulSoupres_music = requests.get('https://y.qq.com/portal/search.html#page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=%E5%91%A8%E6%9D%B0%E4%BC%A6') # 請求html,得到response bs_music = BeautifulSoup(res_music.text,'html.parser') # 解析html list_music = bs_music.find_all('a',class_='js_song') # 查找class屬性值為“js_song”的a標簽,得到一個由標簽組成的列表 for music in list_music: # 對查找的結果執行循環print(music['title'])# 打印出我們想要的音樂名

上面錯誤

5.2.1 Network

  • Network的功能是:記錄在當前頁面上發生的所有請求。
    • 第0行的左側,紅色的圓鈕是啟用Network監控(默認高亮打開),灰色圓圈是清空面板上的信息。
    • 右側勾選框Preserve log,它的作用是“保留請求日志”。如果不點擊這個,當發生頁面跳轉的時候,記錄就會被清空。所以,我們在爬取一些會發生跳轉的網頁時,會點亮它。
    • 第3行,是對請求進行分類查看。最常用的是:
      • ALL(查看全部)
      • XHR(一種不借助刷新頁面即可傳輸的對象)
      • Doc(Document,第0個請求一般在這里),有時候也會看看:
      • Img(僅查看圖片)/Media(僅查看媒體文件)
      • Other(其他)。


剛剛寫的代碼,只是模擬了這52個請求中的一個(準確來說,就是第0個請求),而這個請求里并不包含歌曲清單。

5.2.2 XHR

  • Ajax技術:應用這種技術,好處是顯而易見的——更新網頁內容,而不用重新加載整個網頁。
  • Ajax技術在工作的時候創建一個XHR(或是Fetch)對象,然后利用XHR對象來實現,服務器和瀏覽器之間傳輸數據。在這里,XHR和Fetch并沒有本質區別。

歌單應該在XHR下的client_search中

  • Headers:標頭(請求信息)
  • Preview:預覽
  • Response:原始信息
  • Timing:時間。


General里的Requests URL(最外層是一個字典)就是應該去訪問的鏈接。


XHR是一個字典,鍵data對應的值也是一個字典;在該字典里,鍵song對應的值也是一個字典;在該字典里,鍵list對應的值是一個列表;在該列表里,一共有20個元素;每一個元素都是一個字典;在每個字典里,鍵name的值,對應的是歌曲名。

import requests # 引用requests庫 res = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=20&w=%E5%91%A8%E6%9D%B0%E4%BC%A6&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8&notice=0&platform=yqq.json&needNewCode=0') # 調用get方法,下載這個字典 print(res.text) # 把它打印出來

res.text取到的,是字符串。不是列表/字典。

5.2.3 JSON

  • json是一種特殊的字符串,這種字符串特殊在它的寫法——它是用列表/字典的語法寫成的。
  • json能夠有組織地存儲信息。
  • json()方法,將response對象,轉為列表/字典
import requests # 引用requests庫 res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=20&w=%E5%91%A8%E6%9D%B0%E4%BC%A6&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8&notice=0&platform=yqq.json&needNewCode=0') # 調用get方法,下載這個字典 json_music = res_music.json() # 使用json()方法,將response對象,轉為列表/字典 list_music = json_music['data']['song']['list'] # 一層一層地取字典,獲取歌單列表 for music in list_music: # list_music是一個列表,music是它里面的元素print(music['name'])# 以name為鍵,查找歌曲名
  • 拿到:歌曲名、所屬專輯、播放時長,以及播放鏈接
import requests # 引用requests庫 res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=20&w=%E5%91%A8%E6%9D%B0%E4%BC%A6&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8&notice=0&platform=yqq.json&needNewCode=0') # 調用get方法,下載這個字典 json_music = res_music.json() # 使用json()方法,將response對象,轉為列表/字典 list_music = json_music['data']['song']['list'] # 一層一層地取字典,獲取歌單列表 for music in list_music: # list_music是一個列表,music是它里面的元素print(music['name'])# 以name為鍵,查找歌曲名print('所屬專輯:'+music['album']['name'])# 查找專輯名print('播放時長:'+str(music['interval'])+'秒')# 查找播放時長print('播放鏈接:https://y.qq.com/n/yqq/song/'+music['mid']+'.html\n\n')# 查找播放鏈接

5.3 例三


Query String Parametres中文翻譯是:查詢字符串參數。

  • 爬取多個歌曲
    • 點擊第2頁、第3頁進行翻頁,此時Network會多加載出2個XHR,它們的Name都是client_search…。
    • 只有一個參數變化,說明p代表的應該就是頁碼。
    • 每次循環去更改p的值
import requests # 引用requests模塊 for x in range(5):res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p='+str(x+1)+'&n=20&w=%E5%91%A8%E6%9D%B0%E4%BC%A6&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8&notice=0&platform=yqq.json&needNewCode=0')# 調用get方法,下載這個字典json_music = res_music.json()# 使用json()方法,將response對象,轉為列表/字典list_music = json_music['data']['song']['list']# 一層一層地取字典,獲取歌單列表for music in list_music:# list_music是一個列表,music是它里面的元素print(music['name'])# 以name為鍵,查找歌曲名print('所屬專輯:'+music['album']['name'])# 查找專輯名print('播放時長:'+str(music['interval'])+'秒')# 查找播放時長print('播放鏈接:https://y.qq.com/n/yqq/song/'+music['mid']+'.html\n\n')# 查找播放鏈接

5.3.1 params

requests模塊里的requests.get()提供了一個參數叫params,可以讓我們用字典的形式,把參數傳進去。

  • 把Query String Parametres里的內容,直接復制下來,封裝為一個字典,傳遞給params。
import requests # 引用requests模塊 url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp' for x in range(5):params = {'ct':'24','qqmusic_ver': '1298','new_json':'1','remoteplace':'sizer.yqq.song_next','searchid':'64405487069162918','t':'0','aggr':'1','cr':'1','catZhida':'1','lossless':'0','flag_qc':'0','p':str(x+1),'n':'20','w':'周杰倫','g_tk':'5381','loginUin':'0','hostUin':'0','format':'json','inCharset':'utf8','outCharset':'utf-8','notice':'0','platform':'yqq.json','needNewCode':'0' }# 將參數封裝為字典res_music = requests.get(url,params=params)# 調用get方法,下載這個字典json_music = res_music.json()# 使用json()方法,將response對象,轉為列表/字典list_music = json_music['data']['song']['list']# 一層一層地取字典,獲取歌單列表for music in list_music:# list_music是一個列表,music是它里面的元素print(music['name'])# 以name為鍵,查找歌曲名print('所屬專輯:'+music['album']['name'])# 查找專輯名print('播放時長:'+str(music['interval'])+'秒')# 查找播放時長print('播放鏈接:https://y.qq.com/n/yqq/song/'+music['mid']+'.html\n\n')# 查找播放鏈接
  • 爬取評論

    • 找評論:
      先把Network面板清空,再點擊一下評論翻頁,看看有沒有多出來的新XHR,多出來的那一個,就應該是和評論相關的啦。


  • 反動頁數發現:
    • XHR有兩個參數在不斷變化:一個是pagenum,一個lasthotcommentid。
    • lasthotcommentid,它的含義是:上一條熱評的評論id。
import requests # 引用requests模塊 url = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg' commentid = '' # 設置一個初始commentid for x in range(5):params = {'g_tk':'5381','loginUin':'0','hostUin':'0','format':'json','inCharset':'utf8','outCharset':'GB2312','notice':'0','platform':'yqq.json','needNewCode':'0','cid':'205360772','reqtype':'2','biztype':'1','topid':'102065756','cmd':'8','needcommentcrit':'0','pagenum':str(x),'pagesize':'25','lasthotcommentid':commentid,'domain':'qq.com','ct':'24','cv':'101010 '}# 將參數封裝為字典,其中pagenum和lastcommentid是特殊的變量res_comment = requests.get(url,params=params)# 調用get方法,下載評論列表json_comment = res_comment.json()# 使用json()方法,將response對象,轉為列表/字典list_comment = json_comment['comment']['commentlist']# 一層一層地取字典,獲取評論列表for comment in list_comment:# list_comment是一個列表,comment是它里面的元素print(comment['rootcommentcontent'])# 輸出評論commentid = list_comment[24]['commentid']# 將最后一個評論的id賦值給comment,準備開始下一次循環

5.3.2 Request Headers

服務器通過什么識別我們是真實瀏覽器,還是Python爬蟲的?

  • Requests Headers,請求頭。
  • user-agent會記錄你電腦的信息和瀏覽器版本。
  • origin和referer則記錄了這個請求,最初的起源是來自哪個頁面。
  • 區別是referer會比origin攜帶的信息更多些。
  • user-agent不修改,那么這里的默認值就會是Python,會被瀏覽器認出來。

修改origin或referer,一并作為字典寫入headers

import requests url = 'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg' # 這是那個,請求歌曲評論的url headers = {'origin':'https://y.qq.com',# 請求來源,本案例中其實是不需要加這個參數的,只是為了演示'referer':'https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s.html',# 請求來源,攜帶的信息比“origin”更豐富,本案例中其實是不需要加這個參數的,只是為了演示'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',# 標記了請求從什么設備,什么瀏覽器上發出} params = { 'g_tk':'5381', 'loginUin':'0', 'hostUin':'0', 'format':'json', 'inCharset':'utf8', 'outCharset':'GB2312', 'notice':'0', 'platform':'yqq.json', 'needNewCode':'0', 'cid':'205360772', 'reqtype':'2', 'biztype':'1', 'topid':'102065756', 'cmd':'8', 'needcommentcrit':'0', 'pagenum':0, 'pagesize':'25', 'lasthotcommentid':'', 'domain':'qq.com', 'ct':'24', 'cv':'101010 '}res_music = requests.get(url,headers=headers,params=params) # 發起請求

6、存儲數據

6.1 存儲方式

file=open('test.csv','a+') #創建test.csv文件,以追加的讀寫模式 file.write('美國隊長,鋼鐵俠,蜘蛛俠') #寫入test.csv文件 file.close() #關閉文件

6.2 csv寫入與讀取

直接運用別人寫好的模塊,比使用open()函數來讀寫方便。

import csv #引用csv模塊。 csv_file = open('demo.csv','w',newline='',encoding='utf-8') #創建csv文件,我們要先調用open()函數,傳入參數:文件名“demo.csv”、寫入模式“w”、newline=''、encoding='utf-8'。
  • “w”就是writer,即文件寫入模式,它會以覆蓋原內容的形式寫入新添加的內容。
  • newline=’ '參數的原因是,可以避免csv文件出現兩倍的行距
  • encoding=‘utf-8’,可以避免編碼問題導致的報錯或亂碼。

csv文件寫入

  • csv.writer()函數來建立一個writer對象,
  • 調用writer對象的writerow()方法。
  • writerow()函數里,需要放入列表參數
import csv #引用csv模塊。 csv_file = open('demo.csv','w',newline='',encoding='utf-8') #調用open()函數打開csv文件,傳入參數:文件名“demo.csv”、寫入模式“w”、newline=''、encoding='utf-8'。 writer = csv.writer(csv_file) # 用csv.writer()函數創建一個writer對象。 writer.writerow(['電影','豆瓣評分']) #調用writer對象的writerow()方法,可以在csv文件里寫入一行文字 “電影”和“豆瓣評分”。 writer.writerow(['銀河護衛隊','8.0']) #在csv文件里寫入一行文字 “銀河護衛隊”和“8.0”。 writer.writerow(['復仇者聯盟','8.1']) #在csv文件里寫入一行文字 “復仇者聯盟”和“8.1”。 csv_file.close() #寫入完成后,關閉文件。

讀csv文件

import csv csv_file = open('demo.csv','r',newline='',encoding='utf-8') reader = csv.reader(csv_file) for row in reader:print(row)

csv官方文檔

6.3 Excel寫入與讀取

寫入操作

  • 引用openpyxl,然后通過openpyxl.Workbook()函數就可以創建新的工作薄
  • 獲取工作表
  • 操作單元格,往單元格里寫入內容
  • 工作表里寫入一行內容的話,就得用到append函數
  • 保存這個Excel文件
  • import openpyxl #引用openpyxl 。#寫入 wb = openpyxl.Workbook() #利用openpyxl.Workbook()函數創建新的workbook(工作薄)對象,就是創建新的空的Excel文件。 sheet = wb.active #wb.active就是獲取這個工作薄的活動表,通常就是第一個工作表。 sheet.title = 'new title' #可以用.title給工作表重命名。現在第一個工作表的名稱就會由原來默認的“sheet1”改為"new title"。 sheet['A1'] = '漫威宇宙' #把'漫威宇宙'賦值給第一個工作表的A1單元格,就是往A1的單元格中寫入了'漫威宇宙'。 rows = [['美國隊長','鋼鐵俠','蜘蛛俠'],['是','漫威','宇宙', '經典','人物']] #先把要寫入的多行內容寫成列表,再放進大列表里,賦值給rows。 for i in rows:sheet.append(i) #遍歷rows,同時把遍歷的內容添加到表格里,這樣就實現了多行寫入。 print(rows) #打印rows wb.save('Marvel.xlsx') #保存新建的Excel文件,并命名為“Marvel.xlsx”#讀取的代碼: wb = openpyxl.load_workbook('Marvel.xlsx') #調用openpyxl.load_workbook()函數,打開“Marvel.xlsx”文件。 sheet = wb['new title'] #獲取“Marvel.xlsx”工作薄中名為“new title”的工作表。 sheetname = wb.sheetnames print(sheetname) #sheetnames是用來獲取工作薄所有工作表的名字的。如果你不知道工作薄到底有幾個工作表,就可以把工作表的名字都打印出來。 A1_cell = sheet['A1'] A1_value = A1_cell.value print(A1_value) #把“new title”工作表中A1單元格賦值給A1_cell,再利用單元格value屬性,就能打印出A1單元格的值。

    openpyxl官方文檔

    6.3.1 例子

    • 存儲歌單
    import requests,openpyxl wb=openpyxl.Workbook() #創建工作薄 sheet=wb.active #獲取工作薄的活動表 sheet.title='restaurants' #工作表重命名sheet['A1'] ='歌曲名' #加表頭,給A1單元格賦值 sheet['B1'] ='所屬專輯' #加表頭,給B1單元格賦值 sheet['C1'] ='播放時長' #加表頭,給C1單元格賦值 sheet['D1'] ='播放鏈接' #加表頭,給D1單元格賦值url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp' for x in range(5):params = {'ct': '24','qqmusic_ver': '1298','new_json': '1','remoteplace': 'sizer.yqq.song_next','searchid': '64405487069162918','t': '0','aggr': '1','cr': '1','catZhida': '1','lossless': '0','flag_qc': '0','p': str(x + 1),'n': '20','w': '周杰倫','g_tk': '5381','loginUin': '0','hostUin': '0','format': 'json','inCharset': 'utf8','outCharset': 'utf-8','notice': '0','platform': 'yqq.json','needNewCode': '0'}res_music = requests.get(url, params=params)json_music = res_music.json()list_music = json_music['data']['song']['list']for music in list_music:name = music['name']# 以name為鍵,查找歌曲名,把歌曲名賦值給namealbum = music['album']['name']# 查找專輯名,把專輯名賦給albumtime = music['interval']# 查找播放時長,把時長賦值給timelink = 'https://y.qq.com/n/yqq/song/' + str(music['file']['media_mid']) + '.html\n\n'# 查找播放鏈接,把鏈接賦值給linksheet.append([name, album, time,url])# 把name、album、time和link寫成列表,用append函數多行寫入Excelprint('歌曲名:' + name + '\n' + '所屬專輯:' + album +'\n' + '播放時長:' + str(time) + '\n' + '播放鏈接:'+ url)wb.save('Jay.xlsx') #最后保存并命名這個Excel文件

    7、爬取思想


    8、cookies及session

    8.1 cookies及其用法

    • 當你登錄一個網站,你都會在登錄頁面看到一個可勾選的選項“記住我”,如果你勾選了,以后你再打開這個網站就會自動登錄,這就是cookie在起作用。
    • 勾選“記住我”,服務器就會生成一個cookies和xxx這個賬號綁定。接著,它把這個cookies告訴你的瀏覽器,讓瀏覽器把cookies存儲到你的本地電腦。當下一次,瀏覽器帶著cookies訪問博客,服務器會知道你是xxx。

    8.1.1 例子

    發表博客評論

    • post帶著參數地請求登錄
    • 獲得登錄的cookies
    • 帶cookies去請求發表評論
    import requests #引入requests。 url = ' https://wordpress-edu-3autumn.localprod.forc.work/wp-login.php' #把請求登錄的網址賦值給url。 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36' } #加請求頭,前面有說過加請求頭是為了模擬瀏覽器正常的訪問,避免被反爬蟲。 data = { 'log': 'spiderman', #寫入賬戶 'pwd': 'crawler334566', #寫入密碼 'wp-submit': '登錄', 'redirect_to': 'https://wordpress-edu-3autumn.localprod.forc.work/wp-admin/', 'testcookie': '1' } #把有關登錄的參數封裝成字典,賦值給data。 login_in = requests.post(url,headers=headers,data=data) #用requests.post發起請求,放入參數:請求登錄的網址、請求頭和登錄參數,然后賦值給login_in。 cookies = login_in.cookies #提取cookies的方法:調用requests對象(login_in)的cookies屬性獲得登錄的cookies,并賦值給變量cookies。url_1 = 'https://wordpress-edu-3autumn.localprod.forc.work/wp-comments-post.php' #我們想要評論的文章網址。 data_1 = { 'comment': input('請輸入你想要發表的評論:'), 'submit': '發表評論', 'comment_post_ID': '7', 'comment_parent': '0' } #把有關評論的參數封裝成字典。 comment = requests.post(url_1,headers=headers,data=data_1,cookies=cookies) #用requests.post發起發表評論的請求,放入參數:文章網址、headers、評論參數、cookies參數,賦值給comment。 #調用cookies的方法就是在post請求中傳入cookies=cookies的參數。 print(comment.status_code) #打印出comment的狀態碼,若狀態碼等于200,則證明我們評論成功。

    8.2 session及其用法

    • session是會話過程中,服務器用來記錄特定用戶會話的信息。
    • cookies中存儲著session的編碼信息,session中又存儲了cookies的信息。
    • 當瀏覽器第一次訪問網頁時,服務器會返回set cookies的字段給瀏覽器,而瀏覽器會把cookies保存到本地。
    • 等瀏覽器第二次訪問這個網頁時,就會帶著cookies去請求,而因為cookies里帶有會話的編碼信息,服務器立馬就能辨認出這個用戶,同時返回和這個用戶相關的特定編碼的session。

    8.2.1 例子

    發表博客評論

    import requests #引用requests。 session = requests.session() #用requests.session()創建session對象,相當于創建了一個特定的會話,幫我們自動保持了cookies。 url = 'https://wordpress-edu-3autumn.localprod.forc.work/wp-login.php' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' } data = {'log':input('請輸入賬號:'), #用input函數填寫賬號和密碼,這樣代碼更優雅,而不是直接把賬號密碼填上去。'pwd':input('請輸入密碼:'),'wp-submit':'登錄','redirect_to':'https://wordpress-edu-3autumn.localprod.forc.work/wp-admin/','testcookie':'1' } session.post(url,headers=headers,data=data) #在創建的session下用post發起登錄請求,放入參數:請求登錄的網址、請求頭和登錄參數。url_1 = 'https://wordpress-edu-3autumn.localprod.forc.work/wp-comments-post.php' #把我們想要評論的文章網址賦值給url_1。 data_1 = { 'comment': input('請輸入你想要發表的評論:'), 'submit': '發表評論', 'comment_post_ID': '7', 'comment_parent': '0' } #把有關評論的參數封裝成字典。 comment = session.post(url_1,headers=headers,data=data_1) #在創建的session下用post發起評論請求,放入參數:文章網址,請求頭和評論參數,并賦值給comment。 print(comment) #打印comment

    8.3 存儲cookies

    • cookies轉成字典,然后再通過json模塊轉成字符串。
    import requests,json #引入requests和json模塊。 session = requests.session() url = ' https://wordpress-edu-3autumn.localprod.forc.work/wp-login.php' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' } data = { 'log': input('請輸入你的賬號:'), 'pwd': input('請輸入你的密碼:'), 'wp-submit': '登錄', 'redirect_to': 'https://wordpress-edu-3autumn.localprod.forc.work/wp-admin/', 'testcookie': '1' } session.post(url, headers=headers, data=data)cookies_dict = requests.utils.dict_from_cookiejar(session.cookies) #把cookies轉化成字典。 print(cookies_dict) #打印cookies_dict cookies_str = json.dumps(cookies_dict) #調用json模塊的dumps函數,把cookies從字典再轉成字符串。 print(cookies_str) #打印cookies_str f = open('cookies.txt', 'w') #創建名為cookies.txt的文件,以寫入模式寫入內容。 f.write(cookies_str) #把已經轉成字符串的cookies寫入文件。 f.close() #關閉文件。

    8.4 讀取cookies

    • 存儲cookies時,是把它先轉成字典,再轉成字符串。
    • 讀取cookies時,要先把字符串轉成字典,再把字典轉成(json模塊)cookies本來的格式。

    讀取代碼:

    cookies_txt = open('cookies.txt', 'r') #以reader讀取模式,打開名為cookies.txt的文件。 cookies_dict = json.loads(cookies_txt.read()) #調用json模塊的loads函數,把字符串轉成字典。 cookies = requests.utils.cookiejar_from_dict(cookies_dict) #把轉成字典的cookies再轉成cookies本來的格式。 cookies = session.cookies #獲取cookies:就是調用requests對象(session)的cookies屬性。

    8.4.1 例子

    發表博客評論

    • 程序能讀取到cookies,就自動登錄,發表評論;如果讀取不到,就重新輸入賬號密碼登錄,再評論。
    import requests,json session = requests.session() #創建會話。 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36' } #添加請求頭,避免被反爬蟲。 try: #如果能讀取到cookies文件,執行以下代碼,跳過except的代碼,不用登錄就能發表評論。cookies_txt = open('cookies.txt', 'r')#以reader讀取模式,打開名為cookies.txt的文件。cookies_dict = json.loads(cookies_txt.read())#調用json模塊的loads函數,把字符串轉成字典。cookies = requests.utils.cookiejar_from_dict(cookies_dict)#把轉成字典的cookies再轉成cookies本來的格式。cookies = session.cookies#獲取cookies:就是調用requests對象(session)的cookies屬性。except FileNotFoundError: #如果讀取不到cookies文件,程序報“FileNotFoundError”(找不到文件)的錯,則執行以下代碼,重新登錄獲取cookies,再評論。url = ' https://wordpress-edu-3autumn.localprod.forc.work/wp-login.php'#登錄的網址。data = {'log': input('請輸入你的賬號:'),'pwd': input('請輸入你的密碼:'),'wp-submit': '登錄','redirect_to': 'https://wordpress-edu-3autumn.localprod.forc.work/wp-admin/','testcookie': '1'}#登錄的參數。session.post(url, headers=headers, data=data)#在會話下,用post發起登錄請求。cookies_dict = requests.utils.dict_from_cookiejar(session.cookies)#把cookies轉化成字典。cookies_str = json.dumps(cookies_dict)#調用json模塊的dump函數,把cookies從字典再轉成字符串。f = open('cookies.txt', 'w')#創建名為cookies.txt的文件,以寫入模式寫入內容f.write(cookies_str)#把已經轉成字符串的cookies寫入文件f.close()#關閉文件url_1 = 'https://wordpress-edu-3autumn.localprod.forc.work/wp-comments-post.php' #文章的網址。 data_1 = { 'comment': input('請輸入你想評論的內容:'), 'submit': '發表評論', 'comment_post_ID': '7', 'comment_parent': '0' } #評論的參數。 comment = session.post(url_1,headers=headers,data=data_1) #在創建的session下用post發起評論請求,放入參數:文章網址,請求頭和評論參數,并賦值給comment。 print(comment.status_code) #打印comment的狀態碼
    • 解決cookies會過期的問題。代碼里加一個條件判斷,如果cookies過期,就重新獲取新的cookies。
    import requests, json session = requests.session() headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}def cookies_read():cookies_txt = open('cookies.txt', 'r')cookies_dict = json.loads(cookies_txt.read())cookies = requests.utils.cookiejar_from_dict(cookies_dict)return (cookies)# 以上4行代碼,是cookies讀取。def sign_in():url = ' https://wordpress-edu-3autumn.localprod.forc.work/wp-login.php'data = {'log': input('請輸入你的賬號'),'pwd': input('請輸入你的密碼'),'wp-submit': '登錄','redirect_to': 'https://wordpress-edu-3autumn.localprod.forc.work/wp-admin/','testcookie': '1'}session.post(url, headers=headers, data=data)cookies_dict = requests.utils.dict_from_cookiejar(session.cookies)cookies_str = json.dumps(cookies_dict)f = open('cookies.txt', 'w')f.write(cookies_str)f.close()# 以上5行代碼,是cookies存儲。def write_message():url_2 = 'https://wordpress-edu-3autumn.localprod.forc.work/wp-comments-post.php'data_2 = {'comment': input('請輸入你要發表的評論:'),'submit': '發表評論','comment_post_ID': '7','comment_parent': '0'}return (session.post(url_2, headers=headers, data=data_2))#以上9行代碼,是發表評論。try:session.cookies = cookies_read() except FileNotFoundError:sign_in()session.cookies = cookies_read()num = write_message() if num.status_code == 200:print('成功啦!') else:sign_in()session.cookies = cookies_read()num = write_message()

    9、selenium

    官方中文文檔

    • 設置瀏覽器引擎
    # 本地Chrome瀏覽器設置方法 from selenium import webdriver #從selenium庫中調用webdriver模塊 driver = webdriver.Chrome() # 設置引擎為Chrome,真實地打開一個Chrome瀏覽器

    教學系統的瀏覽器設置方法

    # 教學系統的瀏覽器設置方法,你不需要記住它 from selenium.webdriver.chrome.webdriver import RemoteWebDriver # 從selenium庫中調用RemoteWebDriver模塊 from selenium.webdriver.chrome.options import Options # 從options模塊中調用Options類chrome_options = Options() # 實例化Option對象 chrome_options.add_argument('--headless') # 對瀏覽器的設置 driver = RemoteWebDriver("http://chromedriver.python-class-fos.svc:4444/wd/hub", chrome_options.to_capabilities()) # 設置瀏覽器引擎
    • 獲取數據
    # 本地Chrome瀏覽器設置方法 from selenium import webdriver #從selenium庫中調用webdriver模塊 driver = webdriver.Chrome() # 設置引擎為Chrome,真實地打開一個Chrome瀏覽器driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 打開網頁 driver.close() # 關閉瀏覽器
    • 解析與提取數據
      • selenium所解析提取的,是Elements中的所有數據,而BeautifulSoup所解析的則只是Network中第0個請求的響應。
      • selenium把網頁打開,所有信息就都加載到了Elements。

    例子:解析與提取數據網頁中,元素的內容。

    # 教學系統的瀏覽器設置方法,你不需要記住它 from selenium.webdriver.chrome.webdriver import RemoteWebDriver # 從selenium庫中調用RemoteWebDriver模塊 from selenium.webdriver.chrome.options import Options # 從options模塊中調用Options類 import time chrome_options = Options() # 實例化Option對象 chrome_options.add_argument('--headless') # 對瀏覽器的設置 driver = RemoteWebDriver("http://chromedriver.python-class-fos.svc:4444/wd/hub", chrome_options.to_capabilities()) # 聲明瀏覽器對象driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 訪問頁面 time.sleep(2) # 等待2秒 label = driver.find_element_by_tag_name('label') # 解析網頁并提取第一個<lable>標簽 print(label.text) # 打印label的文本 driver.close() # 關閉瀏覽器
    • selenium提取數據方法
      • 提取出的數據屬于WebElement類對象
      • BeautifulSoup屬于Tag對象
    方法作用
    find_element_by_tag_name:通過元素的名稱選擇
    find_element_by_class_name:通過元素的class屬性選擇
    find_element_by_id:通過元素的id選擇
    find_element_by_name:通過元素的name屬性選擇
    find_element_by_link_text:通過鏈接文本獲取超鏈接
    find_element_by_link_text:通過鏈接文本獲取超鏈接
    find_element_by_partial_link_text:通過鏈接的部分文本獲取超鏈接
    find_element_by_tag_name:通過元素的名稱選擇 # 如<h1>你好,蜘蛛俠!</h1> # 可以使用find_element_by_tag_name('h1')find_element_by_class_name:通過元素的class屬性選擇 # 如<h1 class="title">你好,蜘蛛俠!</h1> # 可以使用find_element_by_class_name('title')find_element_by_id:通過元素的id選擇 # 如<h1 id="title">你好,蜘蛛俠!</h1> # 可以使用find_element_by_id('title')find_element_by_name:通過元素的name屬性選擇 # 如<h1 name="hello">你好,蜘蛛俠!</h1> # 可以使用find_element_by_name('hello')#以下兩個方法可以提取出超鏈接find_element_by_link_text:通過鏈接文本獲取超鏈接 # 如<a href="spidermen.html">你好,蜘蛛俠!</a> # 可以使用find_element_by_link_text('你好,蜘蛛俠!')find_element_by_partial_link_text:通過鏈接的部分文本獲取超鏈接 # 如<a href="https://localprod.pandateacher.com/python-manuscript/hello-spiderman/">你好,蜘蛛俠!</a> # 可以使用find_element_by_partial_link_text('你好')

    例子:獲取【你好,蜘蛛俠!】的網頁源代碼

    # 教學系統的瀏覽器設置方法,你不需要記住它 from selenium.webdriver.chrome.webdriver import RemoteWebDriver # 從selenium庫中調用RemoteWebDriver模塊 from selenium.webdriver.chrome.options import Options # 從options模塊中調用Options類 import timechrome_options = Options() # 實例化Option對象 chrome_options.add_argument('--headless') # 對瀏覽器的設置 driver = RemoteWebDriver("http://chromedriver.python-class-fos.svc:4444/wd/hub", chrome_options.to_capabilities()) # 聲明瀏覽器對象driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 訪問頁面 time.sleep(2) # 等待兩秒,等瀏覽器加緩沖載數據pageSource = driver.page_source # 獲取完整渲染的網頁源代碼 print(type(pageSource)) # 打印pageSource的類型 print(pageSource) # 打印pageSource driver.close() # 關閉瀏覽器
    • 自動操作瀏覽器
    .send_keys() # 模擬按鍵輸入,自動填寫表單 .click() # 點擊元素 # 本地Chrome瀏覽器設置方法 from selenium import webdriver # 從selenium庫中調用webdriver模塊 import time # 調用time模塊 driver = webdriver.Chrome() # 設置引擎為Chrome,真實地打開一個Chrome瀏覽器driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/') # 訪問頁面 time.sleep(2) # 暫停兩秒,等待瀏覽器緩沖teacher = driver.find_element_by_id('teacher') # 找到【請輸入你喜歡的老師】下面的輸入框位置 teacher.send_keys('必須是吳楓呀') # 輸入文字 assistant = driver.find_element_by_name('assistant') # 找到【請輸入你喜歡的助教】下面的輸入框位置 assistant.send_keys('都喜歡') # 輸入文字 button = driver.find_element_by_class_name('sub') # 找到【提交】按鈕 button.click() # 點擊【提交】按鈕 driver.close() # 關閉瀏覽器

    9.1 例子

    一、用selenium爬取QQ音樂的歌曲評論,甜甜的。

    • 通過selenium打開瀏覽器的操作,數據就被加載到elements中了。
    # 教學系統的瀏覽器設置方法,你不需要記住它 from selenium.webdriver.chrome.webdriver import RemoteWebDriver # 從selenium庫中調用RemoteWebDriver模塊 from selenium.webdriver.chrome.options import Options # 從options模塊中調用Options類 import timechrome_options = Options() # 實例化Option對象 chrome_options.add_argument('--headless') # 對瀏覽器的設置 driver = RemoteWebDriver("http://chromedriver.python-class-fos.svc:4444/wd/hub", chrome_options.to_capabilities()) # 聲明瀏覽器對象driver.get('https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html') # 訪問頁面 time.sleep(2)comments = driver.find_element_by_class_name('js_hot_list').find_elements_by_class_name('js_cmt_li') # 使用class_name找到評論 print(len(comments)) # 打印獲取到的評論個數 for comment in comments: # 循環sweet = comment.find_element_by_tag_name('p') # 找到評論print ('評論:%s\n ---\n'%sweet.text) # 打印評論 driver.close() # 關閉瀏覽器
    • 獲取沒有展開的評論
    # 教學系統的瀏覽器設置方法,你不需要記住它 from selenium.webdriver.chrome.webdriver import RemoteWebDriver # 從selenium庫中調用RemoteWebDriver模塊 from selenium.webdriver.chrome.options import Options # 從options模塊中調用Options類 from bs4 import BeautifulSoup import time chrome_options = Options() # 實例化Option對象 chrome_options.add_argument('--headless') # 對瀏覽器的設置 driver = RemoteWebDriver("http://chromedriver.python-class-fos.svc:4444/wd/hub", chrome_options.to_capabilities()) # 聲明瀏覽器對象driver.get('https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html') # 訪問頁面 time.sleep(2)button = driver.find_element_by_class_name('js_get_more_hot') # 根據類名找到【點擊加載更多】 button.click() # 點擊 time.sleep(2) # 等待兩秒 pageSource = driver.page_source # 獲取Elements中渲染完成的網頁源代碼

    二、定時與郵件

    • 自動爬取每日的天氣,并定時把天氣數據和穿衣提示發送到你的郵箱

    10、 協程

    • 異步:在一個任務未完成時,就可以執行其他多個任務,彼此不受影響。
    • 同步:一個任務結束才能啟動下一個。
    • 多協程:一個任務在執行過程中,如果遇到等待,就先去執行其他的任務,當等待結束,再回來繼續之前的那個任務。

    10.1 gevent庫

    例子

    • 爬取8個網站
    import requests,time #導入requests和time start = time.time() #記錄程序開始時間 url_list = ['https://www.baidu.com/', 'https://www.sina.com.cn/', 'http://www.sohu.com/', 'https://www.qq.com/', 'https://www.163.com/', 'http://www.iqiyi.com/', 'https://www.tmall.com/', 'http://www.ifeng.com/'] #把8個網站封裝成列表 for url in url_list: #遍歷url_listr = requests.get(url)
    • 導入了time模塊,記錄了程序開始和結束的時間
    • 導入gevent庫中monkey模塊
    from gevent import monkey #從gevent庫里導入monkey模塊。 monkey.patch_all() #monkey.patch_all()能把程序變成協作式運行,就是可以幫助程序實現異步。 import gevent,time,requests #導入gevent、time、requests。start = time.time() #記錄程序開始時間。url_list = ['https://www.baidu.com/', 'https://www.sina.com.cn/', 'http://www.sohu.com/', 'https://www.qq.com/', 'https://www.163.com/', 'http://www.iqiyi.com/', 'https://www.tmall.com/', 'http://www.ifeng.com/'] #把8個網站封裝成列表。def crawler( ): #定義一個crawler()函數。r = requests.get(url)#用requests.get()函數爬取網站。print(url,time.time()-start,r.status_code)#打印網址、請求運行時間、狀態碼。tasks_list = [ ] #創建空的任務列表。for url in url_list: #遍歷url_list。task = gevent.spawn(crawler,url)#用gevent.spawn()函數創建任務。tasks_list.append(task)#往任務列表添加任務。 gevent.joinall(tasks_list) #執行任務列表里的所有任務,就是讓爬蟲開始爬取網站。 end = time.time() #記錄程序結束時間。 print(end-start) #打印程序最終所需時間。

    10.2 queue模塊

    用多協程來爬蟲,需要創建大量任務時,我們可以借助queue模塊。

    • 第1部分是導入模塊。
    from gevent import monkey #從gevent庫里導入monkey模塊。 monkey.patch_all() #monkey.patch_all()能把程序變成協作式運行,就是可以幫助程序實現異步。 import gevent,time,requests #導入gevent、time、requests from gevent.queue import Queue #從gevent庫里導入queue模塊
    • 第2部分,是如何創建隊列,以及怎么把任務存儲進隊列里。
    start = time.time() #記錄程序開始時間url_list = ['https://www.baidu.com/', 'https://www.sina.com.cn/', 'http://www.sohu.com/', 'https://www.qq.com/', 'https://www.163.com/', 'http://www.iqiyi.com/', 'https://www.tmall.com/', 'http://www.ifeng.com/']work = Queue() #創建隊列對象,并賦值給work。 for url in url_list: #遍歷url_listwork.put_nowait(url)#用put_nowait()函數可以把網址都放進隊列里。
    • 第3部分,是定義爬取函數,和如何從隊列里提取出剛剛存儲進去的網址。
    def crawler():while not work.empty():#當隊列不是空的時候,就執行下面的程序。url = work.get_nowait()#用get_nowait()函數可以把隊列里的網址都取出。r = requests.get(url)#用requests.get()函數抓取網址。print(url,work.qsize(),r.status_code)#打印網址、隊列長度、抓取請求的狀態碼。
    • 第四部分,讓爬蟲用多協程執行任務,爬取隊列里的8個網站的代碼
    def crawler():while not work.empty():url = work.get_nowait()r = requests.get(url)print(url,work.qsize(),r.status_code)tasks_list = [ ] #創建空的任務列表 for x in range(2): #相當于創建了2個爬蟲task = gevent.spawn(crawler)#用gevent.spawn()函數創建執行crawler()函數的任務。tasks_list.append(task)#往任務列表添加任務。 gevent.joinall(tasks_list) #用gevent.joinall方法,執行任務列表里的所有任務,就是讓爬蟲開始爬取網站。 end = time.time() print(end-start)

    10.3 例子

    用多協程爬到薄荷網的食物熱量數據。

    • 用for循環構造出前3個常見食物類別的前3頁食物記錄的網址和第11個常見食物類別的前3頁食物記錄的網址,并把這些網址放進隊列,打印出來。
    #導入所需的庫和模塊。 import gevent,requests, bs4, csv from gevent.queue import Queue from gevent import monkey monkey.patch_all()work = Queue() #創建隊列對象,并賦值給work。#前3個常見食物分類的前3頁的食物記錄的網址: url_1 = 'http://www.boohee.com/food/group/{type}?page={page}' for x in range(1, 4):for y in range(1, 4):real_url = url_1.format(type=x, page=y)work.put_nowait(real_url) #通過兩個for循環,能設置分類的數字和頁數的數字。 #然后,把構造好的網址用put_nowait方法添加進隊列里。#第11個常見食物分類的前3頁的食物記錄的網址: url_2 = 'http://www.boohee.com/food/view_menu?page={page}' for x in range(1,4):real_url = url_2.format(page=x)work.put_nowait(real_url) #通過for循環,能設置第11個常見食物分類的食物的頁數。 #然后,把構造好的網址用put_nowait方法添加進隊列里。print(work) #打印隊列 #導入所需的庫和模塊。 import gevent,requests, bs4, csv from gevent.queue import Queue from gevent import monkey monkey.patch_all()work = Queue() #創建隊列對象,并賦值給work。#前3個常見食物分類的前3頁的食物記錄的網址: url_1 = 'http://www.boohee.com/food/group/{type}?page={page}' for x in range(1, 4):for y in range(1, 4):real_url = url_1.format(type=x, page=y)work.put_nowait(real_url) #通過兩個for循環,能設置分類的數字和頁數的數字。 #然后,把構造好的網址用put_nowait添加進隊列里。#第11個常見食物分類的前3頁的食物記錄的網址: url_2 = 'http://www.boohee.com/food/view_menu?page={page}' for x in range(1,4):real_url = url_2.format(page=x)work.put_nowait(real_url) #通過for循環,能設置第11個常見食物分類的食物的頁數。 #然后,把構造好的網址用put_nowait添加進隊def crawler(): #定義crawler函數headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}#添加請求頭while not work.empty():#當隊列不是空的時候,就執行下面的程序。url = work.get_nowait()#用get_nowait()方法從隊列里把剛剛放入的網址提取出來。res = requests.get(url, headers=headers)#用requests.get獲取網頁源代碼。bs_res = bs4.BeautifulSoup(res.text, 'html.parser')#用BeautifulSoup解析網頁源代碼。foods = bs_res.find_all('li', class_='item clearfix')#用find_all提取出<li class="item clearfix">標簽的內容。for food in foods:#遍歷foodsfood_name = food.find_all('a')[1]['title']#用find_all在<li class="item clearfix">標簽下,提取出第2個<a>元素title屬性的值,也就是食物名稱。food_url = 'http://www.boohee.com' + food.find_all('a')[1]['href']#用find_all在<li class="item clearfix">標簽下,提取出第2個<a>元素href屬性的值,跟'http://www.boohee.com'組合在一起,就是食物詳情頁的鏈接。food_calorie = food.find('p').text#用find在<li class="item clearfix">標簽下,提取<p>元素,再用text方法留下純文本,就提取出了食物的熱量。 print(food_name)#打印食物的名稱。tasks_list = [] #創建空的任務列表 for x in range(5): #相當于創建了5個爬蟲task = gevent.spawn(crawler)#用gevent.spawn()函數創建執行crawler()函數的任務。tasks_list.append(task)#往任務列表添加任務。 gevent.joinall(tasks_list) #用gevent.joinall方法,啟動協程,執行任務列表里的所有任務,讓爬蟲開始爬取網站。
    • 添加儲存
    import gevent,requests, bs4, csv from gevent.queue import Queue from gevent import monkey monkey.patch_all()work = Queue() url_1 = 'http://www.boohee.com/food/group/{type}?page={page}' for x in range(1, 4):for y in range(1, 4):real_url = url_1.format(type=x, page=y)work.put_nowait(real_url)url_2 = 'http://www.boohee.com/food/view_menu?page={page}' for x in range(1,4):real_url = url_2.format(page=x)work.put_nowait(real_url)def crawler():headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}while not work.empty():url = work.get_nowait()res = requests.get(url, headers=headers)bs_res = bs4.BeautifulSoup(res.text, 'html.parser')foods = bs_res.find_all('li', class_='item clearfix')for food in foods:food_name = food.find_all('a')[1]['title']food_url = 'http://www.boohee.com' + food.find_all('a')[1]['href']food_calorie = food.find('p').textwriter.writerow([food_name, food_calorie, food_url])#借助writerow()函數,把提取到的數據:食物名稱、食物熱量、食物詳情鏈接,寫入csv文件。print(food_name)csv_file= open('boohee.csv', 'w', newline='') #調用open()函數打開csv文件,傳入參數:文件名“boohee.csv”、寫入模式“w”、newline=''。 writer = csv.writer(csv_file) # 用csv.writer()函數創建一個writer對象。 writer.writerow(['食物', '熱量', '鏈接']) #借助writerow()函數往csv文件里寫入文字:食物、熱量、鏈接tasks_list = [] for x in range(5):task = gevent.spawn(crawler)tasks_list.append(task) gevent.joinall(tasks_list)

    11、Scrapy

    • Scrapy Engine(引擎)
    • Scheduler(調度器)部門主要負責處理引擎發送過來的requests對象(即網頁請求的相關信息集合,包括params,data,cookies,request headers…等),會把請求的url以有序的方式排列成隊,并等待引擎來提取(功能上類似于gevent庫的queue模塊)。
    • Downloader(下載器)部門則是負責處理引擎發送過來的requests,進行網頁爬取,并將返回的response(爬取到的內容)交給引擎。它對應的是爬蟲流程【獲取數據】這一步。
    • Spiders(爬蟲)部門是公司的核心業務部門,主要任務是創建requests對象和接受引擎發送過來的response(Downloader部門爬取到的內容),從中解析并提取出有用的數據。它對應的是爬蟲流程【解析數據】和【提取數據】這兩步。
    • Item Pipeline(數據管道)部門則是公司的數據部門,只負責存儲和處理Spiders部門提取到的有用數據。這個對應的是爬蟲流程【存儲數據】這一步。

    未完

    總結

    以上是生活随笔為你收集整理的网络爬虫 | 基础的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。