爬虫学习日记 Day1 开始爬虫
上篇文章地址:https://blog.csdn.net/BanTanger/article/details/122233914
編譯器:pycharm
python版本:python3
所需模塊:(python標(biāo)準(zhǔn)庫函數(shù),無需安裝,直接調(diào)用)
from urllib import request 向互聯(lián)網(wǎng)發(fā)送申請(qǐng)響應(yīng)的模塊
import urllib.request == from urllib import request 但后者書寫函數(shù)更加方便。
涉及使用函數(shù):? ?Request(),? urlopen()
request = request.Request(url = {},headers = {})
respond = request.urlopen(request)
read().decode() 配合使用
{}代表傳遞參數(shù),用戶自定義數(shù)據(jù),
url = 所需要爬取的網(wǎng)址,headers = 需要偽裝的User-Agent信息。
Request()函數(shù)是對(duì)爬取信息進(jìn)行封裝,
urlopen()函數(shù)是對(duì)響應(yīng)對(duì)象的回應(yīng),需要傳遞從Request函數(shù)返回的數(shù)據(jù)
標(biāo)準(zhǔn)格式
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'} #這里header接收的是一個(gè)字典數(shù)據(jù),需要{},然后里面的參數(shù)要用單引號(hào)來引用。 url = 'http://www.baidu.com'req = request.Request(url = url,headers = headers) #url=是固定格式,后面的url是用戶傳遞參數(shù),也就是變量,headers同理 res = request.urlopen(req) #urlopen(),參數(shù)傳遞request,并用res變量來接收respond爬蟲代碼:
""" 使用Request函數(shù)來包裝,避免網(wǎng)站反爬,重構(gòu)User-Agent """ from urllib import request url = 'https://baidu.com/' headers = {'User-Agent':' Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv,2.0.1) Gecko/20100101 Firefox/4.0.1'} # 2.包裝請(qǐng)求 Request() req = request.Request(url=url,headers=headers) # 3.發(fā)請(qǐng)求 urlopen() res = request.urlopen(req) # 4.獲取響應(yīng)內(nèi)容 html = res.read().decode('utf-8') print(html)""" 請(qǐng)求網(wǎng)站三步走 --構(gòu)造請(qǐng)求對(duì)象 req = request.Request(url = {},headers = {}) --獲取響應(yīng)內(nèi)容 res = request.urlopen(req) --提取響應(yīng)對(duì)象內(nèi)容 html = res.read().decode() """運(yùn)行:
?
很nice,我們成功啦,更深知識(shí)我們下篇文章再講?
總結(jié)
以上是生活随笔為你收集整理的爬虫学习日记 Day1 开始爬虫的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: v-if v-show区别(面试题)
- 下一篇: 9008刷机怎么刷_手机刷机怎么刷