Python用urlib爬虫基础及格式入门
生活随笔
收集整理的這篇文章主要介紹了
Python用urlib爬虫基础及格式入门
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
初級(jí)的話,記住四個(gè)步驟:
之后會(huì)逐步加深難度并更新的。
需要爬取的網(wǎng)頁(yè)地址。url
創(chuàng)建headers 請(qǐng)求頭 headers
創(chuàng)建響應(yīng)體 response
獲取的數(shù)據(jù) html
基本列子:
import urllib from urllib import request# 第一步 "User-Agent" 可以網(wǎng)上搜。一大堆 headers = {"User-Agent": "隨便打開個(gè)瀏覽器在你的network -> Headers 中有" }url = "https://www.baidu.com" # 第二步# 第三步 # 傳入上述的 url 與 headers rep = urllib.request.Request(url=url,headers=headers)# 第四步 # 創(chuàng)建網(wǎng)頁(yè)對(duì)象。 res = urllib.request.urlopen(rep) # print(res.read()) # 二進(jìn)制類型 print(res.read().decode('utf-8')) # 轉(zhuǎn)成字符串,打印網(wǎng)頁(yè)數(shù)據(jù) # print(res.info()) # 響應(yīng)的信息。之后的就是處理數(shù)據(jù)了,獲取自己想要的
前期入門最主要的是記住這幾個(gè)步驟,勤加練習(xí),并且應(yīng)當(dāng)熟知數(shù)據(jù)處理。
總結(jié)
以上是生活随笔為你收集整理的Python用urlib爬虫基础及格式入门的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PyCharm修改镜像源无用?
- 下一篇: Python用requests完成最简单