日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫的基本知识第一个请求requests模块的基本使用

發布時間:2025/3/21 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 爬虫的基本知识第一个请求requests模块的基本使用 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

  • 1.請求過程與網頁基礎
    • 1.1 URL介紹
    • 1.2 HTTP請求過程
    • 1.3請求
    • 1.4 響應
    • 1.4 網頁基礎
  • 2.第一個請求
    • 2.1 爬蟲工作流(復習)
    • 2.2 第一個爬蟲
  • 3.requests模塊基本使用
    • 3.1 requests模塊的get請求
    • 3.2 requests模塊的post請求
    • 3.3 json形式與流形式的響應數據示例

1.請求過程與網頁基礎

1.1 URL介紹

  • URL(Uniform Resource Locator),統一資源定位符,是互聯網上標準資源的地址
  • 組成:<協議>://<主機>:<端口>/<路徑>

不同scheme的URL一般只包括其中的部份組件,其中最重要的3個部份是方案(scheme)、主機(host)和路徑(path)

1.2 HTTP請求過程

# 請求過程:客戶端, 通常指web瀏覽器或APP向服務器發起請求, 服務器接收到請求進行處理, 并向客戶端發起響應.

1.3請求

請求方法:常見有8種

  • GET: 請求頁面, 并返回頁面內容
  • POST: 用于提交表單數據或上傳文件, 數據包含在請求體中
  • PUT: 從客戶端向服務器傳送的數據取代指定文檔中的內容
  • DELETE: 請求服務器刪除指定的頁面
  • HEAD: 類似于GET請求,只不過返回的響應中沒有具體的內容,用于獲取報頭
  • CONNECT: 把服務器當作跳板,讓服務器代替客戶端訪問其他網頁
  • OPTIONS: 允許客戶端查看服務器的性能
  • TRACE: 回顯服務器收到的請求,主要用于測試或診斷
  • 重點掌握GET & POST : GET與POST的區別(重點) --> (面試出鏡率較高)
    ( 1.GET請求中的參數包含在URL里面, 數據可以在URL中看到, 而POST請求的URL不會包含這些數據, POST的數據都是通過表單形式傳輸的, 會包含在請求體中
    2.GET請求提交的數據最多只有1024字節, 而POST方式沒有限制)
# 請求網址: 請求的網址,即統一資源定位符URL,它可以唯一確定我們想請求的資源

請求頭:
請求頭,用來說明服務器要使用的附加信息. 重點掌握: Accept, Cookie, Referer, User-Agent
1.Accept:請求報頭域,用于指定客戶端可接受哪些類型的信息
2.Cookie:也常用復數形式 Cookies,這是網站為了辨別用戶進行會話跟蹤而存儲在用戶本地的數據。它的主要功能是維持當前訪問會話。例如,我們輸入用戶名和密碼成功登錄某個網站后,服務器會用會話保存登錄狀態信息,后面我們每次刷新或請求該站點的其他頁面時,會發現都是登錄狀態,這就是Cookies的功勞。Cookies里有信息標識了我們所對應的服務器的會話,每次瀏覽器在請求該站點的頁面時,都會在請求頭中加上Cookies并將其發送給服務器,服務器通過Cookies識別出是我們自己,并且查出當前狀態是登錄狀態,所以返回結果就是登錄之后才能看到的網頁內容
3.Referer:此內容用來標識這個請求是從哪個頁面發過來的,服務器可以拿到這一信息并做相應的處理,如作來源統計、防盜鏈處理等
4.User-Agent:簡稱UA,它是一個特殊的字符串頭,可以使服務器識別客戶使用的操作系統及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息,可以偽裝為瀏覽器;如果不加,很可能會被識別出為爬蟲 # 重點
5.x-requested-with :XMLHttpRequest # 代表ajax請求
5.Accept-Language:指定客戶端可接受的語言類型
6.Accept-Encoding:指定客戶端可接受的內容編碼
7.Content-Type:也叫互聯網媒體類型(Internet Media Type)或者MIME類型,在HTTP協議消息頭中,它用來表示具體請求中的媒體類型信息。例如,text/html代表HTML格式,image/gif代表GIF圖片,application/json代表JSON類型

# 請求體: 請求體一般承載的內容是POST請求中的表單數據,而對于GET請求,請求體則為空。

1.4 響應

# 響應, 是由服務端返回給客戶端的, 可以分為三部分: 響應狀態碼(response status code), 響應頭(response headers), 響應體(response body)

響應狀態碼: 用于判斷請求后的相應狀態, 如200代表請求成功, 404代表頁面頁面找不到, 500代表服務器錯誤
常見的狀態碼:
200系列:
200 成功 服務器已成功處理了請求
300系列:
301 永久移動 請求的網頁已永久移動到新位置,即永久重定向 # 重點
302 臨時移動 請求的網頁暫時跳轉到其他頁面,即暫時重定向 # 重點
400系列:
400 錯誤請求 服務器無法解析該請求 # 重點
401 未授權 請求沒有進行身份驗證或驗證未通過
403 禁止訪問 服務器拒絕此請求 # 重點
404 未找到 服務器找不到請求的網頁
500系列:
500 服務器內部錯誤 服務器遇到錯誤,無法完成請求 # 重點
501 未實現 服務器不具備完成請求的功能
502 錯誤網關 服務器作為網關或代理,從上游服務器收到無效響應
504 網關超時 服務器作為網關或代理,但是沒有及時從上游服務器收到請求
505 HTTP版本不支持 服務器不支持請求中所用的HTTP協議版本

(注意: 狀態碼不能完全代表響應狀態, 部分網站的狀態碼是自定義的, 一切以響應的數據為準)

# 響應頭: 響應頭包含了服務器對請求的應答信息 Date:標識響應產生的時間。 Content-Encoding:指定響應內容的編碼。Server:包含服務器的信息,比如名稱、版本號等。Content-Type:文檔類型,指定返回的數據類型是什么,如text/html代表返回HTML文檔, application/x-javascript則代表返回JavaScript文件,image/jpeg則代表返回圖片。Set-Cookie:設置Cookies。響應頭中的Set-Cookie告訴瀏覽器需要將此內容放在Cookies中, 下次請求攜帶Cookies請求。Expires:指定響應的過期時間,可以使代理服務器或瀏覽器將加載的內容更新到緩存中。 如果再次訪問時,就可以直接從緩存中加載,降低服務器負載,縮短加載時間。 # 響應體: 最重要的當屬響應體的內容了。響應的正文數據都在響應體中,比如請求網頁時, 它的響應體就是網頁的HTML代碼;請求一張圖片時,它的響應體就是圖片的二進制數據。 我們做爬蟲請求網頁后,要解析的內容就是響應體.

1.4 網頁基礎

# 網頁的組成: 網頁可以分為三部分, HTML, CSS, JavaScript 1.HTML: 其全稱叫作Hyper Text Markup Language,即超文本標記語言。定義了網頁的骨架2.CSS: 全稱叫作Cascading Style Sheets,即層疊樣式表。定義了網頁的樣式3.JavaScript: 簡稱JS,是一種腳本語言定義了網頁與用戶的交互行為, 如下載進度條, 提示框, 輪播圖

2.第一個請求

2.1 爬蟲工作流(復習)

  • 確定url, 向服務器發送請求并獲得響應: requests, urllib, aiohttp
  • 在響應中提取目標數據, 即數據解析: xpath, bs4, 正則, PyQuery
  • 數據持久化: 文件, 關系型數據庫, 非關系型數據庫

2.2 第一個爬蟲

# requests庫的安裝 pip install requests # 需求: 爬取百度首頁, 并寫入文件中, 最后用瀏覽器打開文件查看效果import requests# 1.確定url, 向服務器發送請求 url = 'https://www.baidu.com' res = requests.get(url=url)# 2.操作響應數據, 獲取目標數據 res.encoding = 'utf-8'# 3.將目標數據持久化到本地: 寫入文件 with open('baidu.html', 'w', encoding='utf-8') as f:f.write(res.text) # 需求: 爬取前程無憂, 并寫入文件, 最后用瀏覽器打開文件查看結果 import requests# 1.確定url, 向服務器發送請求 url = 'https://search.51job.com/list/010000,000000,0000,00,9,99,Python%25E7%2588%25AC%25E8%2599%25AB,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='# 2.發起請求, 獲取響應 ret = requests.get(url='https://search.51job.com/list/010000,000000,0000,00,9,99,Python%25E7%2588%25AC%25E8%2599%25AB,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=', headers=headers)# 3.對相應數據進行編碼 ret.encoding = 'gbk'# 4.數據持久化 with open('bs.html', 'w', encoding='gbk') as f:f.write(ret.text)

3.requests模塊基本使用

1.get請求:不攜帶參數的get請求: 搜狗首頁不攜帶參數的get請求 + headers: 爬取知乎的發現頁攜帶參數的get請求 + headers: 知乎的發現欄中搜索Pythonres = requests.get(url=url, headers=headers, params=params)2.post請求: 構建參數的post請求3.響應數據的獲取與屬性(1).響應數據的獲取:res.text: 文本數據res.json(): json數據res.content:, 圖片, 視頻, 壓縮包, 軟件包(2).響應的其他屬性:res.status_code: 獲取響應狀態碼res.headers: 響應頭res.cookie: cookie信息

3.1 requests模塊的get請求

# 不攜帶參數的get請求: 爬取搜狗主頁 import requests url = 'https://www.sogou.com/' res = requests.get(url=url) print(res) print(res.text)with open('sougou.html', 'w', encoding='utf-8') as f:f.write(res.text) # 不攜帶參數的get請求 + headers: 爬取知乎的發現頁 import requests headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'https://www.zhihu.com/explore' res = requests.get(url=url, headers=headers) with open('zhihu.html', 'w', encoding='utf-8') as f:f.write(res.text) # 攜帶參數的get請求 + headers: 知乎的發現欄中搜索Python import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url= 'https://www.zhihu.com/search?' params = {'type':'content','q':'python' }res = requests.get(url=url, headers=headers, params=params) print(res) print(res.text) with open('python.html', 'w', encoding='utf-8') as f:f.write(res.text)

3.2 requests模塊的post請求

# requests的post請求: 以post方式請求httpbin.org/post時會返回提交的請求信息 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'http://httpbin.org/post' data = {'name': 'spiderman','age': 8 } res = requests.post(url=url, headers=headers, data=data) print(res.text)

3.3 json形式與流形式的響應數據示例

# json形式響應數據示例: bilibili的Python視頻教程, 目錄列表 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'https://api.bilibili.com/x/web-interface/view?aid=14184325&cid=23153678' res = requests.get(url=url, headers=headers) print(res) print(res.status_code) print(res.headers) print('-----------------------------------------------------------------------------') print(res.json()) # 流形式響應數據示例: 站長素材的簡歷模板 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'http://fjdx.sc.chinaz.net/Files/DownLoad/jianli/201907/jianli10810.rar' res = requests.get(url=url, headers=headers) print(res.content) with open('janli.rar', 'wb') as f:f.write(res.content)

總結

以上是生活随笔為你收集整理的爬虫的基本知识第一个请求requests模块的基本使用的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 17c国产精品一区二区 | 魔女鞋交玉足榨精调教 | 久一国产| 一起射导航 | 女同久久另类69精品国产 | 韩日在线视频 | 中文乱码人妻一区二区三区视频 | 欧美性视频在线播放 | 国产精品人人妻人人爽 | 在线免费观看视频黄 | 免费av网站观看 | 黄色片网站在线 | 日本欧美www | 日本激情电影 | 免费黄色一级大片 | 三级国产在线观看 | 涩涩视频在线看 | 久久综合狠狠综合久久综合88 | 天天摸天天干天天操 | 久久夜色精品国产欧美乱极品 | 在线播放小视频 | 欧美 日韩 国产 成人 在线 91 | 久久免费影院 | 国产怡红院 | 亚洲欧洲精品一区 | av日韩在线播放 | 亚洲国产精品成人综合色在线婷婷 | 国产无遮挡呻吟娇喘视频 | 天天色棕合合合合合合合 | 日韩一级大片 | 久久久精品人妻一区二区三区四 | 看片网址国产福利av中文字幕 | 羞辱极度绿帽vk | 午夜精品久久久久久久久久久久久蜜桃 | 日韩伦理在线视频 | 99re在线视频观看 | 青青在线视频 | 欧美日韩视频无码一区二区三 | 国产最新在线观看 | 日韩免费视频观看 | 一级肉体全黄裸片 | 男女插插网站 | 欧美aaa在线观看 | 国产制服丝袜在线 | 综合视频一区二区 | 国产永久免费无遮挡 | 特级西西444www大精品视频免费看 | 男女调教视频 | 欧美日韩在线视频一区 | 特级西西444www高清大胆免费看 | 天堂网一区 | 最近日韩中文字幕中文 | 亚洲欧美日韩一区在线观看 | 91亚洲一区二区三区 | 新婚夫妇白天啪啪自拍 | 天天综合网在线观看 | 两个女人互添下身爱爱 | 亚洲欧美日韩第一页 | 免费视频99| 成人小片| 国产精品一区二区在线看 | 午夜激情视频在线播放 | 先锋av网| 激情婷婷六月 | 欧美一级片一区二区 | 免费成人电影在线观看 | 91视频中文字幕 | 性色av蜜臀av浪潮av老女人 | 97视频资源| 99这里只有精品 | 国产精品视频免费观看 | 午夜激情啪啪 | 国产做爰免费视频观看 | 91亚洲精| 亚洲精品一品 | 亚洲精品成人片在线观看精品字幕 | 日韩中文字幕一区二区三区 | 国产精品久久91 | 日日操天天射 | 开心激情久久 | 欧美乱插 | 亚洲制服一区二区 | 狼人伊人干 | 国产极品在线播放 | 人人澡人人射 | 日日夜夜超碰 | 亚洲成人免费在线 | 精品无人区无码乱码毛片国产 | 国产老女人精品毛片久久 | 亚洲深夜福利视频 | 欧美专区在线播放 | 91高清视频免费观看 | 天天躁日日躁狠狠躁av | 日本精品在线一区 | 丁香婷婷在线观看 | 国产无人区码熟妇毛片多 | 国产福利网 | 中文字幕免费在线观看 | 中文不卡在线 |