當前位置：首頁 >

python怎么爬取Linux作业,Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗...

發布時間：2024/1/1 38 豆豆

生活随笔收集整理的這篇文章主要介紹了 python怎么爬取Linux作业,Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

介紹

本篇博客將會介紹一個Python爬蟲，用來爬取各個國家的國旗，主要的目標是為了展示如何在Python的requests模塊中使用POST方法來爬取網頁內容。

為了知道POST方法所需要傳遞的HTTP請求頭部和請求體，我們可以使用Fiddler來進行抓包，抓取上網過程中HTTP請求中的POST方法。為了驗證Fiddler抓取到的POST請求，可以使用Postman進行測試驗證。在Postman中完成測試后，我們就可以用Python的request.POST()方法來寫我們的爬蟲了。

流程

作為上述過程的一個演示，我們使用的網址為： http://country.911cha.com/ , 頁面如下：

在表單中輸入德國，跳轉后的頁面如下：

我們可以發現，在搜索的結果中，會出現德國這個搜索結果。點擊該搜索結果，跳轉后的頁面如下：

在這個頁面中有我們需要的德國的國旗。但是，怎么知道該網頁的具體網址呢？換句話說，就是怎樣得到http://country.911cha.com/GER.html ？別擔心，在剛才出來的德國這個搜索結果中，我們查看其源代碼，不難發現，在HTML源代碼中，有我們想要的東西：

在源代碼中我們能看到“GER.html”，這就意味著，只要得到搜索的結果，我們可以分析HTML源碼來得到這個搜索結果的連接網址，然后在該連接網址中獲取該國的國旗。所以，在這個爬蟲中，最困難的地方在于，如何獲取搜索結果？即，得到提交表單后的結果，也就是POST方法提交后的響應結果。我們利用Fiddler來抓取該POST方法。

我們打開Fiddler, 同時重復上面的操作，可以得到該過程的HTTP請求，如下圖：

Fiddler幫助我們找到了剛才提交表單過程中的一個POST請求，具體分析該POST請求，其請求頭部如下：

其請求體如下：

為了驗證Fiddler抓取的POST請求，我們需要要Postman來進行測試。在用Postman進行測試前，我們需要問：是否所有請求頭部中的數據都需要呢？答案是否定的，實際上，我們只需要User-Agent和Content-Type即可。在Postman中，先輸入請求頭部，如下：

再輸入請求體，如下：

點擊”SEND”按鈕，得到響應后的結果，如下：

OK，這樣我們就完成了Postman的測試。

爬蟲

于是，借助這些信息來完成request.post()的提交，同時，借助BeautifulSoup來解析網頁，得到國家的國旗下載地址并完成下載。具體的Python代碼如下：# -*- coding: utf-8 -*-import urllib.requestimport requestsfrom bs4 import BeautifulSoup# 函數：下載指定國家的國旗# 參數： country: 國家def download_flag(country): # 請求頭部 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', } # POST數據 data = {'q': country} # 網址 url = 'http://country.911cha.com/' # 提交POST請求 r = requests.post(url=url, data=data, headers=headers) # 利用BeautifulSoup解析網頁 content = BeautifulSoup(r.text, 'lxml') # 得到搜索結果(國家)所在網頁地址 country = content.find_all('div', class_='mcon')[1]('ul')[0]('li')[0]('a')[0] link = country['href'] #利用GET方法得到搜索國家的網頁 r2 = requests.get(url='%s/%s'%(url, link)) # 利用BeautifulSoup解析網頁 content = BeautifulSoup(r2.text, 'lxml') # 獲取網頁中的圖片 images = content.find_all('img') # 獲取指定國家的國旗名稱及下載地址 for image in images: if 'alt' in image.attrs: if '國旗' in image['alt']: name = image['alt'].replace('國旗', '') link = image['src'] # 下載國旗圖片 urllib.request.urlretrieve('%s/%s'%(url, link), 'E://flag/%s.gif'%name)def main(): # countries.txt儲存各個國家的名稱 file = 'E://flag/countries.txt' with open(file, 'r') as f: counties = [_.strip() for _ in f.readlines()] # 遍歷各個國家，下載國旗 for country in counties: try: download_flag(country) print('%s國旗下載成功！'%country) except: print('%s國旗下載失敗~'%country)main()

其中countries.txt的部分內容如下：

運行上述Python代碼，我們發現在E盤的flag文件夾下，已經下載了各個國家的國旗，如下：

這樣我們就完成了本次爬蟲的任務！

總結

本次爬蟲利用Python的requests模塊的POST方法，來模擬網頁中的表單提交。為了得到表單提交過程中的HTTP請求，即請求頭部和請求體，我們利用了抓包工具Fiddler，而Postman的作用是為了幫助我們驗證Fiddler抓取的POST請求是否正是我們需要的POST請求，同時也能驗證請求頭部及請求體。

雖然整個爬蟲的過程寫的不免麻煩，但是操作的思路應該是清晰的，再說，熟能生巧，多用幾次，也就能熟悉整個流程了。本次爬蟲只是作為整個流程的一個簡單展示，讀者可以在此基礎上，去實現更為復雜的爬蟲，希望本次的分享能夠幫助到讀者。謝謝大家能讀到這兒，也歡迎大家交流~~

注意：本人現已開通兩個微信公眾號：因為Python(微信號為：python_math)以及輕松學會Python爬蟲(微信號為：easy_web_scrape)，歡迎大家關注哦~~

總結

以上是生活随笔為你收集整理的python怎么爬取Linux作业,Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗...的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：计算机组装与维护实习内容有那些,计算机组
下一篇： 4G内存怎么读取5G数据（python中

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python怎么爬取Linux作业,Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗...

總結