當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

丑憨批的爬虫笔记3（实例）

發(fā)布時(shí)間：2024/10/8 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了丑憨批的爬虫笔记3（实例）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.京東商品：

import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.text[:1000] ///前1000字符except:return "121212" if __name__ == "__main__":url = 'https://miaosha.jd.com/#6468246'print(getHTMLText(url))

2.亞馬遜商品（更換請(qǐng)求頭）

import requests r = requests.get('https://www.amazon.cn/dp/B01N34KSKC/ref=sr_1_1?keywords=waterpik+%E6%B4%81%E7%A2%A7&qid=1583747842&sr=8-1') r.status_code

api造成網(wǎng)絡(luò)錯(cuò)誤：反爬

r.request.headers

看到爬蟲很忠實(shí)的告訴亞馬遜我是個(gè)爬蟲“ User-agent”

更改請(qǐng)求頭

kv = {'user-agent':'Mozilla/5.0' }

實(shí)際代碼：

**import requests kv = {'user-agent': 'Mozilla/5.0'} url = 'https://www.amazon.cn/dp/B01N34KSKC/ref=sr_1_1?keywords=waterpik+%E6%B4%81%E7%A2%A7&qid=1583747842&sr=8-1' r = requests.get(url,kv) r.status_code r.request.headers**

3.百度/360搜索關(guān)鍵詞提取

百度代碼

import requests kv = {'wd' : 'python' } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'} # ?是分隔符，s相當(dāng)于調(diào)用搜索模塊 #url 會(huì)與kv自動(dòng)拼接，而使用headers=headers更換整個(gè)請(qǐng)求頭 url = 'http://www.baidu.com/s' r = requests.get(url, kv, headers=headers) r.status_code r.request.url r.request.headers

360代碼

import requests kv = {'q' : 'python' } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'} # ?是分隔符，s相當(dāng)于調(diào)用搜索模塊 url = 'https://www.so.com/s' r = requests.get(url, params=kv, headers=headers) r.status_code r.request.url r.request.headers

4.網(wǎng)絡(luò)圖片的爬取與存儲(chǔ)

import requestspath ="D:/abc.jpg" url = "https://img-blog.csdn.net/20170613110251879?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdzQxMDU4OTUwMg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" r=requests.get(url) r.status_code with open(path,'wb') as f:f.write(r.content)f.close()#打開文件，并標(biāo)為f，寫到文件中，r.content表示文件的二進(jìn)制形式

os 庫(kù)：新建目錄
正式代碼

import requests import os url = "https://img-blog.csdn.net/20170613110251879?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdzQxMDU4OTUwMg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" root ="D://pics//" path = root +url.split('/')[-1]#以 / 為分割符保留最后一段。 try:if not os.path.exists(root):#當(dāng)前根目錄是否存在os.mkdir(root)if not os.path.exists(path):#當(dāng)前文件是否存在r=requests.get(url)with open(path,'wb') as f:f.write(r.content)f.closeprint("保存成功："+url)else:print("保存失敗，文件已存在") except:print("爬取失敗")

5.IP地址歸屬地的自動(dòng)查詢

import requests url = "http://m.ip138.com/ip.asp?ip=" headers={"user-agent":"Mozilla/5.0"#反扒了，得改headers } r=requests.get(url+'202.204.80.112',headers=headers) r.status_code r.text[-500:]

很多我們?cè)跒g覽器的交互操作，點(diǎn)擊什么的，都是通過(guò)鏈接實(shí)現(xiàn)的，所以最好挖掘下該api
summary
1.京東：get框架
2.亞馬遜：headers修改
3.百度/360：關(guān)鍵字提交，url拼接
4.網(wǎng)絡(luò)圖片爬取：文件保存
5.IP查詢：接口使用，header修改高級(jí)版

總結(jié)

以上是生活随笔為你收集整理的丑憨批的爬虫笔记3（实例）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： [NOIP2009普及]分数线划定 T2
下一篇：丑憨批的html笔记