日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

丑憨批的爬虫笔记3(实例)

發(fā)布時(shí)間:2024/10/8 编程问答 28 豆豆
生活随笔 收集整理的這篇文章主要介紹了 丑憨批的爬虫笔记3(实例) 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1.京東商品:

import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.text[:1000] ///1000字符except:return "121212" if __name__ == "__main__":url = 'https://miaosha.jd.com/#6468246'print(getHTMLText(url))

2.亞馬遜商品(更換請(qǐng)求頭)

import requests r = requests.get('https://www.amazon.cn/dp/B01N34KSKC/ref=sr_1_1?keywords=waterpik+%E6%B4%81%E7%A2%A7&qid=1583747842&sr=8-1') r.status_code

api造成網(wǎng)絡(luò)錯(cuò)誤:反爬

r.request.headers

看到爬蟲很忠實(shí)的告訴亞馬遜我是個(gè)爬蟲“ User-agent”

更改請(qǐng)求頭

kv = {'user-agent':'Mozilla/5.0' }

實(shí)際代碼:

**import requests kv = {'user-agent': 'Mozilla/5.0'} url = 'https://www.amazon.cn/dp/B01N34KSKC/ref=sr_1_1?keywords=waterpik+%E6%B4%81%E7%A2%A7&qid=1583747842&sr=8-1' r = requests.get(url,kv) r.status_code r.request.headers**

3.百度/360搜索關(guān)鍵詞提取

百度代碼

import requests kv = {'wd' : 'python' } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'} # ?是分隔符,s相當(dāng)于調(diào)用搜索模塊 #url 會(huì)與kv自動(dòng)拼接,而使用headers=headers更換整個(gè)請(qǐng)求頭 url = 'http://www.baidu.com/s' r = requests.get(url, kv, headers=headers) r.status_code r.request.url r.request.headers

360代碼

import requests kv = {'q' : 'python' } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'} # ?是分隔符,s相當(dāng)于調(diào)用搜索模塊 url = 'https://www.so.com/s' r = requests.get(url, params=kv, headers=headers) r.status_code r.request.url r.request.headers




4.網(wǎng)絡(luò)圖片的爬取與存儲(chǔ)

import requestspath ="D:/abc.jpg" url = "https://img-blog.csdn.net/20170613110251879?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdzQxMDU4OTUwMg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" r=requests.get(url) r.status_code with open(path,'wb') as f:f.write(r.content)f.close()#打開文件,并標(biāo)為f,寫到文件中 ,r.content表示文件的二進(jìn)制形式

os 庫(kù):新建目錄
正式代碼

import requests import os url = "https://img-blog.csdn.net/20170613110251879?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdzQxMDU4OTUwMg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" root ="D://pics//" path = root +url.split('/')[-1]#以 / 為分割符保留最后一段。 try:if not os.path.exists(root):#當(dāng)前根目錄是否存在os.mkdir(root)if not os.path.exists(path):#當(dāng)前文件是否存在r=requests.get(url)with open(path,'wb') as f:f.write(r.content)f.closeprint("保存成功:"+url)else:print("保存失敗,文件已存在") except:print("爬取失敗")


5.IP地址歸屬地的自動(dòng)查詢

import requests url = "http://m.ip138.com/ip.asp?ip=" headers={"user-agent":"Mozilla/5.0"#反扒了,得改headers } r=requests.get(url+'202.204.80.112',headers=headers) r.status_code r.text[-500:]


很多我們?cè)跒g覽器的交互操作,點(diǎn)擊什么的,都是通過(guò)鏈接實(shí)現(xiàn)的,所以最好挖掘下該api
summary
1.京東:get框架
2.亞馬遜:headers修改
3.百度/360:關(guān)鍵字提交,url拼接
4.網(wǎng)絡(luò)圖片爬取 :文件保存
5.IP查詢:接口使用,header修改高級(jí)版

總結(jié)

以上是生活随笔為你收集整理的丑憨批的爬虫笔记3(实例)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。