丑憨批的爬虫笔记3(实例)
生活随笔
收集整理的這篇文章主要介紹了
丑憨批的爬虫笔记3(实例)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
1.京東商品:
import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.text[:1000] ///前1000字符except:return "121212" if __name__ == "__main__":url = 'https://miaosha.jd.com/#6468246'print(getHTMLText(url))2.亞馬遜商品(更換請(qǐng)求頭)
import requests r = requests.get('https://www.amazon.cn/dp/B01N34KSKC/ref=sr_1_1?keywords=waterpik+%E6%B4%81%E7%A2%A7&qid=1583747842&sr=8-1') r.status_codeapi造成網(wǎng)絡(luò)錯(cuò)誤:反爬
看到爬蟲很忠實(shí)的告訴亞馬遜我是個(gè)爬蟲“ User-agent”
更改請(qǐng)求頭
實(shí)際代碼:
**import requests kv = {'user-agent': 'Mozilla/5.0'} url = 'https://www.amazon.cn/dp/B01N34KSKC/ref=sr_1_1?keywords=waterpik+%E6%B4%81%E7%A2%A7&qid=1583747842&sr=8-1' r = requests.get(url,kv) r.status_code r.request.headers**3.百度/360搜索關(guān)鍵詞提取
百度代碼
import requests kv = {'wd' : 'python' } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'} # ?是分隔符,s相當(dāng)于調(diào)用搜索模塊 #url 會(huì)與kv自動(dòng)拼接,而使用headers=headers更換整個(gè)請(qǐng)求頭 url = 'http://www.baidu.com/s' r = requests.get(url, kv, headers=headers) r.status_code r.request.url r.request.headers360代碼
import requests kv = {'q' : 'python' } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'} # ?是分隔符,s相當(dāng)于調(diào)用搜索模塊 url = 'https://www.so.com/s' r = requests.get(url, params=kv, headers=headers) r.status_code r.request.url r.request.headers
4.網(wǎng)絡(luò)圖片的爬取與存儲(chǔ)
os 庫(kù):新建目錄
正式代碼
5.IP地址歸屬地的自動(dòng)查詢
很多我們?cè)跒g覽器的交互操作,點(diǎn)擊什么的,都是通過(guò)鏈接實(shí)現(xiàn)的,所以最好挖掘下該api
summary
1.京東:get框架
2.亞馬遜:headers修改
3.百度/360:關(guān)鍵字提交,url拼接
4.網(wǎng)絡(luò)圖片爬取 :文件保存
5.IP查詢:接口使用,header修改高級(jí)版
總結(jié)
以上是生活随笔為你收集整理的丑憨批的爬虫笔记3(实例)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [NOIP2009普及]分数线划定 T2
- 下一篇: 丑憨批的html笔记