丑憨批的爬虫笔记3(实例)
生活随笔
收集整理的這篇文章主要介紹了
丑憨批的爬虫笔记3(实例)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.京東商品:
import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r.apparent_encodingreturn r.text[:1000] ///前1000字符except:return "121212" if __name__ == "__main__":url = 'https://miaosha.jd.com/#6468246'print(getHTMLText(url))2.亞馬遜商品(更換請求頭)
import requests r = requests.get('https://www.amazon.cn/dp/B01N34KSKC/ref=sr_1_1?keywords=waterpik+%E6%B4%81%E7%A2%A7&qid=1583747842&sr=8-1') r.status_codeapi造成網絡錯誤:反爬
看到爬蟲很忠實的告訴亞馬遜我是個爬蟲“ User-agent”
更改請求頭
實際代碼:
**import requests kv = {'user-agent': 'Mozilla/5.0'} url = 'https://www.amazon.cn/dp/B01N34KSKC/ref=sr_1_1?keywords=waterpik+%E6%B4%81%E7%A2%A7&qid=1583747842&sr=8-1' r = requests.get(url,kv) r.status_code r.request.headers**3.百度/360搜索關鍵詞提取
百度代碼
import requests kv = {'wd' : 'python' } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'} # ?是分隔符,s相當于調用搜索模塊 #url 會與kv自動拼接,而使用headers=headers更換整個請求頭 url = 'http://www.baidu.com/s' r = requests.get(url, kv, headers=headers) r.status_code r.request.url r.request.headers360代碼
import requests kv = {'q' : 'python' } headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36'} # ?是分隔符,s相當于調用搜索模塊 url = 'https://www.so.com/s' r = requests.get(url, params=kv, headers=headers) r.status_code r.request.url r.request.headers
4.網絡圖片的爬取與存儲
os 庫:新建目錄
正式代碼
5.IP地址歸屬地的自動查詢
很多我們在瀏覽器的交互操作,點擊什么的,都是通過鏈接實現的,所以最好挖掘下該api
summary
1.京東:get框架
2.亞馬遜:headers修改
3.百度/360:關鍵字提交,url拼接
4.網絡圖片爬取 :文件保存
5.IP查詢:接口使用,header修改高級版
總結
以上是生活随笔為你收集整理的丑憨批的爬虫笔记3(实例)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [NOIP2009普及]分数线划定 T2
- 下一篇: 丑憨批的html笔记