日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

一篇文章教你如何使用python爬虫

發布時間:2025/1/21 python 61 豆豆
生活随笔 收集整理的這篇文章主要介紹了 一篇文章教你如何使用python爬虫 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、什么是爬蟲

?通過編寫程序,模擬瀏覽器上網,然后讓其去互聯網上抓取數據的過程。

1、爬蟲帶來的風險可以體現在如下2方面:

  • ?爬蟲干擾了被訪問網站的正常運營
  • 爬蟲抓取了收到法律保護的特定類型的數據或信息

2、爬蟲在使用場景中的分類

  • 通用爬蟲: 抓取系統重要組成部分。抓取的是一整張頁面數據。
  • ?聚焦爬蟲: 是建立在通用爬蟲的基礎之上。抓取的是頁面中特定的局部內容。
  • ?增量式爬蟲: 檢測網站中數據更新的情況。只會抓取網站中最新更新出來的數據。

3、反爬機制

  • 門戶網站,可以通過制定相應的策略或者技術手段,防止爬蟲程序進行網站數據的爬取。

4、反反爬策略

  • 爬蟲程序可以通過制定相關的策略或者技術手段,破解門戶網站中具備的反爬機制,從而可以獲取門戶網站中

二、python爬蟲request模塊

1、requests模塊

  • python中原生的一款基于網絡請求的模塊,功能非常強大,簡單便捷,效率極高。 作用:模擬瀏覽器發請求。

2、request模塊如何使用

  • 指定url
  • UA偽裝
  • 請求參數的處理
  • ?發起請求
  • ?獲取響應數據
  • 持久化存儲

三、爬蟲實戰

需求:爬取肯德基餐廳查詢http://www.kfc.com.cn/kfccda/index.aspx中指定地點的餐廳數據

import requests import json# 爬取kfc門店地址 # 爬取url地址 url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'# UA偽裝 header = {'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36' } json_list = [] # 輸入參數 kw = input("enter the keywords:") # 組裝參數 for page in range(1,7):page = str(page)para = {'cname': '','pid': '','keyword': kw,'pageIndex': page,'pageSize': '10'}# 發送post請求obj = requests.post(url=url,params=para,headers=header).json()json_list.append(obj)#持久化數據 fileName = "address.json" with open(fileName,'w',encoding="utf-8") as fp:json.dump(json_list,fp=fp,ensure_ascii=False) print("over")

代碼詳細地址為:kfc爬取門店代碼

總結

以上是生活随笔為你收集整理的一篇文章教你如何使用python爬虫的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。