python 乡镇轮廓 高德_Python爬虫终极解决方案-以获取高德地图小区边界为例
0 前言
本文工具使用anaconda3.5+chrome
一般爬蟲分為非可視化爬蟲和可視化爬蟲。
①非可視化爬蟲:通過抓包獲取數據接口,使用requests、urlib2、urlib3直接請求頁面源碼或異步加載的JSON數據。
②可視化爬蟲:使用selenium工具模擬人為操作,獲取頁面源碼解析數據。
1 高德地圖
最近在研究高德地圖小區邊界經緯度坐標穿獲取的問題,本來想先嘗試使用requests,發現高德的反爬措施比一般網站都要嚴,單獨通過非可視化爬蟲請求基本上無法獲取到想要的數據。
抓包
打開高德地圖,在搜索框輸入一個小區,如重慶大學B區,如下圖所示。
我們發現了是通過這個接口https://ditu.amap.com/detail/get/detail?id=B0017819Q6 GET方法獲取到的異步JSON數據,有我們想要的經緯度坐標串。但是想要自動獲取有兩個前提條件,一是需要知道興趣面的ID,如上面的重慶大學B區ID B0017819Q6;你可以嘗試只請求上述連接,你會發現很快就會失效, 即使攜帶現有的cookie也不一定能請求成功。因此二是如何能保證高德地圖能返回正常的數據。
2 準備工作
SELENIUM
考慮到獲取小區邊界的事是一勞永逸,數據總量不大,可以降低請求頻率。直接使用selenium工具模擬人為操作。
① 安裝selenium
#安裝selenium
pip install selenium
② 下載chromedriver
ChromeDriver倉庫下載對應的版本,chrome版本在瀏覽器network任一請求中請求頭USER-AGENT中可以查看。
然后將chromedriver.exe拷貝至anaconda安裝目錄下。
browsermob-proxy
BrowserMob Proxy,簡稱 BMP,它是一個 HTTP 代理服務,利用它我們可以截獲 HTTP 請求和響應內容,另外還可以把 Performance data 輸出成一個 HAR 文件。
① 下載地址,下載完后解壓。
② browsermobproxy為Java開發的代理工具,因此還需要安裝Java壞境,此處略過。
3 DEMO
代碼
import random
import re
import time
from browsermobproxy import Server
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
server = Server(r'C:\Users\black\Downloads\browsermob-proxy-2.1.4-bin\browsermob-proxy-2.1.4\bin\browsermob-proxy.bat')
server.start()
proxy = server.create_proxy()
chrome_options = Options()
chrome_options.add_argument('--proxy-server={0}'.format(proxy.proxy)) # 加代理抓包
chrome_options.add_argument('--ignore-certificate-errors') # 忽略無效證書的問題
driver = webdriver.Chrome(chrome_options=chrome_options)
base_url = 'https://www.amap.com/'
proxy.new_har("amap", options={'captureHeaders': True, 'captureContent': True})
driver.get(base_url)
input = driver.find_element_by_id('searchipt') #獲取輸入框
input.clear() #清空輸入框
input.send_keys("重慶大學B區") #輸入關鍵詞
time.sleep(random.randint(2, 5))
select = driver.find_elements_by_class_name("autocomplete-suggestion") #獲取聯想詞框
time.sleep(random.randint(2, 5))
select[0].click() #點擊出來的第一個聯想詞
current_url = driver.current_url
time.sleep(5)
result = proxy.har
print(result)
hhh = re.findall('(\d{3}\.\d{6},\d{2}\.\d{6}_)', str(result)) #提取坐標串
print(hhh)
server.stop()
driver.quit()
打印出來的result如下圖所示:
通過第一張圖片的坐標串在上述結果中搜索,發現只有一個坐標串,每個經緯度之間有“_”隔開。而且點狀數據是不存在該形式坐標串的。
解析的坐標串列表組合一下就OK了。
說明
① 必須要添加chrome_options.add_argument('--ignore-certificate-errors') 參數,否則每請求一個網頁,都會提示“您的鏈接不是私密鏈接”。
② 可以通過請求的url篩選出請求明細,用解析json的方式逐層獲取坐標串,但這里選擇用正則表達式去提取坐標串更為簡單。
4 總結
爬蟲這東西只要顯示在瀏覽器上的東西基本都是可以抓取的(但是要注意尺度,不要給別人服務器太大壓力),但是往往有非常的反爬措施,結合fiddler4這種代理抓包軟件聯想應該能找到一個直接將chrome瀏覽器所有的請求記錄全部導出來的方法,可以解決幾乎所有的數據獲取問題。
總結
以上是生活随笔為你收集整理的python 乡镇轮廓 高德_Python爬虫终极解决方案-以获取高德地图小区边界为例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 找工作,还是找户口?
- 下一篇: python调用virustota接口a