日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python 乡镇轮廓 高德_Python爬虫终极解决方案-以获取高德地图小区边界为例

發(fā)布時(shí)間:2023/12/18 python 126 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 乡镇轮廓 高德_Python爬虫终极解决方案-以获取高德地图小区边界为例 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

0 前言

本文工具使用anaconda3.5+chrome

一般爬蟲分為非可視化爬蟲和可視化爬蟲。

①非可視化爬蟲:通過抓包獲取數(shù)據(jù)接口,使用requests、urlib2、urlib3直接請求頁面源碼或異步加載的JSON數(shù)據(jù)。

②可視化爬蟲:使用selenium工具模擬人為操作,獲取頁面源碼解析數(shù)據(jù)。

1 高德地圖

最近在研究高德地圖小區(qū)邊界經(jīng)緯度坐標(biāo)穿獲取的問題,本來想先嘗試使用requests,發(fā)現(xiàn)高德的反爬措施比一般網(wǎng)站都要嚴(yán),單獨(dú)通過非可視化爬蟲請求基本上無法獲取到想要的數(shù)據(jù)。

抓包

打開高德地圖,在搜索框輸入一個(gè)小區(qū),如重慶大學(xué)B區(qū),如下圖所示。

我們發(fā)現(xiàn)了是通過這個(gè)接口https://ditu.amap.com/detail/get/detail?id=B0017819Q6 GET方法獲取到的異步JSON數(shù)據(jù),有我們想要的經(jīng)緯度坐標(biāo)串。但是想要自動獲取有兩個(gè)前提條件,一是需要知道興趣面的ID,如上面的重慶大學(xué)B區(qū)ID B0017819Q6;你可以嘗試只請求上述連接,你會發(fā)現(xiàn)很快就會失效, 即使攜帶現(xiàn)有的cookie也不一定能請求成功。因此二是如何能保證高德地圖能返回正常的數(shù)據(jù)。

2 準(zhǔn)備工作

SELENIUM

考慮到獲取小區(qū)邊界的事是一勞永逸,數(shù)據(jù)總量不大,可以降低請求頻率。直接使用selenium工具模擬人為操作。

① 安裝selenium

#安裝selenium

pip install selenium

② 下載chromedriver

ChromeDriver倉庫下載對應(yīng)的版本,chrome版本在瀏覽器network任一請求中請求頭USER-AGENT中可以查看。

然后將chromedriver.exe拷貝至anaconda安裝目錄下。

browsermob-proxy

BrowserMob Proxy,簡稱 BMP,它是一個(gè) HTTP 代理服務(wù),利用它我們可以截獲 HTTP 請求和響應(yīng)內(nèi)容,另外還可以把 Performance data 輸出成一個(gè) HAR 文件。

① 下載地址,下載完后解壓。

② browsermobproxy為Java開發(fā)的代理工具,因此還需要安裝Java壞境,此處略過。

3 DEMO

代碼

import random

import re

import time

from browsermobproxy import Server

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

server = Server(r'C:\Users\black\Downloads\browsermob-proxy-2.1.4-bin\browsermob-proxy-2.1.4\bin\browsermob-proxy.bat')

server.start()

proxy = server.create_proxy()

chrome_options = Options()

chrome_options.add_argument('--proxy-server={0}'.format(proxy.proxy)) # 加代理抓包

chrome_options.add_argument('--ignore-certificate-errors') # 忽略無效證書的問題

driver = webdriver.Chrome(chrome_options=chrome_options)

base_url = 'https://www.amap.com/'

proxy.new_har("amap", options={'captureHeaders': True, 'captureContent': True})

driver.get(base_url)

input = driver.find_element_by_id('searchipt') #獲取輸入框

input.clear() #清空輸入框

input.send_keys("重慶大學(xué)B區(qū)") #輸入關(guān)鍵詞

time.sleep(random.randint(2, 5))

select = driver.find_elements_by_class_name("autocomplete-suggestion") #獲取聯(lián)想詞框

time.sleep(random.randint(2, 5))

select[0].click() #點(diǎn)擊出來的第一個(gè)聯(lián)想詞

current_url = driver.current_url

time.sleep(5)

result = proxy.har

print(result)

hhh = re.findall('(\d{3}\.\d{6},\d{2}\.\d{6}_)', str(result)) #提取坐標(biāo)串

print(hhh)

server.stop()

driver.quit()

打印出來的result如下圖所示:

通過第一張圖片的坐標(biāo)串在上述結(jié)果中搜索,發(fā)現(xiàn)只有一個(gè)坐標(biāo)串,每個(gè)經(jīng)緯度之間有“_”隔開。而且點(diǎn)狀數(shù)據(jù)是不存在該形式坐標(biāo)串的。

解析的坐標(biāo)串列表組合一下就OK了。

說明

① 必須要添加chrome_options.add_argument('--ignore-certificate-errors') 參數(shù),否則每請求一個(gè)網(wǎng)頁,都會提示“您的鏈接不是私密鏈接”。

② 可以通過請求的url篩選出請求明細(xì),用解析json的方式逐層獲取坐標(biāo)串,但這里選擇用正則表達(dá)式去提取坐標(biāo)串更為簡單。

4 總結(jié)

爬蟲這東西只要顯示在瀏覽器上的東西基本都是可以抓取的(但是要注意尺度,不要給別人服務(wù)器太大壓力),但是往往有非常的反爬措施,結(jié)合fiddler4這種代理抓包軟件聯(lián)想應(yīng)該能找到一個(gè)直接將chrome瀏覽器所有的請求記錄全部導(dǎo)出來的方法,可以解決幾乎所有的數(shù)據(jù)獲取問題。

總結(jié)

以上是生活随笔為你收集整理的python 乡镇轮廓 高德_Python爬虫终极解决方案-以获取高德地图小区边界为例的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。