日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

python 爬取贝壳网小区名称_如何使用 python 爬取全国小区名称

發(fā)布時(shí)間:2024/9/27 python 62 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 爬取贝壳网小区名称_如何使用 python 爬取全国小区名称 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

前言

筆者在做一個(gè) NLPNLPNLP 項(xiàng)目時(shí),需要識(shí)別小區(qū)名,因此想要查詢網(wǎng)上是否有相關(guān)的數(shù)據(jù)集。經(jīng)過一番搜索后一無所獲…從而決定自己來爬取這份數(shù)據(jù)。

由于爬取網(wǎng)站的內(nèi)容信息之后可能會(huì)發(fā)生變更,因此此處給出具體的爬蟲思路,便于應(yīng)對之后的網(wǎng)站結(jié)構(gòu)變更。

方法

1. 爬取網(wǎng)站的確定

既然是爬蟲,那首先就需要確定爬取網(wǎng)站。這時(shí)候就需要思考哪些網(wǎng)站可能會(huì)涉及小區(qū)名字?

國家統(tǒng)計(jì)網(wǎng)?經(jīng)過一番搜索,沒找到…

房屋中介網(wǎng)?√

因此我們可以選取比較知名的房屋中介網(wǎng)來進(jìn)行小區(qū)名爬取,此處選取的網(wǎng)站是鏈家,原因是該網(wǎng)站有專門的小區(qū)板塊。鏈家

新龍城

因此我們增加一行代碼來提取 imgimgimg 標(biāo)簽中的信息并輸出。

text_list = soup.find_all('img', class_="lj-lazy")

for item in text_list:

print(item['alt'])

# 輸出結(jié)果:

# 首開康乃馨城

# 農(nóng)光里

# 理想家園

# 華貿(mào)城

# 住欣家園

# 遠(yuǎn)洋山水

# 旗勝家園

# 小南莊社區(qū)

# ...

第三步,構(gòu)造網(wǎng)站 urlurlurl

首先我們考慮頁面如何構(gòu)造。這個(gè)難度不大,我們只需要 forforfor 一遍頁面編號即可。這個(gè)網(wǎng)站有一個(gè)特點(diǎn)在于,網(wǎng)站上可能只顯示了 303030 頁,但是實(shí)際上可能有 100100100 頁…并且假如第 100100100 頁是最后一頁,那么第 101101101 頁的內(nèi)容將與第 100100100 頁保持一致。因此我們根據(jù)當(dāng)前網(wǎng)頁是否與上一個(gè)網(wǎng)頁一致,來判斷當(dāng)前網(wǎng)站爬取是否結(jié)束。

def get_housing_estate():

fo = open("data/housing_estate.txt", "w")

# 設(shè)置初始值

last = BeautifulSoup(requests.get(url.format("wz", 1)).text, 'lxml').find_all('img', class_="lj-lazy")

for city in address_list:

for page in range(1, 500):

print(city, page)

# 創(chuàng)建bs對象

try:

response = requests.get(url.format(city, page)).text

except:

# 頁面出錯(cuò),則更換下一個(gè)城市

break

soup = BeautifulSoup(response, 'lxml') # 使用到了lxml解析庫

text_list = soup.find_all('img', class_="lj-lazy")

# 出現(xiàn)重復(fù)頁面

if text_list == last:

break

last = text_list

# 寫入文件

for item in text_list:

fo.write(item['alt'] + 'n')

接下來就要考慮城市簡寫如何爬取了。我們可以根據(jù)這個(gè)網(wǎng)站中提供的城市分類來對網(wǎng)站進(jìn)行爬取。

總結(jié)

以上是生活随笔為你收集整理的python 爬取贝壳网小区名称_如何使用 python 爬取全国小区名称的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 成人黄色国产 | 久久一区二区视频 | 亚洲图片视频在线 | 亚洲精品777 | 久久精品国产大片免费观看 | www日本www| 亚洲一区二区视频在线播放 | 久久wwww | 色人阁五月 | 欧美高跟鞋交xxxxxhd | 国产区一区二区三 | 色五婷婷 | 欧美乱大交xxxxx春色视频 | 黄色片视频免费在线观看 | 免费又黄又爽又猛大片午夜 | 国产v片在线观看 | 久久免费一级片 | 亚洲成人免费影院 | 天天色影院 | 一区久久久 | 韩国无码av片在线观看网站 | 国产男人天堂 | 91原创国产| 涩涩屋视频 | 电影91久久久 | 青青青手机视频在线观看 | 天堂网在线视频 | 国产正在播放 | 免费看成人啪啪 | 天天舔天天 | 米奇狠狠干 | 自拍偷拍欧美激情 | 亚洲免费在线视频 | 久久久久久久久久一区二区 | 校园春色综合 | 无码人妻一区二区三区精品视频 | 久久久久99精品成人片 | 天堂在线免费观看 | 69精品丰满人妻无码视频a片 | 麻豆传媒在线播放 | 国产系列在线观看 | 亚洲成人动漫在线观看 | 成人片黄网站久久久免费 | 无码一区二区三区在线观看 | 天天看夜夜爽 | 亚洲国产美女视频 | 人成在线免费视频 | 亚洲日批视频 | 国产真实的和子乱拍在线观看 | 乱子伦一区 | 欧美激情在线观看视频 | 久久精品二区 | 欧美在线一卡 | 天天干天天爽天天射 | 高h文在线| 成年人看的免费视频 | 成人高潮片免费网站 | 香蕉婷婷| 深夜在线免费视频 | 日本黄色三级视频 | 免费日韩精品 | 国产鲁鲁视频在线观看免费 | 日韩性网站 | 91性高潮久久久久久久 | 日本在线二区 | 男人桶进美女尿囗 | 日本特黄色片 | 欧美日韩精品一区二区三区视频播放 | 性欧美日本 | 国产精品黄色av | 一级国产片 | 欧美丰满熟妇bbbbbb | 97香蕉超级碰碰久久免费软件 | 美女网站视频在线观看 | 亚洲精品自拍视频 | 一区二区三区视频在线观看 | 国产精品一品二品 | 在线不卡日韩 | 肥老熟妇伦子伦456视频 | 一本久久a精品一合区久久久 | 日日摸日日碰夜夜爽无码 | 一级在线免费视频 | 素人一区| 成人一区二区三区在线观看 | 国产又黄又爽又色 | 国产大片中文字幕 | 波多野结衣啪啪 | 天堂视频在线观看免费 | 国产一区二区三区在线观看视频 | 国产激情成人 | 变态 另类 国产 亚洲 | 男插女av| 国产精品第十页 | 国产成人综合在线 | 在线视频区 | 亚洲一区二区蜜桃 | 亚洲人视频在线观看 | 国产三级三级三级三级三级 | 欧美日本在线视频 |