日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

Py爬虫北京租房价格数据

發(fā)布時(shí)間:2024/3/12 编程问答 49 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Py爬虫北京租房价格数据 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

記錄自己的練習(xí)第一條!

最近北京的租房市場(chǎng)掀起了軒然大波,作為即將租房的人就順便練手下爬蟲北京的租房?jī)r(jià)格。爬房?jī)r(jià)已經(jīng)有很多人在做了,但我還是分享些不同思路給大家。

首先是數(shù)據(jù)來(lái)源的網(wǎng)站,目前比較火的鏈家、自如、蛋殼的都可以。

仔細(xì)看了下這三家網(wǎng)站,自如在價(jià)格頁(yè)面處用的是圖的顯示,鏈家和蛋殼都是字符,如若要爬自如就需要用圖像識(shí)別的庫(kù),當(dāng)然數(shù)字只有0-9,不需要圖像識(shí)別那么高級(jí)只需要匹配0-9與頁(yè)面的background-position。

如-240px對(duì)應(yīng)數(shù)字0?

background-position:-240px ----0 background-position:-30px ----1

初級(jí)爬蟲當(dāng)然是竟可能簡(jiǎn)單了,所以自如排除。鏈家和蛋殼在網(wǎng)頁(yè)結(jié)構(gòu)上差別不大,不過(guò)蛋殼不顯示頁(yè)面數(shù)量,你不知道什么時(shí)候是最后一頁(yè),這樣很容易出錯(cuò)

鏈家稍微人性 告訴你北京一共有的數(shù)量,以及有多少頁(yè)面是知道的,最有趣的是它提供了一個(gè)有多少人看過(guò)此房的因素,這是其他家網(wǎng)站沒(méi)有的,這點(diǎn)可以作為后續(xù)數(shù)據(jù)分析的亮點(diǎn)。

?

進(jìn)入正題開始爬蟲,鑒于數(shù)據(jù)比較少不超過(guò)一萬(wàn),沒(méi)必要在去配置scrapy框架的,如果你想也可啊。

這里我選的維度是:標(biāo)題、價(jià)格、戶型、面積、瀏覽熱度。(做完我才發(fā)現(xiàn)其實(shí)房齡這個(gè)參數(shù)也很有趣,有需要的朋友可以加這個(gè)分析)。

流程思路:

  • 獲取北京租房頁(yè)面(https://bj.lianjia.com/zufang/)下,分區(qū)的連接,如昌平,朝陽(yáng)。。。。。。

  • 獲取分區(qū)的最大頁(yè)數(shù),構(gòu)造每頁(yè)的連接地址

  • 解析每一頁(yè),這里我用的是XPATH沒(méi)有用煲湯soup,谷歌瀏覽器的xpath工具十分便捷,開發(fā)工具定位所需要的網(wǎng)頁(yè)元素,右鍵即可復(fù)制出xpath

  • 最后保存到CSV

  • 詳細(xì)代碼及說(shuō)明:

    import requests #可以設(shè)置時(shí)間不要訪問(wèn)過(guò)于頻繁,或者做一個(gè)代理,博主找了幾個(gè)都不太穩(wěn)定,在數(shù)據(jù)不大的情況下不偽裝ip那就用time訪問(wèn)慢一丟丟了 import time from lxml import etree #json在解析當(dāng)前頁(yè)面有多少房子時(shí)用,每個(gè)區(qū)的房源最后一頁(yè)數(shù)量是不定的 import json import csv #獲取request頁(yè)面,偽裝瀏覽器 def response(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36'}return requests.get(url, headers=headers) #獲取頁(yè)面內(nèi)的所有需要分區(qū)鏈接 def get_area(url):content=etree.HTML(response(url).text) areas_name=content.xpath('//*[@id="filter-options"]/dl[1]/dd/div/a/text()')areas_url=content.xpath('//*[@id="filter-options"]/dl[1]/dd/div/a/@href')for i in range(1,len(areas_name)): #已經(jīng)是0不算了,定了幾個(gè)區(qū)area_name=areas_name[i]area_url='https://bj.lianjia.com'+areas_url[i]get_detailurl(area_name,area_url)#由頁(yè)數(shù)計(jì)算頁(yè)的鏈接 def get_detailurl(area_name,area_url):content=etree.HTML(response(area_url).text) #最后一頁(yè)可能不是滿數(shù)量pages =json.loads(content.xpath('/html/body/div[4]/div[3]/div[2]/div[2]/div[2]/@page-data')[0])['totalPage']for page in range(1,pages+1):url=area_url+'pg'+str(page)print('當(dāng)前為'+area_name+','+str(page)+'of'+str(pages),url)get_house_info(area_name,url)#解析某頁(yè)的信息 def get_house_info(area,url):time.sleep(1) #經(jīng)常用try防止出錯(cuò)哦try:content=etree.HTML(response(url).text)maxdital=len(content.xpath('//*[@id="house-lst"]/li'))with open('租房.csv','a',encoding='utf-8') as f:for i in range(1,maxdital+1): #這里就要用xpath獲取了,每個(gè)房源變化的就是li[編號(hào)]title=content.xpath('//*[@id="house-lst"]/li['+str(i)+']/div[2]/h2/a/text()')[0]price=content.xpath('//*[@id="house-lst"]/li['+str(i)+']/div[2]/div[2]/div[1]/span/text()')[0]room_type=content.xpath('//*[@id="house-lst"]/li['+str(i)+']/div[2]/div[1]/div[1]/span[1]/span/text()')[0]square=str(content.xpath('//*[@id="house-lst"]/li['+str(i)+']/div[2]/div[1]/div[1]/span[2]/text()')[0])[:-4]people_flow=content.xpath('//*[@id="house-lst"]/li['+str(i)+']/div[2]/div[3]/div/div[1]/span/text()') #寫入文件f.write("{},{},{},{},{},{}\n".format(area,title,price,room_type,square,people_flow))#print('當(dāng)前為第'+str(i)+'of30')except Exception as e:print( ' connecting error, retrying.....')time.sleep(10)return get_house_info(area, url)def main():url = 'https://bj.lianjia.com/zufang'get_area(url)if __name__ == '__main__':main()

    爬完的結(jié)果:

    下一步就是數(shù)據(jù)分析了,待我這兩天看完pandas

    總結(jié)

    以上是生活随笔為你收集整理的Py爬虫北京租房价格数据的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。