日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

Python爬取链家二手房数据——重庆地区

發布時間:2023/12/13 综合教程 28 生活家
生活随笔 收集整理的這篇文章主要介紹了 Python爬取链家二手房数据——重庆地区 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近在學習數據分析的相關知識,打算找一份數據做訓練,于是就打算用Python爬取鏈家在重慶地區的二手房數據。

鏈家的頁面如下:

爬取代碼如下:

import requests, json, time
from bs4 import BeautifulSoup
import re, csv
def parse_one_page(url):
    headers={
      'user-agent':'Mozilla/5.0'
    }
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'lxml')
    results = soup.find_all(class_="clear LOGCLICKDATA")
    
    for item in results: 
        output = []
        # 從url中獲得區域
        output.append(url.split('/')[-3]) 
        
        # 獲得戶型、面積、朝向等信息,有無電梯的信息可能會有缺失,數據清理可以很方便的處理
        info1 = item.find('div', 'houseInfo').text.replace(' ', '').split('|')
        for t in info1:
            output.append(t)
            
        # 獲得總價
        output.append(item.find('div', 'totalPrice').text)
        
        # 獲得年份信息,如果沒有就為空值
        info2 = item.find('div', 'positionInfo').text.replace(' ', '')
        if info2.find('年') != -1:
            pos = info2.find('年')
            output.append(info2[pos-4:pos])
        else:
            output.append(' ')
        
        # 獲得單價
        output.append(item.find('div', 'unitPrice').text)
        #print(output)
        write_to_file(output)

def write_to_file(content):
    # 參數newline保證輸出到csv后沒有空行
    with open('data.csv', 'a', newline='') as csvfile:
        writer = csv.writer(csvfile)
        #writer.writerow(['Region', 'Garden', 'Layout', 'Area', 'Direction', 'Renovation', 'Elevator', 'Price', 'Year', 'PerPrice'])
        writer.writerow(content)
        
def main(offset):
    regions = ['jiangbei', 'yubei', 'nanan', 'banan', 'shapingba', 'jiulongpo', 'yuzhong', 'dadukou', 'jiangjing', 'fuling',
             'wanzhou', 'hechuang', 'bishan', 'changshou1', 'tongliang', 'beibei']
    for region in regions:
        for i in range(1, offset):
            url = 'https://cq.lianjia.com/ershoufang/' + region + '/pg'+ str(i) + '/'
            html = parse_one_page(url)
            time.sleep(1)
     print('{} has been writen.'.format(region))
main(101)

鏈家網站的數據最多只顯示100頁,所以這里我們爬取各個區域的前100頁信息,有的可能沒有100頁,但并不影響,爬取結果如下(已經對數據做了一點處理,有問題的數據出現在有無電梯那一列和小區名那一列,只要排個序然后整體移動單元內容即可,年份缺失后面再做處理):

接下來,我們用Excel的數據透視表簡單看一下數據的數量信息:

從表中我們可以看到,此次共爬取了33225條數據,Elevator這一項有很多數據缺失,Year這一項由于在爬蟲時使用空格代替了空值,所以這一項也存在一些數據缺失。現在有了數據,后面就可以開始對這些數據進行分析了。

參考書籍:

[1]https://germey.gitbooks.io/python3webspider/content/

總結

以上是生活随笔為你收集整理的Python爬取链家二手房数据——重庆地区的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 精品一区二区三区三区 | 国产精品自慰网站 | 久久毛片网 | 成人黄色性视频 | 91精品国产91久久久久青草 | 国产精品视频一区二区三区, | 欧美人与禽性xxxxx杂性 | 欧美日韩一级在线观看 | 亚洲国产成人精品久久久 | 国产手机在线视频 | 国产第一页屁屁影院 | www在线 | 国产福利一区二区三区视频 | www.天天干 | 成年人免费在线观看 | 99草在线视频 | 农村妇女av | 国产女人高潮毛片 | 精品国产久 | 美女扒开粉嫩的尿囗给男生桶 | 又白又嫩毛又多15p 超碰在线一区 | 国产精品伦一区二区三级视频 | 99久久一区二区 | 亚洲又粗又长 | 亚洲精品福利在线 | 五月天看片 | 视频这里只有精品 | 国产女主播在线一区二区 | 偷拍xxxx| 在线观看亚洲一区二区 | 国产寡妇色xxⅹ交肉视频 | 吻胸摸激情床激烈视频大胸 | 少妇太爽了 | 3d成人动漫在线观看 | 国内91视频 | 亚洲成人免费网站 | 天堂网一区 | 天天尻逼 | 黄色片国产 | 另类视频在线观看 | 欧洲亚洲成人 | av最新地址| 区一区二视频 | 天堂网在线资源 | 特级西西www444人体聚色 | 国产精品一区二区久久毛片 | 在线天堂网 | 国产成人精品一区二区三区视频 | 亚洲乱色熟女一区二区三区 | 欧美 亚洲 视频 | 国产伦人伦偷精品视频 | 午夜国产福利在线观看 | 性欧美18—19sex性高清 | 日韩美一级片 | 日韩毛片在线播放 | 免费国产一区二区三区 | 性做爰裸体按摩视频 | 日鲁鲁| 欧洲美女粗暴牲交免费观看 | 国产猛男猛女超爽免费视频 | 国产福利视频导航 | 婷婷在线免费视频 | av在线资源播放 | 闫嫩的18sex少妇hd | 日韩欧美啪啪 | 法国空姐在线观看免费 | 亚洲免费视频播放 | 久久亚洲AV无码专区成人国产 | 丁香网五月天 | 成片免费观看 | 久久超碰在线 | 伊人中文字幕在线观看 | 日韩在线观看av | 国内精品视频一区 | 中文在线字幕av | 淫综合网| 天天射日日 | 懂色av懂色av粉嫩av分享吧 | 日韩18p | 女性向小h片资源在线观看 日本天天操 | 久久久6 | 国产调教在线观看 | 国产人妻人伦精品1国产盗摄 | 欧美日韩小说 | 天堂男人av | 久久er99热精品一区二区 | 欧美精品久久久久久久免费 | 国产天堂| 国产婷婷综合 | 好色婷婷| 自拍三级视频 | h视频在线观看网站 | 久久亚| 在线观看欧美日韩 | 美女毛片视频 | 乱子伦一区二区三区 | 久操视频网站 | 粉嫩av一区二区三区四区五区 | 欧美日韩国产综合在线 |