日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何爬取链家网页房源信息

發布時間:2024/3/24 编程问答 34 豆豆
生活随笔 收集整理的這篇文章主要介紹了 如何爬取链家网页房源信息 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

由于個人安裝的Python版本是2.7的,因此此后的相關代碼也是該版本。

  • 爬取網頁所有信息?
    利用urllib2包來抓取網頁的信息,先介紹下urllib2包的urlopen函數。?
    urlopen:將網頁所有信息存到一個object里,我們可通過讀取這個object來獲得網頁信息。例如,我們使用它來獲取百度首頁信息如下。
import urllib2 f = urllib2.urlopen('http://www.baidu.com') f.read(100)
  • 1
  • 2
  • 3

通過上面的代碼我們讀取了百度首頁的前100個字符:

'<!DOCTYPE html><!--STATUS OK--><html><head><meta http-equiv="content-type" content="text/html;charse'
  • 1

有時可能會出現編碼問題導致打開的是亂碼,只需修改下編碼格式即可:

f.read(100).decode('utf-8')
  • 1

通過這種方法我們可以獲得鏈家一個二手房首頁的信息:

import urllib2 url = 'http://sz.lianjia.com/ershoufang/pg' res = urllib2.urlopen(url) content = res.read().decode('utf-8')
  • 1
  • 2
  • 3
  • 4

于是網頁信息便存在了content之中。

  • 獲取房源信息?
    上面我們已經獲得了一整個的網頁信息,接下來需要獲取網頁中我們需要的有用信息,我們的目標是獲取房源信息,方法是利用正則表達式來獲取。關于正則表達式的知識可以參考一個網友的博文http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html?
    首先,我們查看下網頁信息:?

    我們關注類似下面的這種信息
data-el="region">萬科第五園一期</a> | 3室2廳 | 104.58平米 | 南 | 精裝</div><
  • 1
import urllib2 import re url = 'http://sz.lianjia.com/ershoufang/pg/' res = urllib2.urlopen(url) content=res.read().decode('utf-8') result = re.findall(r'>.{1,100}?</div></div><div class="flood">',content) for i in result:print(i[0:-31].decode('utf-8'))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

運行結果如下圖:?
?
這樣就算是獲取了我想要的信息了,不過這個信息中間有個我們不想要的符號,接下來還需要去掉這個符號(可見這種方法比較繁瑣,效率也偏低)。?
在這里我通過字符替換操作,用空字符來替換這個多余字符。?
代碼為:

import urllib2 import re url = 'http://sz.lianjia.com/ershoufang/pg/' res = urllib2.urlopen(url) content=res.read().decode('utf-8') result = re.findall(r'>.{1,100}?</div></div><div class="flood">',content) for i in result:print(i[0:-31].replace('</a>','').decode('utf-8'))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

?
上面的方法雖然幫我們獲得了房源信息,但是方法還是有些繁瑣,而且效率也并不高?
我們利用上面的方法來爬取鏈家二手房100個頁面房源信息,代碼修改如下:

import urllib2 import time import re print(time.clock()) url = 'http://sz.lianjia.com/ershoufang/pg' for x in range(101):finalUrl = url + str(x) + '/'res = urllib2.urlopen(finalUrl)content=res.read().decode('utf-8')result = re.findall(r'>.{1,100}?</div></div><div class="flood">',content)for i in result:print(i[0:-31].replace('</a>','').decode('utf-8')) print(time.clock())
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

主要是測試一下運行時間,測試結果大概是350s左右(當然,主要還受網速的影響,而對代碼本身來說消耗的大多數時間都在urlopen上),接下來,在下一篇中,將利用BeautifulSoup庫來實現房源的獲取。

總結

以上是生活随笔為你收集整理的如何爬取链家网页房源信息的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 天堂久久av | 成人激情av | 日本美女黄色大片 | 亚洲第一区在线播放 | 91玉足脚交嫩脚丫在线播放 | 椎名由奈在线观看 | 麻豆av一区二区三区 | 在线观看亚洲av每日更新 | 色黄视频在线观看 | 999zyz玖玖资源站永久 | 日本特黄一级片 | 免费性片 | 亚洲精品88 | 日本不卡高清视频 | 日韩毛片大全 | 五月婷婷在线观看视频 | 少妇一级淫片免费看 | 欧美日韩亚洲国产一区 | 欧美日韩一卡 | 娇妻玩4p被三个男人伺候电影 | 黄色草逼视频 | 欧美日韩在线观看一区二区三区 | 色妞色视频一区二区三区四区 | 日韩一级片免费在线观看 | 久久精品三级 | 精品一区二区久久久久久按摩 | 少妇高潮一区二区三区99小说 | 日韩精品电影一区二区 | 亚洲偷自 | 欧美高清v | 亚洲国产网| 少妇一级淫片日本 | 日本网站免费观看 | 欧美做受视频 | 自拍偷拍色 | 亚洲成人精品在线 | 日本精品在线一区 | 日批网站在线观看 | 四虎少妇做爰免费视频网站四 | 日本十八禁视频无遮挡 | 人妻体内射精一区二区三区 | 钻石午夜影院 | 日韩av网址大全 | 美女大逼 | 禁果av一区二区三区 | 国产古装艳史毛片hd | 人人综合 | 中文字幕在线观看网 | www欧美色 | 亚洲AV午夜福利精品一级无码 | 黄色亚洲精品 | 老司机午夜影院 | 久久久麻豆 | 五月婷婷色丁香 | 亚洲国产精品久久久久久6q | 日韩欧美中文在线 | 少妇毛片视频 | 亚洲天堂手机 | 欧美黑人一区 | 国产精品日韩精品欧美精品 | 欧美老肥妇做.爰bbww视频 | 欧美色图久久 | 国产成人一区在线观看 | 色婷婷综合久久久久中文字幕 | 丰满人妻熟妇乱偷人无码 | 免费久久| 蜜桃久久精品成人无码av | 欧美国产日韩一区二区 | 在线观看日本一区二区 | 欧美性视频网站 | 国产精品久久久久久久久久小说 | 帮我拍拍漫画全集免费观看 | 国产一区二区内射 | 黄色一级大片在线观看 | 亚洲精选一区二区三区 | 国产美女一区二区三区 | 亚洲精品在线视频观看 | 韩国伦理电影免费在线 | 亚洲一本在线观看 | 日韩中文字幕有码 | 日韩精品成人无码专区免费 | 国产精品三 | 国产男女猛烈无遮挡 | 36d大奶| 五级 黄 色 片 | 日日噜噜夜夜狠狠久久波多野 | 免费黄色链接 | 亚洲精品白浆 | 夜色成人网 | 精品国产伦一区二区三区免费 | 国产一级片网址 | 九一国产视频 | 伊人影院在线播放 | 国产免费网| 日本韩国欧美一区二区三区 | 老师张开让我了一夜av | 午夜一区二区三区四区 | 日韩成人在线视频观看 | 中国a一片一级一片 |