Python 爬虫学习笔记三:多页内容爬取内容分析及格式化
生活随笔
收集整理的這篇文章主要介紹了
Python 爬虫学习笔记三:多页内容爬取内容分析及格式化
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Python 爬蟲學習筆記三:多頁內容爬取&內容分析及格式化
Python int與string之間的轉化
string–>int
1、10進制string轉化為int
int(‘12’)
2、16進制string轉化為int
int(‘12’, 16)
int–>string
1、int轉化為10進制string
str(18)
2、int轉化為16進制string
hex(18)
2 . 由于鏈家網上面選中第二頁的時候,只是在頁面后面多了一個“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的網頁只需要循環更新requests 的頁面URL
3 . 增加了一個循環之后,可以打印所有的爬取結果
from lxml import etree import requests import string url = 'http://sh.lianjia.com/ershoufang/' region = 'pudong' price = 'p23' finalURL = url+region+pricedef spider_room(finallyURL):r= requests.get(finallyURL)html = requests.get(finalURL).content.decode('utf-8')dom_tree = etree.HTML(html)# all the messagesall_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")for index in range(len(all_message)):print(all_message[index].xpath('string(.)').strip())return for i in range(20):finallyURL = finalURL + '/d'+str(i)spider_room(finallyURL)4 . 爬取了20頁的內容,可是內容的結果輸出的形式并沒有改變
【注】 看到的比較好的文章
[1] 利用Python爬取朋友圈數據,爬到你開始懷疑人生
[2] 請問爬蟲如何爬取動態頁面的內容?
[3] 如何用爬取的數據賺錢
[4] 錢塘數據大數據交易中心
[5] 利用爬蟲技術能做到哪些很酷很有趣很有用的事情?
總結
以上是生活随笔為你收集整理的Python 爬虫学习笔记三:多页内容爬取内容分析及格式化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 查看自己本机的ip地址、DNS服务器地址
- 下一篇: websocket python爬虫_p