當前位置：首頁 > 编程语言 > python >内容正文

python

Python 爬虫学习笔记三：多页内容爬取内容分析及格式化

發布時間：2023/12/20 python 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python 爬虫学习笔记三：多页内容爬取内容分析及格式化小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python 爬蟲學習筆記三：多頁內容爬取&內容分析及格式化

python int 與 string 之間的轉換：

Python int與string之間的轉化
string–>int

1、10進制string轉化為int

　int(‘12’)

2、16進制string轉化為int

　　int(‘12’, 16)

int–>string

1、int轉化為10進制string

　　str(18)

2、int轉化為16進制string

　　hex(18)

2 . 由于鏈家網上面選中第二頁的時候，只是在頁面后面多了一個“d2”, 如： http://sh.lianjia.com/ershoufang/pudong/d2 ，所以要想爬取更多的網頁只需要循環更新requests 的頁面URL

3 . 增加了一個循環之后，可以打印所有的爬取結果

from lxml import etree import requests import string url = 'http://sh.lianjia.com/ershoufang/' region = 'pudong' price = 'p23' finalURL = url+region+pricedef spider_room(finallyURL):r= requests.get(finallyURL)html = requests.get(finalURL).content.decode('utf-8')dom_tree = etree.HTML(html)# all the messagesall_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")for index in range(len(all_message)):print(all_message[index].xpath('string(.)').strip())return for i in range(20):finallyURL = finalURL + '/d'+str(i)spider_room(finallyURL)

4 . 爬取了20頁的內容，可是內容的結果輸出的形式并沒有改變

【注】看到的比較好的文章

[1] 利用Python爬取朋友圈數據，爬到你開始懷疑人生
[2] 請問爬蟲如何爬取動態頁面的內容？
[3] 如何用爬取的數據賺錢
[4] 錢塘數據大數據交易中心
[5] 利用爬蟲技術能做到哪些很酷很有趣很有用的事情？

總結

以上是生活随笔為你收集整理的Python 爬虫学习笔记三：多页内容爬取内容分析及格式化的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：查看自己本机的ip地址、DNS服务器地址
下一篇：随机数生成器python_python安