日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

Python 爬虫学习笔记三:多页内容爬取内容分析及格式化

發布時間:2023/12/20 python 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Python 爬虫学习笔记三:多页内容爬取内容分析及格式化 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python 爬蟲學習筆記三:多頁內容爬取&內容分析及格式化


  • python int 與 string 之間的轉換:
  • Python int與string之間的轉化
    string–>int

    1、10進制string轉化為int

     int(‘12’)

    2、16進制string轉化為int

      int(‘12’, 16)

    int–>string

    1、int轉化為10進制string

      str(18)

    2、int轉化為16進制string

      hex(18)


    2 . 由于鏈家網上面選中第二頁的時候,只是在頁面后面多了一個“d2”, 如: http://sh.lianjia.com/ershoufang/pudong/d2 , 所以要想爬取更多的網頁只需要循環更新requests 的頁面URL

    3 . 增加了一個循環之后,可以打印所有的爬取結果

    from lxml import etree import requests import string url = 'http://sh.lianjia.com/ershoufang/' region = 'pudong' price = 'p23' finalURL = url+region+pricedef spider_room(finallyURL):r= requests.get(finallyURL)html = requests.get(finalURL).content.decode('utf-8')dom_tree = etree.HTML(html)# all the messagesall_message = dom_tree.xpath("//ul[@class='js_fang_list']/li")for index in range(len(all_message)):print(all_message[index].xpath('string(.)').strip())return for i in range(20):finallyURL = finalURL + '/d'+str(i)spider_room(finallyURL)

    4 . 爬取了20頁的內容,可是內容的結果輸出的形式并沒有改變


    【注】 看到的比較好的文章

    [1] 利用Python爬取朋友圈數據,爬到你開始懷疑人生
    [2] 請問爬蟲如何爬取動態頁面的內容?
    [3] 如何用爬取的數據賺錢
    [4] 錢塘數據大數據交易中心
    [5] 利用爬蟲技術能做到哪些很酷很有趣很有用的事情?

    總結

    以上是生活随笔為你收集整理的Python 爬虫学习笔记三:多页内容爬取内容分析及格式化的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。