日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python xpath循环_初学Python,就用它爬取一点情话说给她听!

發布時間:2024/9/18 python 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python xpath循环_初学Python,就用它爬取一点情话说给她听! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

老鐵們,一年一度的520就要來了,大家有沒有正在抓耳撓腮的給女朋友準備禮物呢?

作為一個業余非專業程序猿(ps:自稱程序猿,哈哈),最近初學python,用它來抓取情話網站的100頁情話,作為給女朋友的第二個小禮物。

由于小馬達我,是自學,也是初學者,忘各位大神勿噴,程序比較簡單,親測可用。

下面進入正題:

目標:爬取指定網址的100頁情話

練手網站

準備:python:3.7版本、開發工具:pycharm、瀏覽器:谷歌瀏覽器

思路:

  • 通過requests+xpath來爬取網頁,并對信息進行提取
  • 不管網站有沒有反爬策略,最簡單的攜帶headers用上
  • 循環寫入txt文件
  • 把主要代碼寫成函數進行封裝
  • 幾個關鍵點:

  • 注意網頁的編碼格式,一般來說,可以結合response.encoding和response.headers來觀察。如果headers里面沒有Content-Type,則編碼為encoding='utf-8';如果有Content-Type,以 charset 為準,沒有charset,則為ISO-8859-1
  • 觀察網頁的結構,確定如何編寫程序實現翻頁,在這里網站比較簡單,直接把序號+1就行
  • 關于用beautifulsoup還是xpath,酌情使用,在這里,我直接使用xpath定位更加方便
  • 最終效果:

    得到100頁情話,并保存到txt文件里。

    主要代碼

    結果輸出

    后期計劃改進:

  • 準備把數據寫入數據庫
  • 用flask框架搭建網站
  • 準備實現詞云效果,類似于下面這樣。
  • 好了,文字表達能力也不強,也不知道寫啥,主要就是分享好玩的。奧,對了,小馬達,什么都喜歡研究一下,這個號不打算寫垂直領域,主要就是分享生活,結交朋友,當然了,你要點個贊,給個關注,那我們就是更好的朋友。哈哈,記得關注哦!

    Python源代碼獲取私信小編01哦!

    總結

    以上是生活随笔為你收集整理的python xpath循环_初学Python,就用它爬取一点情话说给她听!的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。