當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

实战项目五：抓取简书文章信息

發布時間：2025/4/5 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了实战项目五：抓取简书文章信息小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

源碼：

from fake_useragent import UserAgent from lxml import etree import lxml,requestsurl="https://www.jianshu.com/c/qqfxgN?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq"def getHtml(url):'''獲取網頁源碼return html'''headers = {"Host": "www.jianshu.com","Referer": "https://www.jianshu.com/","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}req = requests.get(url, headers=headers)html = etree.HTML(req.text)return htmldef parse(html):'''解析網頁'''nodes = html.xpath("//ul[@class='note-list']/li//div[@class='content']")for node in nodes:title = node.xpath(".//a[@class='title']/text()")[0]nickname = node.xpath(".//div[@class='meta']/a/text()")[0]comment = node.xpath(".//div[@class='meta']/a//text()")[2].strip()like = node.xpath(".//div[@class='meta']/span/text()")[0].strip()essay = {"title" : title,"nickname" : nickname,"comment" : comment,"like" : like}print("文章信息：{}".format(essay))def main():html = getHtml(url)parse(html)if __name__ == '__main__':main()

有不明的地方在下方留言，我看到后會盡快回復的
歡迎進行我的博客導航：【全站式導航】
我的專欄：【機器學習100天】、【K童鞋的爬蟲筆記】

總結

以上是生活随笔為你收集整理的实战项目五：抓取简书文章信息的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：实战项目四：爬取911网站
下一篇：数据分析系列：绘制散点图（matplot