实战项目五:抓取简书文章信息
生活随笔
收集整理的這篇文章主要介紹了
实战项目五:抓取简书文章信息
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
源碼:
from fake_useragent import UserAgent from lxml import etree import lxml,requestsurl="https://www.jianshu.com/c/qqfxgN?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=qq"def getHtml(url):'''獲取網頁源碼return html'''headers = {"Host": "www.jianshu.com","Referer": "https://www.jianshu.com/","User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}req = requests.get(url, headers=headers)html = etree.HTML(req.text)return htmldef parse(html):'''解析網頁'''nodes = html.xpath("//ul[@class='note-list']/li//div[@class='content']")for node in nodes:title = node.xpath(".//a[@class='title']/text()")[0]nickname = node.xpath(".//div[@class='meta']/a/text()")[0]comment = node.xpath(".//div[@class='meta']/a//text()")[2].strip()like = node.xpath(".//div[@class='meta']/span/text()")[0].strip()essay = {"title" : title,"nickname" : nickname,"comment" : comment,"like" : like}print("文章信息:{}".format(essay))def main():html = getHtml(url)parse(html)if __name__ == '__main__':main()有不明的地方在下方留言,我看到后會盡快回復的
歡迎進行我的博客導航:【全站式導航】
我的專欄:【機器學習100天】、【K童鞋的爬蟲筆記】
總結
以上是生活随笔為你收集整理的实战项目五:抓取简书文章信息的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实战项目四:爬取911网站
- 下一篇: 数据分析系列:绘制散点图(matplot