當(dāng)前位置：首頁(yè) >

Python实现抓取CSDN博客首页文章列表

發(fā)布時(shí)間：2025/3/15 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 Python实现抓取CSDN博客首页文章列表小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、使用工具:
Python3.5
BeautifulSoup
2、抓取網(wǎng)站：
csdn首頁(yè)文章列表 http://blog.csdn.net/
3、分析網(wǎng)站文章列表代碼：

4、實(shí)現(xiàn)抓取代碼：

__author__ = 'Administrator' import urllib.request import re from bs4 import BeautifulSoup######################################################## # # 抓取csdn首頁(yè)文章http://blog.csdn.net/?&page=1 # # 參數(shù)baseUrl是要訪問(wèn)的網(wǎng)站地址 # ######################################################## class CsdnUtils(object):def __init__(self):user_agent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'self.headers ={'Cache-Control':'max-age=0','Connection':'keep-alive','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','User-Agent':user_agent,}self.contentAll=set()def getPage(self,url=None):request=urllib.request.Request(url,headers=self.headers)response=urllib.request.urlopen(request)soup=BeautifulSoup(response.read(),"html.parser")#print(soup.prettify())return soupdef parsePage(self,url=None,page_num=None):soup=self.getPage(url)itemBlog=soup.find_all('dl','blog_list clearfix')cnArticle=CsdnUtilsprint("========================第",page_num,"頁(yè)======================================")for i,itemSingle in enumerate(itemBlog):cnArticle.num=icnArticle.author=itemSingle.find('a','nickname').stringcnArticle.postTime=itemSingle.find('label').stringcnArticle.articleView=itemSingle.find('em').stringcnArticle.title=itemSingle.find('h3',"tracking-ad").stringcnArticle.url=itemSingle.find("h3").find("a").get("href")print("數(shù)據(jù)：",cnArticle.num+1,'\t',cnArticle.author,'\t',cnArticle.postTime,'\t',cnArticle.articleView,'\t',cnArticle.title,'\t',cnArticle.url)####### 執(zhí)行 ######## if __name__ =="__main__":#要抓取的網(wǎng)頁(yè)地址'http://blog.csdn.net/?&page={}'.format(i+1),i+1)url = "http://blog.csdn.net"cnblog=CsdnUtils()for i in range(0,2):cnblog.parsePage(url,i+1)

5、執(zhí)行結(jié)果：

轉(zhuǎn)載于:https://www.cnblogs.com/luweiwei/p/5968459.html

總結(jié)

以上是生活随笔為你收集整理的Python实现抓取CSDN博客首页文章列表的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：自制基于HMM的python中文分词器
下一篇： Python 第二篇：python字符串

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

Python实现抓取CSDN博客首页文章列表

總結(jié)