日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程语言 > python >内容正文

python

python 爬虫 爬取序列博客文章列表

發(fā)布時(shí)間:2024/4/17 python 41 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python 爬虫 爬取序列博客文章列表 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

python中寫個(gè)爬蟲真是太簡(jiǎn)單了

import urllib.request from pyquery import PyQuery as PQ# 根據(jù)URL獲取內(nèi)容并解碼為UTF-8 def getHtml(url):page = urllib.request.urlopen(url)html = page.read()html = html.decode('UTF-8')return html# 解析返回的html def getArtical(html, results):doc = PQ(html)# data = doc('.searchAtcList .searchAtc_top a')data = doc('.atc_title a')for x in data.items():title = x.text()href = x.attr('href')if title.find('教你炒股票') >= 0:# 標(biāo)題被截?cái)嗟男枰鶕?jù)URL獲取完整的標(biāo)題if title.find('…') >= 0:title = getArticalDetail(x.attr('href'))r = '[' + title + '](' + href + ')'index = title[5 : title.index(':')]results.append((int(index),r))# 獲取文章標(biāo)題 def getArticalDetail(url):html = getHtml(url)doc = PQ(html)data = doc('.articalTitle h2')title = data.text()return titleblog3 = 'http://blog.sina.com.cn/s/articlelist_1215172700_0_' # http://blog.sina.com.cn/s/articlelist_1215172700_0_1.html # http://blog.sina.com.cn/s/articlelist_1215172700_0_15.html # blog = 'http://control.blog.sina.com.cn/search/search.php?uid=1215172700&keyword=%E8%82%A1%E7%A5%A8&page=' # blog2 = 'http://control.blog.sina.com.cn/search/search.php?uid=1215172700&keyword=%E8%82%A1%E7%A5%A8&page='results = []# 總共有23頁(yè) for i in range(1, 24):url = blog3 + str(i) + '.html'print(url)html = getHtml(url)getArtical(html, results)# 排序后輸出 results.sort() for x in results:print(x[1])

總結(jié)

以上是生活随笔為你收集整理的python 爬虫 爬取序列博客文章列表的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。