當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python爬取新闻网站内容_python爬虫案例：抓取网易新闻

發(fā)布時(shí)間：2023/12/10 python 59 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬取新闻网站内容_python爬虫案例：抓取网易新闻小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

此文屬于入門(mén)級(jí)級(jí)別的爬蟲(chóng)，老司機(jī)們就不用看了。

本次主要是爬取網(wǎng)易新聞，包括新聞標(biāo)題、作者、來(lái)源、發(fā)布時(shí)間、新聞?wù)摹?/p>

首先我們打開(kāi)163的網(wǎng)站，我們隨意選擇一個(gè)分類(lèi)，這里我選的分類(lèi)是國(guó)內(nèi)新聞。然后鼠標(biāo)右鍵點(diǎn)擊查看源代碼，發(fā)現(xiàn)源代碼中并沒(méi)有頁(yè)面正中的新聞列表。這說(shuō)明此網(wǎng)頁(yè)采用的是異步的方式。也就是通過(guò)api接口獲取的數(shù)據(jù)。

那么確認(rèn)了之后可以使用F12打開(kāi)谷歌瀏覽器的控制臺(tái)，點(diǎn)擊Network，我們一直往下拉，發(fā)現(xiàn)右側(cè)出現(xiàn)了："... special/00804KVA/cm_guonei_03.js? .... "之類(lèi)的地址，點(diǎn)開(kāi)Response發(fā)現(xiàn)正是我們要找的api接口。

可以看到這些接口的地址都有一定的規(guī)律：“cm_guonei_03.js”、 “cm_guonei_04.js”，那么就很明顯了：

上面的連接也就是我們本次抓取所要請(qǐng)求的地址。

接下來(lái)只需要用到的python的兩個(gè)庫(kù)：

requests

json

BeautifulSoup

requests庫(kù)就是用來(lái)進(jìn)行網(wǎng)絡(luò)請(qǐng)求的，說(shuō)白了就是模擬瀏覽器來(lái)獲取資源。

由于我們采集的是api接口，它的格式為json，所以要用到j(luò)son庫(kù)來(lái)解析。BeautifulSoup是用來(lái)解析html文檔的，可以很方便的幫我們獲取指定div的內(nèi)容。

下面開(kāi)始編寫(xiě)我們爬蟲(chóng)：

第一步先導(dǎo)入以上三個(gè)包：

import json

import requests

from bs4 import BeautifulSoup

接著我們定義一個(gè)獲取指定頁(yè)碼內(nèi)數(shù)據(jù)的方法：

def get_page(page):

url_temp = 'http://temp.163.com/special/00804KVA/cm_guonei_0{}.js'

return_list = []

for i in range(page):

url = url_temp.format(i)

response = requests.get(url)

if response.status_code != 200:

continue

content = response.text # 獲取響應(yīng)正文

_content = formatContent(content) # 格式化json字符串

result = json.loads(_content)

return_list.append(result)

return return_list

這樣子就得到每個(gè)頁(yè)碼對(duì)應(yīng)的內(nèi)容列表：

之后通過(guò)分析數(shù)據(jù)可知下圖圈出來(lái)的則是需要抓取的標(biāo)題、發(fā)布時(shí)間以及新聞內(nèi)容頁(yè)面。

既然現(xiàn)在已經(jīng)獲取到了內(nèi)容頁(yè)的url，那么接下來(lái)開(kāi)始抓取新聞?wù)摹?/p>

在抓取正文之前要先分析一下正文的html頁(yè)面，找到正文、作者、來(lái)源在html文檔中的位置。

我們看到文章來(lái)源在文檔中的位置為：id = "ne_article_source" 的 a 標(biāo)簽。

作者位置為：class = "ep-editor" 的 span 標(biāo)簽。

正文位置為：class = "post_text" 的 div 標(biāo)簽。

下面試采集這三個(gè)內(nèi)容的代碼：

def get_content(url):

source = ''

author = ''

body = ''

resp = requests.get(url)

if resp.status_code == 200:

body = resp.text

bs4 = BeautifulSoup(body)

source = bs4.find('a', id='ne_article_source').get_text()

author = bs4.find('span', class_='ep-editor').get_text()

body = bs4.find('div', class_='post_text').get_text()

return source, author, body

到此為止我們所要抓取的所有數(shù)據(jù)都已經(jīng)采集了。

那么接下來(lái)當(dāng)然是把它們保存下來(lái)，為了方便我直接采取文本的形式來(lái)保存。下面是最終的結(jié)果：

格式為json字符串，“標(biāo)題” ： [ ‘日期’， ‘url’， ‘來(lái)源’， ‘作者’， ‘正文’ ]。

要注意的是目前實(shí)現(xiàn)的方式是完全同步的，線(xiàn)性的方式，存在的問(wèn)題就是采集會(huì)非常慢。主要延遲是在網(wǎng)絡(luò)IO上，下次可以升級(jí)為異步IO，異步采集，有興趣的可以關(guān)注下次的文章。

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯，堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)

總結(jié)

以上是生活随笔為你收集整理的python爬取新闻网站内容_python爬虫案例：抓取网易新闻的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： wineskin使用教程_使用Wines
下一篇：猜数字游戏python程序_python

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

python

python爬取新闻网站内容_python爬虫案例：抓取网易新闻

總結(jié)