當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

新浪新闻动态网页爬取+热点词云分析

發(fā)布時間：2023/12/20 编程问答 49 豆豆

生活随笔收集整理的這篇文章主要介紹了新浪新闻动态网页爬取+热点词云分析小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

新浪新聞動態(tài)網(wǎng)頁爬取+熱點詞云分析

實驗內(nèi)容

這里不用管拓展視頻是什么，視頻涉及的內(nèi)容很淺顯。

在日常生活中，我們經(jīng)常見到“年度熱詞”，你會好奇這究竟是怎么得到的？

我們最常見的思路就是，計算機通過分析大數(shù)據(jù)得到的。

下面我用這個例子展示一下詳細過程

上代碼

代碼都有注解，懂的都懂！

from selenium import webdriver from selenium.common.exceptions import NoSuchElementException import jieba from wordcloud import WordCloud from imageio import imread import matplotlib.pyplot as pltdef getSinaNews(pages):# 要爬取的網(wǎng)頁url = 'https://news.sina.com.cn/roll/'# 獲取無界面瀏覽器# chrome_options = webdriver.ChromeOptions()# chrome_options.add_argument('--headless')# browser = webdriver.Chrome(options=chrome_options)# 有界面模式browser = webdriver.Chrome()# 爬news_list = ''while pages > 0:try:browser.get(url)news = browser.find_elements_by_xpath('//*[@id="d_list"]/ul/li/span/a')# 將爬取到的所有新聞標題放到一個String中for i in news:news_list = news_list + str(i.text)except NoSuchElementException:print('NoSuchElementException')browser.close()continue# 找到下一頁按鈕，并點擊'''//*[@id="d_list"]/div/span[15]/a'''browser.find_element_by_xpath('//*[@id="d_list"]/div/span/a').click()pages = pages - 1browser.quit()return news_listdef createWordCloud(news_list):bg_image = imread("bg.jpg")stopwords = [line.strip() for line in open('StopWords.txt', encoding='utf-8').readlines()]mytext = jieba.cut(news_list, cut_all=False)wt = " /".join(mytext)# 設(shè)置詞云相關(guān)參數(shù)word_cloud = WordCloud(# 設(shè)置背景顏色background_color="white",# 設(shè)置最大顯示的字數(shù)max_words=200,# 設(shè)置背景圖片mask=bg_image,# 此處添加停用詞庫stopwords=stopwords,# 設(shè)置中文字體，詞云默認字體是“DroidSansMono.ttf字體庫”，不支持中文font_path="SimHei.ttf",# 設(shè)置字體最大值max_font_size=500,# 設(shè)置有多少種隨機生成狀態(tài)，即有多少種配色方案random_state=30,# 輪廓線寬度contour_width=3,# 輪廓線顏色contour_color='steelblue',)mycloud = word_cloud.generate(wt) # 生成詞云# 設(shè)置生成圖片的標題plt.title('WordCloudOfSina') # 必須得用英文，否則報錯且不顯示plt.imshow(mycloud)# 設(shè)置是否顯示 X、Y 軸的下標plt.axis("off")plt.show()if __name__ == '__main__':page = eval(input('請輸入要爬取的頁面數(shù)量：'))news_list = getSinaNews(page)createWordCloud(news_list)

代碼中涉及的圖片，這張圖片是在網(wǎng)上隨便找的，主要是為了充當詞云背景使用。

里面還涉及好幾個文件，我全都放到百度網(wǎng)盤，需要自取
鏈接：https://pan.baidu.com/s/1tlXOUitV7BKrAygdali4jg
提取碼：v3ad
復(fù)制這段內(nèi)容后打開百度網(wǎng)盤手機App，操作更方便哦

步驟分析

首先需要明白，并不是所有的網(wǎng)站都是可以讓你爬的。有些網(wǎng)站的源代碼只有你訪問他才給你渲染生成。所以，萬無一失的方法就是讓計算機模擬人來進行自動化訪問。

這里使用的是selenium庫中的內(nèi)容。可以實現(xiàn)頁面自動跳轉(zhuǎn)。

在尋找要爬取的內(nèi)容時，可以使用瀏覽器的檢查功能。首先F12打開檢查，然后按照圖中次序進行操作，第一步點擊，第二步點擊，完成1、2步之后會定位到3這個位置，在3的基礎(chǔ)上右鍵

這樣可以得到下面的注釋部分！，通過觀察里面的數(shù)字部分去掉就是他的“通項公式：“

實驗結(jié)果

總結(jié)

以上是生活随笔為你收集整理的新浪新闻动态网页爬取+热点词云分析的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python网络攻击代码_Python-
下一篇： ajax同步和异步的区别_同步电机和异步