當(dāng)前位置：首頁 > 运维知识 > windows >内容正文

windows

java 舆情分析_基于Java实现网络舆情分析系统研究与实现.doc

發(fā)布時(shí)間：2024/8/1 windows 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 java 舆情分析_基于Java实现网络舆情分析系统研究与实现.doc 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

基于Java實(shí)現(xiàn)網(wǎng)絡(luò)輿情分析系統(tǒng)研究與實(shí)現(xiàn)

摘要:通過對(duì)各大門戶網(wǎng)站、論壇和貼吧的留言和評(píng)論的爬取，錄入后臺(tái)數(shù)據(jù)庫。用戶可根據(jù)主題、內(nèi)容進(jìn)行搜索查看。通過利用中科院分詞算法進(jìn)行實(shí)現(xiàn)對(duì)爬去下來的內(nèi)容進(jìn)行分詞處理，分詞處理后的結(jié)果利用自行研究出來的基于權(quán)值算法實(shí)現(xiàn)的中文情感分析進(jìn)行評(píng)論的傾向性分析，通過對(duì)句子結(jié)構(gòu)和主張?jiān)~以及情感副詞的判斷來對(duì)評(píng)論的情感傾向性做出有效地判斷，通過情感權(quán)值計(jì)算后可給出評(píng)論的傾向性以供用戶查閱和進(jìn)行其他相關(guān)工作。

關(guān)鍵詞:輿情分析；中科院中文分詞算法；權(quán)值算法；情感傾向性；中文情感分析

中圖分類號(hào)：TP393.09文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1007-9599 (2012) 06-0000-02

現(xiàn)代網(wǎng)絡(luò)社會(huì)紛繁復(fù)雜，通過各大網(wǎng)站，例如：百度貼吧、天涯論壇等等一些地方可以看到網(wǎng)民對(duì)于各種新聞時(shí)事的評(píng)論和意見。所以網(wǎng)絡(luò)中的評(píng)論內(nèi)容是對(duì)于抓住民眾輿情傾向的一個(gè)寶貴財(cái)富。民眾輿情是人民群眾通過表達(dá)自己的意見而可以預(yù)見未來事務(wù)的發(fā)展走向。因此，能夠抓住并分析民眾輿情，是可以為解決和分析更多未知社會(huì)事件奠定了基礎(chǔ)。

通常情況下，在某個(gè)事件發(fā)生之后，網(wǎng)民們會(huì)通過各種途徑了解事情的來龍去脈，一個(gè)短短的貼吧帖子，往往會(huì)引來數(shù)以千計(jì)的留言和評(píng)論。在現(xiàn)代信息傳遞水平高度發(fā)達(dá)的年代，網(wǎng)絡(luò)評(píng)論內(nèi)容的情感傾向性：支持、反對(duì)或者中立，就能夠體現(xiàn)我國(guó)民眾絕大部份比例的態(tài)度。總而言之，人民群眾在網(wǎng)絡(luò)發(fā)表的意見往往是對(duì)事件的后續(xù)發(fā)展與走向起到相當(dāng)重要的作用，所以能夠提取民眾意見和分析民眾意見來的尤為重用。

因此，選擇爬取網(wǎng)民經(jīng)常訪問的網(wǎng)站是一個(gè)非常有效的獲取民眾輿論的方法。針對(duì)百度貼吧、天涯論壇、貓撲論壇的評(píng)論爬取是獲取主流民眾熱議事件及其評(píng)論的有力之道。而通過分詞水平較為準(zhǔn)確的中科院分詞方法，能夠首先對(duì)爬取下來的評(píng)論進(jìn)行預(yù)處理。再經(jīng)過中文情感分析的處理之后生成統(tǒng)計(jì)數(shù)據(jù)，為需要輿情分析的客戶提供有效把握民眾輿論走向的信息。

一、輿情搜索系統(tǒng)設(shè)計(jì)

(一)系統(tǒng)用例設(shè)計(jì)

當(dāng)客戶通過登錄此輿情分析與監(jiān)測(cè)系統(tǒng)時(shí)，可以擁有通過搜索查閱帖子的權(quán)力和生成情感傾向程度圖表的權(quán)力。因此，本系統(tǒng)主要實(shí)現(xiàn)功能即為：(1)搜索查閱帖子。(2)生成情感傾向程度圖表。而管理員角色的設(shè)置是為了調(diào)整搜索內(nèi)容以及管理客戶信息。因?yàn)榇讼到y(tǒng)為較敏感的管理工具，因此不能預(yù)設(shè)客戶注冊(cè)功能而只能通過管理員后臺(tái)分配用戶名和密碼信息于客戶手中，為了保證信息安全性和系統(tǒng)可靠性。

(二)系統(tǒng)功能模塊設(shè)計(jì)

本系統(tǒng)主要實(shí)現(xiàn)三個(gè)功能：內(nèi)容爬取、帖子搜索和中文情感傾向性分析，而中文分詞部分使用流行且準(zhǔn)確性高的中科院中文分詞算法，故此功能不再贅述。由于是大體功能已知的系統(tǒng)設(shè)計(jì)，故選擇增量式模型進(jìn)行系統(tǒng)設(shè)計(jì)和開發(fā)，在完成主要核心功能的同時(shí)為將來可能增加的功能留有空間和接口，以方便維護(hù)和升級(jí)。

1.內(nèi)容爬取模塊設(shè)計(jì)

內(nèi)容爬取模塊顧名思義，系統(tǒng)自動(dòng)對(duì)。話題的爬取采用Java開源組件和相關(guān)API實(shí)現(xiàn)的本地爬蟲，情感分析方面使用基于情感詞典的分析方法，并對(duì)特殊句式和特殊詞匯進(jìn)行處理。采用Struts2+Hibernate框架集成整個(gè)系統(tǒng)。

當(dāng)模擬瀏覽器請(qǐng)求貼吧分類首頁顯示時(shí)，可抽取出貼吧主頁鏈接信息，將貼吧主頁鏈接信息和貼吧名可以順序存入后臺(tái)數(shù)據(jù)庫中。然后，將此信息轉(zhuǎn)入貼吧待處理隊(duì)列中，可進(jìn)行請(qǐng)求貼吧主頁的要求并抽取帖子鏈接及下一頁的鏈接。通過獲得所需要的鏈接信息可輕松與互聯(lián)網(wǎng)鏈接并抽取所需要的信息，繼而得到：帖子正文信息、帖子回帖內(nèi)容、帖子回帖數(shù)量以及可能的翻頁鏈接信息。將抓取的有用信息順序存入后臺(tái)數(shù)據(jù)庫中，那么第一步的帖子正文和評(píng)論內(nèi)容爬取工作可告一段落。

2.搜索模塊設(shè)計(jì)

搜索模塊的功能設(shè)計(jì)是為用戶服務(wù)的，所以功能的設(shè)計(jì)需要為用戶服務(wù)。用戶通過標(biāo)題檢索，輸入的關(guān)鍵詞通過中科院中文分詞處理后進(jìn)入到數(shù)據(jù)庫的標(biāo)題倒排索引表匹配，返回到前臺(tái)處理并返回相應(yīng)的標(biāo)題ID。因?yàn)樵谙惹安襟E中已經(jīng)完成了主題信息及評(píng)論內(nèi)容的抓取功能，所以主要信息已入后臺(tái)數(shù)據(jù)庫中。當(dāng)查詢成功時(shí)，返回詞ID，并將主題內(nèi)容和評(píng)論信息顯示在用戶界面上；當(dāng)查詢不到主題時(shí)，返回失敗信息。

搜索功能的實(shí)現(xiàn)主要利用了倒排索引過程實(shí)現(xiàn)。倒排索引是利用了現(xiàn)實(shí)中需要根據(jù)屬性值來查找記錄的要求設(shè)計(jì)。這種索引表中的每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的其地址。由于不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置，因而稱為倒排索引(inverted index)。

3.中文情感分析設(shè)計(jì)

中文情感分析通過對(duì)評(píng)論內(nèi)容的預(yù)處理，即利用中科院分詞算法分詞之后，與已存在的中文情感詞典匹配，利用預(yù)先設(shè)定好的權(quán)值計(jì)算、疊加可計(jì)算出中文情感的傾向值，

總結(jié)

以上是生活随笔為你收集整理的java 舆情分析_基于Java实现网络舆情分析系统研究与实现.doc的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：从wireshark 抓包中的导出 H.
下一篇：基于 Flink、ClickHouse

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

windows

java 舆情分析_基于Java实现网络舆情分析系统研究与实现.doc

總結(jié)