java 舆情分析_基于Java实现网络舆情分析系统研究与实现.doc
基于Java實(shí)現(xiàn)網(wǎng)絡(luò)輿情分析系統(tǒng)研究與實(shí)現(xiàn)
基于Java實(shí)現(xiàn)網(wǎng)絡(luò)輿情分析系統(tǒng)研究與實(shí)現(xiàn)
摘要:通過(guò)對(duì)各大門戶網(wǎng)站、論壇和貼吧的留言和評(píng)論的爬取,錄入后臺(tái)數(shù)據(jù)庫(kù)。用戶可根據(jù)主題、內(nèi)容進(jìn)行搜索查看。通過(guò)利用中科院分詞算法進(jìn)行實(shí)現(xiàn)對(duì)爬去下來(lái)的內(nèi)容進(jìn)行分詞處理,分詞處理后的結(jié)果利用自行研究出來(lái)的基于權(quán)值算法實(shí)現(xiàn)的中文情感分析進(jìn)行評(píng)論的傾向性分析,通過(guò)對(duì)句子結(jié)構(gòu)和主張?jiān)~以及情感副詞的判斷來(lái)對(duì)評(píng)論的情感傾向性做出有效地判斷,通過(guò)情感權(quán)值計(jì)算后可給出評(píng)論的傾向性以供用戶查閱和進(jìn)行其他相關(guān)工作。
關(guān)鍵詞:輿情分析;中科院中文分詞算法;權(quán)值算法;情感傾向性;中文情感分析
中圖分類號(hào):TP393.09文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2012) 06-0000-02
現(xiàn)代網(wǎng)絡(luò)社會(huì)紛繁復(fù)雜,通過(guò)各大網(wǎng)站,例如:百度貼吧、天涯論壇等等一些地方可以看到網(wǎng)民對(duì)于各種新聞時(shí)事的評(píng)論和意見。所以網(wǎng)絡(luò)中的評(píng)論內(nèi)容是對(duì)于抓住民眾輿情傾向的一個(gè)寶貴財(cái)富。民眾輿情是人民群眾通過(guò)表達(dá)自己的意見而可以預(yù)見未來(lái)事務(wù)的發(fā)展走向。因此,能夠抓住并分析民眾輿情,是可以為解決和分析更多未知社會(huì)事件奠定了基礎(chǔ)。
通常情況下,在某個(gè)事件發(fā)生之后,網(wǎng)民們會(huì)通過(guò)各種途徑了解事情的來(lái)龍去脈,一個(gè)短短的貼吧帖子,往往會(huì)引來(lái)數(shù)以千計(jì)的留言和評(píng)論。在現(xiàn)代信息傳遞水平高度發(fā)達(dá)的年代,網(wǎng)絡(luò)評(píng)論內(nèi)容的情感傾向性:支持、反對(duì)或者中立,就能夠體現(xiàn)我國(guó)民眾絕大部份比例的態(tài)度。總而言之,人民群眾在網(wǎng)絡(luò)發(fā)表的意見往往是對(duì)事件的后續(xù)發(fā)展與走向起到相當(dāng)重要的作用,所以能夠提取民眾意見和分析民眾意見來(lái)的尤為重用。
因此,選擇爬取網(wǎng)民經(jīng)常訪問(wèn)的網(wǎng)站是一個(gè)非常有效的獲取民眾輿論的方法。針對(duì)百度貼吧、天涯論壇、貓撲論壇的評(píng)論爬取是獲取主流民眾熱議事件及其評(píng)論的有力之道。而通過(guò)分詞水平較為準(zhǔn)確的中科院分詞方法,能夠首先對(duì)爬取下來(lái)的評(píng)論進(jìn)行預(yù)處理。再經(jīng)過(guò)中文情感分析的處理之后生成統(tǒng)計(jì)數(shù)據(jù),為需要輿情分析的客戶提供有效把握民眾輿論走向的信息。
一、輿情搜索系統(tǒng)設(shè)計(jì)
(一)系統(tǒng)用例設(shè)計(jì)
當(dāng)客戶通過(guò)登錄此輿情分析與監(jiān)測(cè)系統(tǒng)時(shí),可以擁有通過(guò)搜索查閱帖子的權(quán)力和生成情感傾向程度圖表的權(quán)力。因此,本系統(tǒng)主要實(shí)現(xiàn)功能即為:(1)搜索查閱帖子。(2)生成情感傾向程度圖表。而管理員角色的設(shè)置是為了調(diào)整搜索內(nèi)容以及管理客戶信息。因?yàn)榇讼到y(tǒng)為較敏感的管理工具,因此不能預(yù)設(shè)客戶注冊(cè)功能而只能通過(guò)管理員后臺(tái)分配用戶名和密碼信息于客戶手中,為了保證信息安全性和系統(tǒng)可靠性。
(二)系統(tǒng)功能模塊設(shè)計(jì)
本系統(tǒng)主要實(shí)現(xiàn)三個(gè)功能:內(nèi)容爬取、帖子搜索和中文情感傾向性分析,而中文分詞部分使用流行且準(zhǔn)確性高的中科院中文分詞算法,故此功能不再贅述。由于是大體功能已知的系統(tǒng)設(shè)計(jì),故選擇增量式模型進(jìn)行系統(tǒng)設(shè)計(jì)和開發(fā),在完成主要核心功能的同時(shí)為將來(lái)可能增加的功能留有空間和接口,以方便維護(hù)和升級(jí)。
1.內(nèi)容爬取模塊設(shè)計(jì)
內(nèi)容爬取模塊顧名思義,系統(tǒng)自動(dòng)對(duì)。話題的爬取采用Java開源組件和相關(guān)API實(shí)現(xiàn)的本地爬蟲,情感分析方面使用基于情感詞典的分析方法,并對(duì)特殊句式和特殊詞匯進(jìn)行處理。采用Struts2+Hibernate框架集成整個(gè)系統(tǒng)。
當(dāng)模擬瀏覽器請(qǐng)求貼吧分類首頁(yè)顯示時(shí),可抽取出貼吧主頁(yè)鏈接信息,將貼吧主頁(yè)鏈接信息和貼吧名可以順序存入后臺(tái)數(shù)據(jù)庫(kù)中。然后,將此信息轉(zhuǎn)入貼吧待處理隊(duì)列中,可進(jìn)行請(qǐng)求貼吧主頁(yè)的要求并抽取帖子鏈接及下一頁(yè)的鏈接。通過(guò)獲得所需要的鏈接信息可輕松與互聯(lián)網(wǎng)鏈接并抽取所需要的信息,繼而得到:帖子正文信息、帖子回帖內(nèi)容、帖子回帖數(shù)量以及可能的翻頁(yè)鏈接信息。將抓取的有用信息順序存入后臺(tái)數(shù)據(jù)庫(kù)中,那么第一步的帖子正文和評(píng)論內(nèi)容爬取工作可告一段落。
2.搜索模塊設(shè)計(jì)
搜索模塊的功能設(shè)計(jì)是為用戶服務(wù)的,所以功能的設(shè)計(jì)需要為用戶服務(wù)。用戶通過(guò)標(biāo)題檢索,輸入的關(guān)鍵詞通過(guò)中科院中文分詞處理后進(jìn)入到數(shù)據(jù)庫(kù)的標(biāo)題倒排索引表匹配,返回到前臺(tái)處理并返回相應(yīng)的標(biāo)題ID。因?yàn)樵谙惹安襟E中已經(jīng)完成了主題信息及評(píng)論內(nèi)容的抓取功能,所以主要信息已入后臺(tái)數(shù)據(jù)庫(kù)中。當(dāng)查詢成功時(shí),返回詞ID,并將主題內(nèi)容和評(píng)論信息顯示在用戶界面上;當(dāng)查詢不到主題時(shí),返回失敗信息。
搜索功能的實(shí)現(xiàn)主要利用了倒排索引過(guò)程實(shí)現(xiàn)。倒排索引是利用了現(xiàn)實(shí)中需要根據(jù)屬性值來(lái)查找記錄的要求設(shè)計(jì)。這種索引表中的每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的其地址。由于不是由記錄來(lái)確定屬性值,而是由屬性值來(lái)確定記錄的位置,因而稱為倒排索引(inverted index)。
3.中文情感分析設(shè)計(jì)
中文情感分析通過(guò)對(duì)評(píng)論內(nèi)容的預(yù)處理,即利用中科院分詞算法分詞之后,與已存在的中文情感詞典匹配,利用預(yù)先設(shè)定好的權(quán)值計(jì)算、疊加可計(jì)算出中文情感的傾向值 ,
總結(jié)
以上是生活随笔為你收集整理的java 舆情分析_基于Java实现网络舆情分析系统研究与实现.doc的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 从wireshark 抓包中的导出 H.
- 下一篇: 基于 Flink、ClickHouse