基于实时计算(flink)打造舆情分析平台——新华智云
案例與解決方案匯總頁:
阿里云實時計算產(chǎn)品案例&解決方案匯總
產(chǎn)品介紹
新華智云是一家致力于通過大數(shù)據(jù)技術(shù)驅(qū)動媒體變革的公司,數(shù)芯是新華智云推出的實時輿情分析平臺,旨在滿足用戶一系列輿情分析需求。包括:對事件、新聞、媒體、人物、地域、機構(gòu)、行業(yè),甚至關(guān)鍵詞、熱門話題等的抓取、識別、聚合、熱度分析以及可視化展示等。 - 總覽
- 事件跟蹤
系統(tǒng)設(shè)計
網(wǎng)絡(luò)輿情是社會輿論的一種表現(xiàn)形式,通俗的說是人們通過網(wǎng)絡(luò)表達對某些社會事件的看法和態(tài)度。網(wǎng)絡(luò)輿情以事件為載體,以事件為核心,是廣大網(wǎng)民情感、態(tài)度、觀點的表達、傳播、互動以及后續(xù)影響力的總和。
一個輿情分析分析系統(tǒng),主要解決的問題包括:發(fā)現(xiàn)事件、跟蹤事件、發(fā)掘觀點、評估影響力等。
- 系統(tǒng)挑戰(zhàn)
- 輿情分析系統(tǒng)需要對接多個上下游
- 數(shù)據(jù)上游:爬蟲數(shù)據(jù)和采購數(shù)據(jù)。爬蟲采集不同數(shù)據(jù)結(jié)構(gòu)類型的平臺數(shù)據(jù)。
- 數(shù)據(jù)下游:寫入不同的存儲系統(tǒng)。如統(tǒng)計結(jié)果寫入RDS,清洗后數(shù)據(jù)寫到OTS中,文章存儲到ES中做索引等等。
- 數(shù)據(jù)處理過程包括數(shù)據(jù)清洗和數(shù)據(jù)統(tǒng)計
- 清洗過程既有基于規(guī)則的信息抽取,又有基于算法的實體識別。
- 統(tǒng)計過程需要先把數(shù)據(jù)結(jié)構(gòu)化拼裝,然后按照各種維度進行靈活的統(tǒng)計。
-
具有自我迭代的能力
設(shè)計良好的輿情分析系統(tǒng)應(yīng)該具有自我迭代的能力,能夠根據(jù)歷史數(shù)據(jù)進行優(yōu)化,不斷提供系統(tǒng)效能。
- 輿情分析系統(tǒng)需要對接多個上下游
- 系統(tǒng)架構(gòu)
大數(shù)據(jù)輿情分析系統(tǒng)架構(gòu)圖如下。
- 輿情規(guī)劃是整個系統(tǒng)的控制器,控制著輿情發(fā)現(xiàn)的目標(biāo)、信息源等;
- 信息獲取是輿情分析的基礎(chǔ),能夠快速、準(zhǔn)確的獲取足量信息是系統(tǒng)成功的前提;
- 信息處理與算法部分是輿情分析的關(guān)鍵,擔(dān)負著把原始數(shù)據(jù)加工成信息與知識的重任,并且對歸檔后的數(shù)據(jù)進一步分析能夠發(fā)現(xiàn)系統(tǒng)問題、發(fā)現(xiàn)新的事件和新的模型,能夠進一步提升系統(tǒng)效果;
- 最終的信息要服務(wù)的形式的暴露出來,為人所用;
- 信息處理 數(shù)芯平臺的信息處理部分如下圖所示。?
- 數(shù)據(jù)來源(注:數(shù)據(jù)采集成功后統(tǒng)一發(fā)布到DataHub中)
- 爬蟲:實時的去各大網(wǎng)站、微博、微信等內(nèi)容平臺抓取數(shù)據(jù)。
- 從其他機構(gòu)采集數(shù)據(jù)。
- 數(shù)據(jù)處理
實時計算訂閱DataHub然后進行數(shù)據(jù)處理。數(shù)據(jù)處理包括兩個重要的部分:實時數(shù)據(jù)流和算法服務(wù)API。
- 實時數(shù)據(jù)流 通過實時計算串起整個實時數(shù)據(jù)流,總體包括對數(shù)據(jù)進行清洗、提取目標(biāo),整理成結(jié)構(gòu)化的數(shù)據(jù),然后按照所需維度對結(jié)構(gòu)化的數(shù)據(jù)進行聚合。并且要把原始數(shù)據(jù)、結(jié)構(gòu)化的數(shù)據(jù)、匯總的結(jié)果都發(fā)布到下游存儲系統(tǒng)中。
- 數(shù)據(jù)清洗:對爬蟲抓取的數(shù)據(jù)進行清洗,比如垃圾過濾、文本去重等。這一步通過實時計算提供的UDX(自定義函數(shù))來調(diào)用算法服務(wù)API來完成;
- 目標(biāo)提取:從已經(jīng)完成清洗的數(shù)據(jù)中抽取出感興趣的目標(biāo),比如抽取實體(人物、地點、事件等),對內(nèi)容的情感評分,抽取文章關(guān)鍵詞等,這一步的目標(biāo)是從非結(jié)構(gòu)化的文本中抽取結(jié)構(gòu)化的信息;
- 結(jié)果聚合:對已經(jīng)結(jié)構(gòu)化的數(shù)據(jù)按維度聚合,比如某事件的按天計數(shù),某新聞的傳播熱度等。最終把這些聚合信息聯(lián)合原始信息分別寫到下游存儲中去。
- 算法服務(wù)API
預(yù)先訓(xùn)練好模型,把垃圾過濾、文本去重、實體提取、情感打分、關(guān)鍵詞提取等暴露成API服務(wù),供實時計算調(diào)用。
- 實時數(shù)據(jù)流 通過實時計算串起整個實時數(shù)據(jù)流,總體包括對數(shù)據(jù)進行清洗、提取目標(biāo),整理成結(jié)構(gòu)化的數(shù)據(jù),然后按照所需維度對結(jié)構(gòu)化的數(shù)據(jù)進行聚合。并且要把原始數(shù)據(jù)、結(jié)構(gòu)化的數(shù)據(jù)、匯總的結(jié)果都發(fā)布到下游存儲系統(tǒng)中。
- 數(shù)據(jù)存儲與服務(wù)
RDS保存聚合數(shù)據(jù),OTS保存原始新聞,ES對新聞建立索引,提供搜索服務(wù),這三個數(shù)據(jù)存儲直接為最終產(chǎn)品服務(wù)。
- 數(shù)據(jù)來源(注:數(shù)據(jù)采集成功后統(tǒng)一發(fā)布到DataHub中)
總結(jié)
數(shù)芯之前數(shù)據(jù)處理部分使用的是自建的spark,需要自行運維和對接各種上下游系統(tǒng),遷移到了阿里云實時計算平臺,整體收益包括:
- 運維成本:免運維,阿里云提供高保障。
- 對接上下游:直接注冊,免開發(fā)。
- 開發(fā)成本:SQL開發(fā),效率高,門檻低。
- 數(shù)據(jù)流:一個產(chǎn)品串起整個數(shù)據(jù)流,ETL用UDX,統(tǒng)計用SQL。
注:本文部分內(nèi)容來自新華智云工程師楊叢聿的分享,特此感謝。
如果您有需求,歡迎聯(lián)系付空。
總結(jié)
以上是生活随笔為你收集整理的基于实时计算(flink)打造舆情分析平台——新华智云的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: bat批量修改文件名
- 下一篇: 兔子、狼、老虎的故事