日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据学习之路——新闻大数据的增值应用

發(fā)布時間:2025/3/15 编程问答 17 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据学习之路——新闻大数据的增值应用 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

新聞大數(shù)據(jù)借助于領域詞表、大數(shù)據(jù)和人工智能技術,將雜亂無章的新聞條目數(shù)據(jù)按照領域詞表自動重新聚類,并在聚類的基礎上,進行數(shù)據(jù)重組和集成,形成具有較大價值的專題數(shù)據(jù),提供給機構和讀者。

?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖 1-1 新聞大數(shù)據(jù)增值服務技術架構

?

新聞大數(shù)據(jù)是報社的制勝法寶

互聯(lián)網(wǎng)媒體對傳統(tǒng)報社構成了較大沖擊,經(jīng)濟效益顯著下滑,讀者數(shù)量也急劇減少。報社賴以生存的新聞報道已經(jīng)被今日頭條、手百等互聯(lián)網(wǎng)媒體所取代,讀者通過手機百度等媒體就可以全面了解當前熱點、新聞、時政等新聞內(nèi)容,導致報社讀者大量流失,讀者的流失又直接導致了廣告商投入和報紙銷量的減少。

針對互聯(lián)網(wǎng)媒體的沖擊,報社也投入了大量資金以應對日趨惡化的經(jīng)營環(huán)境,例如,建立新聞網(wǎng)站、移動新聞客戶端、融媒體建設等。但大多收效甚微,主要原因是——雖然新聞的生產(chǎn)方式、經(jīng)營方式已經(jīng)數(shù)字和互聯(lián)網(wǎng)化,提高了新聞的生產(chǎn)和傳播效率,但是其經(jīng)營的內(nèi)容沒有改變,依然是售賣新聞模式,該模式同手機百度等媒體相比,缺乏內(nèi)容競爭力,讀者自然就不買賬了。

不過,報社也有其自身的競爭力。以參考消息為例,參考消息完成了自1953年至今所有參考消息版面的數(shù)字化加工工作,加工后的數(shù)字內(nèi)容以PDF、數(shù)據(jù)庫、XML等多種方式存儲,為大數(shù)據(jù)增值服務提供了數(shù)據(jù)支撐。參考消息大數(shù)據(jù)集中體現(xiàn)了中國自建國以來,國外媒體對中國外交、經(jīng)濟、政治、民生等方面的報道及觀點,其承載的文化內(nèi)容和歷史內(nèi)涵都是不言而喻的,對研究中國國情及發(fā)展歷程具有很大的文獻情報價值,對圖書館、機構、社會組織、企業(yè)、讀者都有較強的內(nèi)容吸引力,也是今日頭條、手百等媒體不能給予讀者的內(nèi)容。

?

大數(shù)據(jù)增值應用有哪些技術內(nèi)容?

大數(shù)據(jù)增值服務涉及到數(shù)據(jù)的感知與采集、數(shù)據(jù)的存儲、數(shù)據(jù)的挖掘分析與重組、數(shù)據(jù)的展現(xiàn)與交互技術。

數(shù)據(jù)的感知與采集是獲取并對數(shù)據(jù)進行預處理的技術。例如,新聞機構一般都以數(shù)據(jù)庫方式存儲新聞條目,這就需要系統(tǒng)能夠識別數(shù)據(jù)庫存儲的新聞條目,并按照預定規(guī)則對新聞條目預處理后,進入到大數(shù)據(jù)存儲系統(tǒng)。再如,利用爬蟲技術從新聞網(wǎng)站采集新聞條目,并按照預定規(guī)則對采集的新聞條目預處理后,進入到大數(shù)據(jù)存儲系統(tǒng)。

大數(shù)據(jù)的存儲技術非常重要,直接關系到大數(shù)據(jù)增值服務系統(tǒng)的響應和運算能力,從系統(tǒng)的響應和運算能力考慮,傳統(tǒng)的關系型數(shù)據(jù)庫存儲、數(shù)據(jù)集中式存儲技術已不能滿足大數(shù)據(jù)的存儲與數(shù)據(jù)運算需求。需要運用新的數(shù)據(jù)存儲和運算技術,以滿足不斷增長的數(shù)據(jù)存儲需求和高并發(fā)數(shù)據(jù)的運算能力。

新聞大數(shù)據(jù)的增值服務主要是對新聞數(shù)據(jù)進行挖掘和重組,對機構和讀者提供數(shù)據(jù)檢索和專題數(shù)據(jù)服務。例如,某機構要組織“記錄濰坊,見證歷史”活動,可以通過新聞大數(shù)據(jù)系統(tǒng)挖掘濰坊發(fā)展過程中涉及的熱點、大事件、政策、民生變化等新聞條目,并按照時間線和熱點、大事件、政策、民生進行排序和歸類,生成專題數(shù)據(jù),活動參與者可以通過瀏覽器、手機瀏覽專題數(shù)據(jù)。再如,對濰坊文化、歷史感興趣的讀者都可以通過檢索和專題數(shù)據(jù)來感知濰坊。

數(shù)據(jù)的展現(xiàn)和交互技術直接影響用戶使用大數(shù)據(jù)服務的體驗,也影響到大數(shù)據(jù)服務的傳播和推廣。面向機構提供大數(shù)據(jù)服務時,系統(tǒng)可以部署到機構內(nèi)部(大數(shù)據(jù)鏡像服務),也可以部署在云端,并提供標準或者個性化的檢索與閱讀頁面,機構讀者可以在機構內(nèi)部和外部通過移動終端(微信小程序)、PC瀏覽器訪問大數(shù)據(jù)服務;面向讀者提供服務時,充分考慮到新聞機構已有的系統(tǒng)建設,提供數(shù)據(jù)服務接口,為新聞機構已有系統(tǒng)提供數(shù)據(jù)獲取服務。

?

大數(shù)據(jù)增值應用實現(xiàn)需要的核心技術

大數(shù)據(jù)服務首先要解決大數(shù)據(jù)的存儲與高并發(fā)運算需求。大數(shù)據(jù)的特征是高價值的海量數(shù)據(jù)、數(shù)據(jù)來源渠道眾多、適合于數(shù)據(jù)的挖掘和重組、支持高并發(fā)運算。基于大數(shù)據(jù)的上述特征,采用傳統(tǒng)的數(shù)據(jù)集中式存儲和關系型數(shù)據(jù)庫技術已經(jīng)不能滿足大數(shù)據(jù)服務需求,需要采用新的存儲和數(shù)據(jù)庫技術。

大數(shù)據(jù)服務宜采用分布式存儲以提高大數(shù)據(jù)的存儲擴展能力。考慮到大數(shù)據(jù)硬件建設成本和便捷的擴展性,服務器應采用價格低廉的普通PC服務器,每臺PC服務器通過網(wǎng)絡連接,工作互相不受干擾,數(shù)據(jù)存儲到自身的硬盤上,當需要擴展數(shù)據(jù)存儲時,直接在網(wǎng)絡中加入PC服務器即可。所有接入存儲網(wǎng)絡的PC服務器在分布式操作系統(tǒng)的控制下,自動保存數(shù)據(jù)的多個副本到不同的PC服務器,以提高數(shù)據(jù)的容錯性,可以在不同服務器之間直接拷貝和復制數(shù)據(jù),保持各服務器的負載平衡。

系統(tǒng)應用分布式基礎架構Hadoop技術,硬件可以基于普通PC 服務器,存儲基于服務器自帶的本地硬盤,操作系統(tǒng)采用Linux。上述基礎架構擁有較高的存儲擴展能力和內(nèi)在的故障容錯能力以及數(shù)據(jù)保障機制,可以降低每TB數(shù)據(jù)的處理成本,為大數(shù)據(jù)處理提供技術和性價比支撐。數(shù)據(jù)庫采用Hbase,HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。利用HBase和Hadoop技術,可在廉價PC 服務器上搭建大規(guī)模結構化存儲集群。

大數(shù)據(jù)服務宜采用云計算以提高大數(shù)據(jù)的運算能力,運算能力包括檢索、數(shù)據(jù)挖掘、重組能力。由不同PC服務器組成的分布式存儲系統(tǒng)可以構建云計算,利用PC服務器自身的運算能力,對自身存儲的數(shù)據(jù)進行運算,每臺PC服務器的運算結果匯總后,返回給數(shù)據(jù)請求者。

利用Hadoop的MapReduce技術,可以控制多臺PC服務器完成數(shù)據(jù)的并發(fā)運算。例如,讀者在前端的一個檢索請求,會觸發(fā)MapReduce發(fā)起云計算,MapReduce將調(diào)用多臺PC服務器參與運算,然后將每臺服務器的運算結果匯總并返回給檢索系統(tǒng)。

總結

以上是生活随笔為你收集整理的大数据学习之路——新闻大数据的增值应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。