华数大数据平台解决方案
http://www.soft78.com/article/2016-03/8a2389fd5310d3e40153300fbe9901c0.html
第1章 華數大數據分析平臺方案介紹
1.1 華數大數據平臺總體架構
1.1.1 華數大數據平臺應用架構
? 應用架構圖
基于華數多年來的開發經驗,并借鑒行業大數據分析平臺的實施、管理和應用方面的成功經驗,結合禾豐牧業實際信息化情況,我們將禾豐大數據平臺實際為三層架構,其中:
l基礎數據源層:目前禾豐牧業所應用的數據主要來源于業務系統(EAS)與平面文本文件(Excel)兩種類型,結合未來信息化的發展,音頻數據和視頻數據等越來越豐富的數據類型也將陸續納入到我們的大數據平臺體系之中,因此為保證我們的大數據平臺的先進性,要能支持多種類型的數據源;l大數據處理層:由于數據源類型的多樣性,傳統關系型數據倉庫架構或者分布式存儲架構各有優缺點,單獨使用都無法很好的滿足對結構化和非結構化數據的存儲和應用需求,因此我們建議采用傳統數據倉庫架構與大數據分布式數據倉庫架構兩者相結合的架構設計,兩者緊密配合共同承擔大數據處理任務,為大數據應用提供數據接口、數據交換、數據查詢、數據分析和數據挖掘提供數據基礎;l大數據應用層:隨著信息化的發展,對大數據的應用方式也越來越多,大數據分析平臺應用層需要滿足諸如:固定報表、OLAP分析、KPI分析、指標監控、即席查詢(自助式分析)、決策支持、郵件推送、office集成、移動BI、預警預測(數據挖掘)等多種展現方式。
1.1.2禾豐大數據平臺技術架構
?
技術架構圖
根據我們實施建設大數據分析平臺多年的經驗,結合禾豐牧業三層式數分析平臺系統構架,通過數據采集(包括數據源)、信息存儲與管理(數據倉庫和Hadoop)和信息共享三部分技術來實現。 l數據采集:
1)結構化數據采集:禾豐牧業現有的數據主要來自于EAS系統、青軟系統、電商平臺和文本文件都屬于結構化數據,大數據分析平臺采用ETL工具-kettle作為采集結構化數據的手段。ETL(Extract, Transform, Load)是建立大數據分析平臺的重要組成部分,它將大數據分析平臺中所需的數據按數據倉庫建立的方法每天或定期從各個業務系統中采集詳盡的業務數據,并根據各自的需求進行數據調整,數據遷移過程中需將原始數據進行抽取、清洗、合并和裝載。在此過程中必須保證數據的完備性和數據的一致性。當業務數據量過大,未避免Mysql數據倉庫壓力過大,亦可將業務數據通過kettle遷移到hadoop平臺的數據庫Hbase中。
2)非結構化數據采集:隨著禾豐牧業信息化建設的發展,未來電話會議、視頻會議、影音文件、微博實時數據、傳感器采集的設備數據、移動端收集的數據以及其他流數據等非結構化數據,我們將通過傳感器接口、視頻接入設備、網絡爬蟲工具和流處理程序等方式分別進行采集并存儲到HDFS和Hbase中。l大數據存儲和管理:
1)結構化數據存儲和管理:為方便其管理和滿足未來展現的性能要求,我們選擇以關系型數據庫MySQL和hadoop的HBase數據庫共同承擔對結構化的數據的存儲和管理。以MySQL建立傳統數據倉庫來實現對用于結構化數據和元數據的集中存儲與管理,并根據需求建立面向部門和主題的數據集市,中央數據倉庫將被劃分為三個邏輯存儲區間: ODS(Operational Data Store)、DW(Data Warehourse)、DM(Data Mart):ODS將存放各業務系統的原始數據,包括與原結構相同的業務數據以及經過初步整理后的業務數據;DW區域存放經過整理過的數據,是大數據分析平臺真正的數據中心;DM區域存放各個應用系統(web應用、BI、OLAP、Data Mining等)所需的綜合數據。與此同時我們在MySQL和HBase數據庫之間建立連接,利用Kettle定時進行數據交換,倆種數據倉庫共同大數據應用提供數據支撐,從而實現數據共享,分攤壓力和數據備份的目的。
2)非結構化數據存儲和管理:由于Mysql不支持對非結構化數據的存儲,我們利用大數據應用框架Hadoop平臺的數據倉庫作為傳統數據倉庫的補充,實現對非結構化數據的存儲和管理,并對來自網絡的海量數據查詢提供支撐。Hadoop平臺集中了很多功能組件,其中HDFS是分布式文件系統,用于分布式存儲大數據文件;Hbase是可擴展的分布式列存儲NoSQL數據庫,用于存儲結構化和非結構化數據;Hive是基于Hadoop的數據倉庫工具,可以存儲、查詢和分析存儲在HBase中的數據;Mapreduce是用于對Hadoop平臺大規模數據集進行并行查詢的編程模型;Pig 是一個高級過程語言,適合于使用 Hadoop 和 MapReduce 平臺來查詢大型半結構化數據集。l應用與分析:大數據分析平臺為滿足不同用戶的需求,需要提供多種不同的應用與分析方式,大數據分析平臺提供三種應用方式。第一種:支持利用java或C等開發語言編寫程序實現對Hadoop平臺和MySQL數據倉庫中數據的應用;第二種:我們選用強大的商務智能軟件IBM-Cognos作為信息共享工具。Cognos作為多樣化的前端分析展示工具,支持建立DMR和OLAP兩種模型,提供了在線報表、OlAP分析、儀表板、記分卡、即席查詢、郵件分發、Office集成、移動APP等多種信息共享技術。第三種:我們選用” 統計產品與服務解決方案”軟件IBM-SPSS作為數據挖掘工具,SPSS支持以Hadoop平臺和MySQL搭建挖掘模型,用于統計學分析運算、數據挖掘、預測分析和決策支持任務,支持描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等多類統計分析和挖掘算法。
轉載于:https://www.cnblogs.com/davidwang456/articles/9732879.html
總結
以上是生活随笔為你收集整理的华数大数据平台解决方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据仓库系列篇——唯品会大数据架构
- 下一篇: 企业大数据平台仓库架构建设思路