大数据之项目需求及架构设计
生活随笔
收集整理的這篇文章主要介紹了
大数据之项目需求及架构设计
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1、項目需求
- 1、用戶行為數據采集平臺搭建
- 2、業務數據采集平臺搭建
- 3、數據倉庫維度建模
- 4、采用即席查詢工具,隨時進行指標分析
- 5、對集群性能進行監控,發生異常需要報警
- 6、元數據管理
- 7、質量監控
- 8、權限管理
2、技術選型
2.1 技術選型
技術選型主要考慮因素:數據量大小、業務需求、行業經驗、技術成熟度、開發維護成本、總成本預算
- 數據采集傳輸:Flume,Kafka,Sqoop,Logstash,DataX
- 數據存儲:MySQL、HDFS、HBase、Redis、MongDB
- 數據計算:Hive、Tez、Spark、Flink、Storm
- 數據查詢:Presto、Kylin、Impala、Druid、ClickHouse、Doris
- 數據可視化:Echarts、Superset、QuickBI、DataV
- 任務調度:Azkaban、Oozie、DolphinScheduler、Airflow
- 集群監控:Zabbix、Prometheus
- 元數據管理:Altas
- 權限管理:Ranger、Sentry
2.2 系統數據流程設計
2.3 框架版本選型
2.3.1 如何選擇Apache/CDH/HDP版本?
-
Apache:運維麻煩,組件間兼容性需要自己調研。(一般大廠使用,技術實力雄厚,有專業的運維人員)(建議使用)
-
CDH:國內使用最多的版本,但是CM不開源,今年(2021年)開始收費,今年開始收費,一個節點1萬美金/年。
-
HDP:開源,可以進行二次開發,但是沒有CDH穩定,國內使用較少。
2.3.2 云服務選擇
- 阿里云的EMR、MaxCompute、DataWorks
- 亞馬遜云EMR
- 騰訊云EMR
- 華為云EMR
2.4 服務器選型
2.4.1 物理機
- 以128G內存,20核物理CPU,40線程,8THDD和2TSSD硬盤,戴爾品牌單臺報價4w出頭。一般物理機壽命5年左右。
- 需要有專業的運維人員,平均一個月1萬。電費也是不少的開銷。
2.4.2 云主機
- 云主機:以阿里云為例,差不多相同配置,每年5w.
- 很多運維工作都是由阿里云完成,運維相對較輕松。
2.5 集群規模
以每臺服務器8T磁盤,128G內存為例
- 每天增量數據100G
- 保留半年歷史數據 100G*180天≈18T
- 保存3個副本:約54T
- 預留20%Buffer: 54T/0.7 = 77T
- 約8T * 10臺服務器
另外,還需要考慮數倉分層、數據采取的壓縮策略等情況。
2.6 集群資源規劃設計
在企業中通常會搭建一套生產集群和一套測試集群。生產集群運行生產任務,測試集群用于上線前代碼編寫和測試。
2.6.1 測試集群集群資源規劃案例
2.6.2 生產集群集群資源規劃案例
(1)消耗內存的分開
(2)數據傳輸數據比較緊密的放在一起(Kafka 、Zookeeper)
(3)客戶端盡量放在一到兩臺服務器上,方便外部訪問
(4)有依賴關系的盡量放到同一臺服務器(例如:Hive和Azkaban Executor)
總結
以上是生活随笔為你收集整理的大数据之项目需求及架构设计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GB35114---SM3withSM2
- 下一篇: 什么是chip信号