某集团大数据平台整体架构及实施方案
1---項目概述 ?14?
1.1 ?建設背景 ?14
? ?1.1.1 ?集團已有基礎 ?14
? ?1.1.2 ?痛點及需提升的能力 ?14
? ?1.1.3 ?大數據趨勢 ?15
1.2 ?建設目標 ?15
? ?1.2.1 ?總體目標 ?15
? ?1.2.2 ?分階段建設目標 ?16
1.3 ?與相關系統的關系 ?16
? ?1.3.1 ?數據分析綜合服務平臺 ?16
? ?1.3.2 ?量收系統 ?17
? ?1.3.3 ?金融大數據平臺 ?18
? ?1.3.4 ?各生產系統 ?18
? ?1.3.5 ?CRM ?18
2---業務需求分析 ?24
2.1 ?總體需求 ?24
2.2 ?數據管理 ?25
? ?2.2.1 ?數據采集 ?26
? ?2.2.2 ?數據交換 ?26
? ?2.2.3 ?數據存儲與管理 ?26
? ?2.2.4 ?數據加工清洗 ?27
? ?2.2.5 ?數據查詢計算 ?27
2.3 ?數據管控 ?28
2.4 ?數據分析與挖掘 ?29
2.5 ?數據展現 ?29
2.6 ?量收系統功能遷移 ?30
3---系統架構設計 ?31
3.1 ?總體設計目標 ?31
3.2 ?總體設計原則 ?31
3.3 ?案例分析建議 ?32
? ?3.3.1 ?中國聯通大數據平臺 ?32
? ?3.3.2 ?恒豐銀行大數據平臺 ?39
? ?3.3.3 ?華通CDN運營商海量日志采集分析系統 ?51
? ?3.3.4 ?案例總結 ?56
3.4 ?系統總體架構設計 ?57
? ?3.4.1 ?總體技術框架 ?57
? ?3.4.2 ?系統總體邏輯結構 ?60
? ?3.4.3 ?平臺組件關系 ?62
? ?3.4.4 ?系統接口設計 ?67
? ?3.4.5 ?系統網絡結構 ?71
4---系統功能設計 ?73
4.1 ?概述 ?73
4.2 ?平臺管理功能 ?73
? ?4.2.1 ?多應用管理 ?73
? ?4.2.2 ?多租戶管理 ?77
? ?4.2.3 ?統一運維監控 ?78
? ?4.2.4 ?作業調度管理 ?97
4.3 ?數據管理 ?99
? ?4.3.1 ?數據管理框架 ?99
? ?4.3.2 ?數據采集 ?101
? ?4.3.3 ?數據交換 ?104
? ?4.3.4 ?數據存儲與管理 ?105
? ?4.3.5 ?數據加工清洗 ?123
? ?4.3.6 ?數據計算 ?124
? ?4.3.7 ?數據查詢 ?139
4.4 ?數據管控 ?158
? ?4.4.1 ?主數據管理 ?158
? ?4.4.2 ?元數據管理技術 ?160
? ?4.4.3 ?數據質量 ?163
4.5 ?數據ETL ?170
4.6 ?數據分析與挖掘 ?172
? ?4.6.1 ?數據分析流程 ?174
? ?4.6.2 ?R語言開發環境與接口 ?175
? ?4.6.3 ?并行化R算法支持 ?176
? ?4.6.4 ?可視化R軟件包 ?179
? ?4.6.5 ?編程語言支持 ?181
? ?4.6.6 ?自然語言處理和文本挖掘 ?181
? ?4.6.7 ?實時分析 ?182
? ?4.6.8 ?分析管理 ?182
? ?4.6.9 ?分析支持 ?186
? ?4.6.10 ?指標維護 ?186
? ?4.6.11 ?分析流程固化 ?187
? ?4.6.12 ?分析結果發布 ?187
? ?4.6.13 ?環境支持 ?187
4.7 ?數據展現 ?188
? ?4.7.1 ?交互式報表 ?190
? ?4.7.2 ?儀表盤 ?195
? ?4.7.3 ?即席查詢 ?196
? ?4.7.4 ?內存分析 ?197
? ?4.7.5 ?移動分析 ?198
? ?4.7.6 ?電子地圖支持 ?198
5---技術要求實現 ?200?
5.1 ?產品架構 ?200
? ?5.1.1 ?基礎構建平臺 ?203
? ?5.1.2 ?大數據平臺組件功能介紹 ?204
? ?5.1.3 ?系統分布式架構 ?242
5.2 ?運行環境支持 ?244
? ?5.2.1 ?系統操作支持以及環境配置 ?244
? ?5.2.2 ?與第三方軟件平臺的兼容說明 ?245
5.3 ?客戶端支持 ?246
? ?5.3.1 ?客戶端支持 ?246
? ?5.3.2 ?移動端支持 ?246
5.4 ?數據支持 ?246
5.5 ?集成實現 ?248
5.6 ?運維實現 ?250
? ?5.6.1 ?運維目標 ?250
? ?5.6.2 ?運維服務內容 ?251
? ?5.6.3 ?運維服務流程 ?253
? ?5.6.4 ?運維服務制度規范 ?255
? ?5.6.5 ?應急服務響應措施 ?256
? ?5.6.6 ?平臺監控兼容 ?256
? ?5.6.7 ?資源管理 ?257
? ?5.6.8 ?系統升級 ?259
? ?5.6.9 ?系統監控平臺功能 ?260
5.7 ?平臺性能 ?268
? ?5.7.1 ?集群切換 ?268
? ?5.7.2 ?節點切換 ?270
? ?5.7.3 ?性能調優 ?271
? ?5.7.4 ?并行化高性能計算 ?276
? ?5.7.5 ?計算性能線性擴展 ?279
5.8 ?平臺擴展性 ?280
5.9 ?可靠性和可用性 ?282
? ?5.9.1 ?單點故障消除 ?282
? ?5.9.2 ?容災備份優化 ?284
? ?5.9.3 ?系統容錯性 ?288
5.10 ?開放性和兼容性 ?290
? ?5.10.1 ?高度支持開源 ?293
? ?5.10.2 ?操作系統支持以及軟件環境配置 ?305
? ?5.10.3 ?兼容性與集成能力 ?306
5.11 ?安全性 ?307
? ?5.11.1 ?身份鑒別 ?308
? ?5.11.2 ?訪問控制 ?308
? ?5.11.3 ?安全通訊 ?314
5.12 ?核心產品優勢 ?314
? ?5.12.1 ?高速運算、統計分析和精確查詢 ?314
? ?5.12.2 ?有效的資源利用 ?316
? ?5.12.3 ?高并發、低延遲性能優化 ?317
? ?5.12.4 ?計算資源有效管控 ?318
? ?5.12.5 ?API設計和開發工具支持 ?319
? ?5.12.6 ?友好的運維監控界面 ?321
? ?5.12.7 ?擴容、備份、恢復機制 ?325
? ?5.12.8 ?集群自動負載均衡 ?327
? ?5.12.9 ?計算能力擴展 ?327
5.13 ?自主研發技術優勢 ?327
? ?5.13.1 ?高穩定、高效的計算引擎Inceptor ?328
? ?5.13.2 ?完整的SQL編譯引擎 ?329
? ?5.13.3 ?高性能的SQL分析引擎 ?329
? ?5.13.4 ?SQL統計分析能力 ?330
? ?5.13.5 ?完整的CURD功能 ?331
? ?5.13.6 ?Hyperbase高效的檢索能力 ?332
? ?5.13.7 ?基于Hyperbase和SQL引擎的高并發分布式事務334
? ?5.13.8 ?Hyperbase非結構化數據的支持 ?335
? ?5.13.9 ?機器學習與數據挖掘 ?335
? ?5.13.10 ?Transwarp ?Stream ?339
? ?5.13.11 ?內存/SSD/磁盤混合存儲 ?341
? ?5.13.12 ?MR/Spark/流處理統一平臺 ?343
? ?5.13.13 ?多租戶支持能力 ?344
? ?5.13.14 ?多租戶安全功能 ?345
? ?5.13.15 ?標準JDBC與ODBC接口 ?345
6---系統性能指標和測試結果說明 ?347 ?
6.1 ?性能測試報告 ?347
? ?6.1.1 ?測試目標 ?347
? ?6.1.2 ?測試內容 ?347
? ?6.1.3 ?測試環境 ?347
? ?6.1.4 ?測試過程和結果 ?349
6.2 ?TPC-DS測試報告 ?352
? ?6.2.1 ?測試目標 ?352
? ?6.2.2 ?測試內容 ?352
? ?6.2.3 ?測試環境 ?354
? ?6.2.4 ?測試過程和結果 ?355
6.3 ?量收遷移驗證性測試報告 ?356
? ?6.3.1 ?測試目標 ?356
? ?6.3.2 ?測試內容 ?356
? ?6.3.3 ?測試環境 ?357
? ?6.3.4 ?串行執行情況 ?357
? ?6.3.5 ?并行執行情況 ?359
? ?6.3.6 ?生產表數據規模 ?360
? ?6.3.7 ?測試結果 ?362
6.4 ?某銀行性能測試報告 ?362
? ?6.4.1 ?測試目標 ?362
? ?6.4.2 ?測試內容 ?362
? ?6.4.3 ?測試環境 ?362
? ?6.4.4 ?測試過程和結果 ?363
7---系統配置方案 ?375
7.1 ?硬件系統配置建議 ?375
? ?7.1.1 ?基礎Hadoop平臺集群配置規劃 ?375
? ?7.1.2 ?數據倉庫集群配置規劃 ?377
? ?7.1.3 ?集群規模綜述 ?379
? ?7.1.4 ?開發集群配置建議 ?380
? ?7.1.5 ?測試集群配置建議 ?380
7.2 ?軟件配置建議 ?381
7.3 ?軟硬件配置總表 ?382
7.4 ?網絡拓撲 ?384
8---系統測試 ?385 ?
8.1 ?系統測試方法 ?385
8.2 ?系統測試階段 ?386
8.3 ?系統測試相關提交物 ?387
9---項目實施 ?389?
9.1 ?項目實施總體目標 ?389
9.2 ?項目管理 ?389
9.3 ?業務確認 ?390
9.4 ?數據調研 ?391
9.5 ?系統設計階段 ?392
9.6 ?集成部署階段 ?393
9.7 ?ETL過程設計 ?393
9.8 ?ETL開發與測試 ?394
9.9 ?系統開發階段 ?395
9.10 ?系統測試階段 ?396
9.11 ?系統上線及驗收 ?397
9.12 ?提交物 ?399
9.13 ?系統的交接與知識轉移 ?401
10---項目管理 ?403 ?
10.1 ?項目總體管理 ?403
? ?10.1.1 ?項目實施總流程 ?403
? ?10.1.2 ?項目實施中各階段的主要任務 ?403
? ?10.1.3 ?項目組織架構 ?407
? ?10.1.4 ?項目負責人及主要成員 ?412
? ?10.1.5 ?項目管理制度 ?479
10.2 ?項目質量管理 ?482
? ?10.2.1 ?范圍 ?483
? ?10.2.2 ?過程目標 ?483
? ?10.2.3 ?角色與職責 ?483
? ?10.2.4 ?過程活動 ?485
10.3 ?項目計劃 ?488
11---安全保密 ?498 ?
11. ?安全保密 ?498
12---知識產權 ?500 ??
12. ?知識產權 ?500
13---技術服務 ?501 ?
13.1 ?現場支持服務 ?501
13.2 ?標準售后技術服務 ?502
? ?13.2.1 ?提供預防性維護 ?502
? ?13.2.2 ?系統升級服務 ?503
? ?13.2.3 ?系統性能優化 ?503
? ?13.2.4 ?提供系統完整文檔 ?503
? ?13.2.5 ?定期系統健康檢查服務 ?504
? ?13.2.6 ?應急預案 ?505
13.3 ?承諾 ?505
? ?13.3.1 ?我方對集團的承諾 ?505
? ?13.3.2 ?關于開發隊伍的承諾 ?505
13.4 ?技術保證 ?506
? ?13.4.1 ?方案實用性保證 ?506
? ?13.4.2 ?應用系統的運行能力的保證 ?506
? ?13.4.3 ?預防性維護檢修內容 ?506
? ?13.4.4 ?服務響應 ?507
? ?13.4.5 ?關于軟件維護的保證 ?507
? ?13.4.6 ?專業服務保證 ?508
? ?13.4.7 ?售后服務流程及時限 ?508
14---人員培訓 ?509?
14.1 ?Hadoop系統培訓 ?510
14.2 ?業務使用培訓 ?511
14.3 ?分析挖掘培訓 ?512
14.4 ?運行維護培訓 ?514
14.5 ?開發培訓 ?515
? ?14.5.1 ?培訓目標 ?518
? ?14.5.2 ?培訓方式 ?519
? ?14.5.3 ?培訓資源 ?519
? 掃一掃文章底部二維碼,領取完整文檔資料??
備注:博客
總結
以上是生活随笔為你收集整理的某集团大数据平台整体架构及实施方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 那些 IT 界的神翻译,原来我学不好编程
- 下一篇: 深圳本地网店代运营公司