据阿里云EMR快速搭建数据平台(二)
生活随笔
收集整理的這篇文章主要介紹了
据阿里云EMR快速搭建数据平台(二)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
2019獨角獸企業重金招聘Python工程師標準>>>
數據平臺架構跌代及研發
架構方案及版本跌代
統計版0.0.1
spark+redis+oss+sls相關接口測試用例和分析環境都已打通
解析后內容,緩存內容,數據檢查點:內存和本地或hadoop臨時文件
持續更新狀態或數據累加匯總結果直接記redis
常用中間結果數據集考慮存oss(redis備選簡單集存儲,因數據鏈接資源問題,不適用直接在nosql上做跌代計算),如新老訪客標識等
redis存儲KEY(暫定):domain-prduct-model-指標[-維度1|維度2-周期-其它]
如:twotiger訪問統計 站點概要 當天北京小時級ip分步的前十個IP twotiger.com-siteStatistics-siteSummary-ip-timeDim=today|regionalDim=110000-h-top10
維度表存儲
mysql
阿里統一了hive元數據庫(統一了不給root權限,不在emr,可能不能手動增改,總之不靈活,如是業務性質維度也不太安全)
自建rds 庫保存管理維護元數據
emr中master節點有一本地mysql,先把維度表暫放至test庫,以后在遷移
oss文件
hbase
其它nosql
統計+檢索(當前需求基本滿足)
nosql為主的集群,如mogo,解決關系型百萬級以上讀寫常用統計困難問題
優點:以業務方案統一,簡單直接成熟易操作開發維護投入成本低,常用檢索統計需求均可滿足,除nosql分步式存儲訪問優勢,
還能運用spark給業務查詢統計帶來分步式計算的優勢,如百萬級記錄統計,從db的30s到nosql的10s內到spark的秒級
劣勢:
1.正則檢索并不能發揮nosql內存索引優化,不支持Join,區分大小寫,內存翻倍增長,分片均衡拷備延遲,鎖管理等 2.日志容量增長是業務數據的倍數,可能很快到達nosql邊界,出現丟數據,無端故障等不穩定狀況, 需實際測試,nosql集群的邊界和日志的增長合理估算周期和投入
針對版本一架構的改動:
緩存及數據檢查點不變
解析后內容或數據處理后結果直接進mongo
mongo3.2以上,shard分片加replcat set,ssd緩存或全硬盤 2核 4G集群版(據數據增長擴容shard;目前rds都可以改配置有幾次停屯,升級拷備不影響使用時間)
10萬全表掃描?秒,百萬? 秒
單實例存儲量估計?W,內存使用估計?G,監控指標?%備增節點或做相應優化
阿里官方性能指標:單分片(shard)最大支持25600的IOPS,最大存儲2T數據,單分片最大可承載近 10萬 QPS 的應用壓力;且Sharding模式支持水平無限擴展
個別慢查詢優化方案:獨立connection或hbase中做預查詢存儲優化
持續狀態和匯總統計結果值可以用redis也可以合到mongo另一獨立connection
常用中間結果集類似oss主為,mongo或redis備選
升級版,mongo極限后遷致hbase,量上解決了,但檢索開發及性能由自己設計,維護成本沒有優勢
十萬條全表查詢秒級,百萬在5-8秒
有rowkey過慮功能,社區支持勾子函數實現二級索引
全文檢索還是另借lucence等實現
適合場景:
結構化(單純的、海量的key value)或半結構化的非關系型的數據,大規模寫入(注意適時禁用auto split)、掃庫的業務
不適宜:
1.隨機讀取:整block加載到內存,二分查找,緩存不斷重建修改 2.靈活查詢則需要自己構建二級索引,甚至重復數據建立不同的查詢key實現,冗余和靈活性,維護開發成本大
阿里公測階段需申請
統計+全文檢索版(為一檢索功能投入太大)
日志服務+OTS(沒這東西據查,日志搜索一個是周期限制歷史數據 沒有不是全量, 二是只簡單手動配置索引,需現加Keywords)
阿里不支持ES是opensearch服務(對決解析后的oss,頁面級設置即可生成日志分詞索引)
ES自搭。。。
架構改動:
解析及處理后結果偏向存oss或hadoop或自有分步索引格式
全文檢索上做統計,要做中間橋接匹配,如檢索出的記錄,用id列在spark rdd中做filter 或是nosql中in(ids,,,)
其它類似redis 或mongo
數倉DW,集市DM,OLAP,BI完整版(大工程,針對多倉庫多系統多行業)
倉庫設計管理維護
ODS
集市設計管理維護
元數據管理維護
多維度(拖拉)粒度(上鉆下取)自助分析平臺OLAP
cube加速技術
kylin
presto
impala
自建加速寬表優化
商業BI,智能決策中心,,,,
轉載于:https://my.oschina.net/hblt147/blog/879151
總結
以上是生活随笔為你收集整理的据阿里云EMR快速搭建数据平台(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 可能是目前轻量级弹幕控件中功能最强大的一
- 下一篇: PLC与IC卡读卡器