日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

资深数据大牛深度解析:大数据底层架构!

發布時間:2025/4/5 编程问答 44 豆豆
生活随笔 收集整理的這篇文章主要介紹了 资深数据大牛深度解析:大数据底层架构! 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

https://www.sohu.com/a/197469801_99989999?sec=wd&spm=smpc.author.fd-d.20.1553654800781yejuW6n

隨著公司業務的增長,大量和業務、流程、規則相關的半結構化數據也爆發式增長。但數據分散在公司的各個系統中,如何將它們匯總并形成統一的企業級數據倉庫,使企業靈活,高效的運用成了難題。

如需將分散的各個底層數據匯總則需建立完整的體系,支撐風控的大數據框架則是重中之重。

擁有5000萬+注冊用戶;13億+設備標簽;100億+行為數據;1500萬+行業關注名單等海量多維數據的拍拍信則是從這幾個方面落實:

1. 數據采集

面對來源各異、以結構化/半結構化為主的數據,我們使用linkedin開源的camus來采集消息類數據,使用kettle來采集RMDB的數據。

2. 數據儲存

將采集到的原始數據存儲到hadoop集群的分布式文件系統中。此外,基于hdfs文件系統對小文件并不是很友好的前提下,定期對歷史文件進行合并、壓縮、歸檔的操作也很有必要。

3. 離線處理

數據的離線處理則是一個非常大的話題,相當多的工作量都在這里,但它的價值卻往往不會馬上得到體現,從而被企業忽視。不僅僅包含以下這些內容:

l?構建并不停地豐富數據倉庫

參照傳統的ODS,DW,DM將數倉分層,對數據進行加密、去重后分門別類,持續不斷的堅持做這件事。

l?管理元數據

建立數據字典,統一數據編碼,描繪數據血緣等。

l?檢測數據質量

從眾數、少數、中位數、平均值等多維度來檢測和把握數據的質量。

4. 流式處理

我們使用spark streaming將特征工程、模型結果計算與流式處理相結合,提供秒級的輸出。甚至成功的將類似RNN(循環神經網絡)這樣的深度學習計算添加到整個流式處理的過程中。

5. 數據可視化

使用不同的工具以滿足不同場景、不同職責的人員對數據的使用。不僅僅包含以下這些內容:

l 數據的即席查詢

懂SQL、隨意組合查詢條件,進行自助查詢,可以忍受分鐘級的耗時。

l 多維分析

不懂SQL的情況下,在給定的維度和指標下,隨意組合,并在秒級得到查詢結果。

l 靜態報表

只關注關鍵性指標。

l 數據分析挖掘

會使用像python、R這樣的語言,結合集群的Spark、hive這樣的分布式處理工具,對數據進行更深層次的利用。

經過處理的底層大數據相對于以往,在實際業務中使源數據種類更豐富,數據量更多, 借助集群的助力,處理速度更快,回溯時間更久遠。

實際運用:

模型訓練:風控模型是互聯網金融,傳統金融等行業在風控流程中不可或缺的環節。

模型應用:將模型與流式計算相結合,提供秒級的風控決策。

數據產品:對數據加工處理,產生像多頭、風險名單一類的數據產品。

常用業務:企業在日常工作中各個環節都涉及到數據如:處理數據,更新數據,數據調用,查詢日志等。

運用大數據架構前后比對:

在進行大數據框架搭建時還需注意以下幾點:

現在即使在同一細分領域,也有很多開源技術可供選擇,請盡量選用相對成熟,社區活躍的;能選用開源的,盡量避免自研;另外代碼如果要維護自己分支,請特別要謹慎,避免與社區越走越遠;hadoop最初并沒有太多的考慮數據安全方面,這點要自己加強;高穩定性和高性能往往一個是魚,一個是熊掌,請考慮好取舍。

轉載于:https://www.cnblogs.com/davidwang456/articles/10606042.html

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的资深数据大牛深度解析:大数据底层架构!的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。