當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

资深数据大牛《教你如何从零开始做大数据底层架构》！（转）

發(fā)布時(shí)間：2025/3/15 编程问答 34 豆豆

生活随笔收集整理的這篇文章主要介紹了资深数据大牛《教你如何从零开始做大数据底层架构》！（转）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

http://www.toutiao.com/a6475623583879004685/?tt_from=weixin&utm_campaign=client_share&app=news_article_social&utm_source=weixin&iid=15964468510&utm_medium=toutiao_ios&wxshare_count=1

隨著公司業(yè)務(wù)的增長(zhǎng)，大量和業(yè)務(wù)、流程、規(guī)則相關(guān)的半結(jié)構(gòu)化數(shù)據(jù)也爆發(fā)式增長(zhǎng)。但數(shù)據(jù)分散在公司的各個(gè)系統(tǒng)中，如何將它們匯總并形成統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)，使企業(yè)靈活，高效的運(yùn)用成了難題。

如需將分散的各個(gè)底層數(shù)據(jù)匯總則需建立完整的體系，支撐風(fēng)控的大數(shù)據(jù)框架則是重中之重。

擁有5000萬(wàn)+注冊(cè)用戶(hù)；13億+設(shè)備標(biāo)簽；100億+行為數(shù)據(jù)；1500萬(wàn)+行業(yè)關(guān)注名單等海量多維數(shù)據(jù)的拍拍信則是從這幾個(gè)方面落實(shí)：

1. 數(shù)據(jù)采集

面對(duì)來(lái)源各異、以結(jié)構(gòu)化/半結(jié)構(gòu)化為主的數(shù)據(jù)，我們使用linkedin開(kāi)源的camus來(lái)采集消息類(lèi)數(shù)據(jù)，使用kettle來(lái)采集RMDB的數(shù)據(jù)。

2. 數(shù)據(jù)儲(chǔ)存

將采集到的原始數(shù)據(jù)存儲(chǔ)到hadoop集群的分布式文件系統(tǒng)中。此外，基于hdfs文件系統(tǒng)對(duì)小文件并不是很友好的前提下，定期對(duì)歷史文件進(jìn)行合并、壓縮、歸檔的操作也很有必要。

3. 離線(xiàn)處理

數(shù)據(jù)的離線(xiàn)處理則是一個(gè)非常大的話(huà)題，相當(dāng)多的工作量都在這里，但它的價(jià)值卻往往不會(huì)馬上得到體現(xiàn)，從而被企業(yè)忽視。不僅僅包含以下這些內(nèi)容：

l 構(gòu)建并不停地豐富數(shù)據(jù)倉(cāng)庫(kù)

參照傳統(tǒng)的ODS，DW，DM將數(shù)倉(cāng)分層，對(duì)數(shù)據(jù)進(jìn)行加密、去重后分門(mén)別類(lèi)，持續(xù)不斷的堅(jiān)持做這件事。

l 管理元數(shù)據(jù)

建立數(shù)據(jù)字典，統(tǒng)一數(shù)據(jù)編碼，描繪數(shù)據(jù)血緣等。

l 檢測(cè)數(shù)據(jù)質(zhì)量

從眾數(shù)、少數(shù)、中位數(shù)、平均值等多維度來(lái)檢測(cè)和把握數(shù)據(jù)的質(zhì)量。

4. 流式處理

我們使用spark streaming將特征工程、模型結(jié)果計(jì)算與流式處理相結(jié)合，提供秒級(jí)的輸出。甚至成功的將類(lèi)似RNN（循環(huán)神經(jīng)網(wǎng)絡(luò)）這樣的深度學(xué)習(xí)計(jì)算添加到整個(gè)流式處理的過(guò)程中。

5. 數(shù)據(jù)可視化

使用不同的工具以滿(mǎn)足不同場(chǎng)景、不同職責(zé)的人員對(duì)數(shù)據(jù)的使用。不僅僅包含以下這些內(nèi)容：

l 數(shù)據(jù)的即席查詢(xún)

懂SQL、隨意組合查詢(xún)條件，進(jìn)行自助查詢(xún)，可以忍受分鐘級(jí)的耗時(shí)。

l 多維分析

不懂SQL的情況下，在給定的維度和指標(biāo)下，隨意組合，并在秒級(jí)得到查詢(xún)結(jié)果。

l 靜態(tài)報(bào)表

只關(guān)注關(guān)鍵性指標(biāo)。

l 數(shù)據(jù)分析挖掘

會(huì)使用像python、R這樣的語(yǔ)言，結(jié)合集群的Spark、hive這樣的分布式處理工具，對(duì)數(shù)據(jù)進(jìn)行更深層次的利用。

經(jīng)過(guò)處理的底層大數(shù)據(jù)相對(duì)于以往，在實(shí)際業(yè)務(wù)中使源數(shù)據(jù)種類(lèi)更豐富，數(shù)據(jù)量更多，借助集群的助力，處理速度更快，回溯時(shí)間更久遠(yuǎn)。

實(shí)際運(yùn)用：

模型訓(xùn)練：風(fēng)控模型是互聯(lián)網(wǎng)金融，傳統(tǒng)金融等行業(yè)在風(fēng)控流程中不可或缺的環(huán)節(jié)。

模型應(yīng)用：將模型與流式計(jì)算相結(jié)合，提供秒級(jí)的風(fēng)控決策。

數(shù)據(jù)產(chǎn)品：對(duì)數(shù)據(jù)加工處理，產(chǎn)生像多頭、風(fēng)險(xiǎn)名單一類(lèi)的數(shù)據(jù)產(chǎn)品。

常用業(yè)務(wù)：企業(yè)在日常工作中各個(gè)環(huán)節(jié)都涉及到數(shù)據(jù)如：處理數(shù)據(jù)，更新數(shù)據(jù)，數(shù)據(jù)調(diào)用，查詢(xún)?nèi)罩镜取?/p>

運(yùn)用大數(shù)據(jù)架構(gòu)前后比對(duì)：

項(xiàng)目	前	后
數(shù)據(jù)體量	GB級(jí)	TB ~ PB級(jí)
響應(yīng)時(shí)效	h級(jí)	ms ~ min級(jí)
回溯	日/月	年
成本	反復(fù)人工成本	一次投入，多方使用

在進(jìn)行大數(shù)據(jù)框架搭建時(shí)還需注意以下幾點(diǎn)：

現(xiàn)在即使在同一細(xì)分領(lǐng)域，也有很多開(kāi)源技術(shù)可供選擇，請(qǐng)盡量選用相對(duì)成熟，社區(qū)活躍的；能選用開(kāi)源的，盡量避免自研；另外代碼如果要維護(hù)自己分支，請(qǐng)?zhí)貏e要謹(jǐn)慎，避免與社區(qū)越走越遠(yuǎn)；hadoop最初并沒(méi)有太多的考慮數(shù)據(jù)安全方面，這點(diǎn)要自己加強(qiáng)；高穩(wěn)定性和高性能往往一個(gè)是魚(yú)，一個(gè)是熊掌，請(qǐng)考慮好取舍。

本期對(duì)大數(shù)據(jù)底層架構(gòu)的分享就到這里，歡迎大家聯(lián)系探討。

轉(zhuǎn)載于:https://www.cnblogs.com/quietwalk/p/7659857.html

總結(jié)

以上是生活随笔為你收集整理的资深数据大牛《教你如何从零开始做大数据底层架构》！（转）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：素数分布 - nefu 117
下一篇：【例题5-7 UVA - 136】Ugl

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

编程问答

资深数据大牛《教你如何从零开始做大数据底层架构》！（转）

總結(jié)