资深数据大牛《教你如何从零开始做大数据底层架构》!(转)
http://www.toutiao.com/a6475623583879004685/?tt_from=weixin&utm_campaign=client_share&app=news_article_social&utm_source=weixin&iid=15964468510&utm_medium=toutiao_ios&wxshare_count=1
隨著公司業(yè)務(wù)的增長(zhǎng),大量和業(yè)務(wù)、流程、規(guī)則相關(guān)的半結(jié)構(gòu)化數(shù)據(jù)也爆發(fā)式增長(zhǎng)。但數(shù)據(jù)分散在公司的各個(gè)系統(tǒng)中,如何將它們匯總并形成統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),使企業(yè)靈活,高效的運(yùn)用成了難題。
如需將分散的各個(gè)底層數(shù)據(jù)匯總則需建立完整的體系,支撐風(fēng)控的大數(shù)據(jù)框架則是重中之重。
擁有5000萬(wàn)+注冊(cè)用戶(hù);13億+設(shè)備標(biāo)簽;100億+行為數(shù)據(jù);1500萬(wàn)+行業(yè)關(guān)注名單等海量多維數(shù)據(jù)的拍拍信則是從這幾個(gè)方面落實(shí):
1. 數(shù)據(jù)采集
面對(duì)來(lái)源各異、以結(jié)構(gòu)化/半結(jié)構(gòu)化為主的數(shù)據(jù),我們使用linkedin開(kāi)源的camus來(lái)采集消息類(lèi)數(shù)據(jù),使用kettle來(lái)采集RMDB的數(shù)據(jù)。
2. 數(shù)據(jù)儲(chǔ)存
將采集到的原始數(shù)據(jù)存儲(chǔ)到hadoop集群的分布式文件系統(tǒng)中。此外,基于hdfs文件系統(tǒng)對(duì)小文件并不是很友好的前提下,定期對(duì)歷史文件進(jìn)行合并、壓縮、歸檔的操作也很有必要。
3. 離線(xiàn)處理
數(shù)據(jù)的離線(xiàn)處理則是一個(gè)非常大的話(huà)題,相當(dāng)多的工作量都在這里,但它的價(jià)值卻往往不會(huì)馬上得到體現(xiàn),從而被企業(yè)忽視。不僅僅包含以下這些內(nèi)容:
l 構(gòu)建并不停地豐富數(shù)據(jù)倉(cāng)庫(kù)
參照傳統(tǒng)的ODS,DW,DM將數(shù)倉(cāng)分層,對(duì)數(shù)據(jù)進(jìn)行加密、去重后分門(mén)別類(lèi),持續(xù)不斷的堅(jiān)持做這件事。
l 管理元數(shù)據(jù)
建立數(shù)據(jù)字典,統(tǒng)一數(shù)據(jù)編碼,描繪數(shù)據(jù)血緣等。
l 檢測(cè)數(shù)據(jù)質(zhì)量
從眾數(shù)、少數(shù)、中位數(shù)、平均值等多維度來(lái)檢測(cè)和把握數(shù)據(jù)的質(zhì)量。
4. 流式處理
我們使用spark streaming將特征工程、模型結(jié)果計(jì)算與流式處理相結(jié)合,提供秒級(jí)的輸出。甚至成功的將類(lèi)似RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))這樣的深度學(xué)習(xí)計(jì)算添加到整個(gè)流式處理的過(guò)程中。
5. 數(shù)據(jù)可視化
使用不同的工具以滿(mǎn)足不同場(chǎng)景、不同職責(zé)的人員對(duì)數(shù)據(jù)的使用。不僅僅包含以下這些內(nèi)容:
l 數(shù)據(jù)的即席查詢(xún)
懂SQL、隨意組合查詢(xún)條件,進(jìn)行自助查詢(xún),可以忍受分鐘級(jí)的耗時(shí)。
l 多維分析
不懂SQL的情況下,在給定的維度和指標(biāo)下,隨意組合,并在秒級(jí)得到查詢(xún)結(jié)果。
l 靜態(tài)報(bào)表
只關(guān)注關(guān)鍵性指標(biāo)。
l 數(shù)據(jù)分析挖掘
會(huì)使用像python、R這樣的語(yǔ)言,結(jié)合集群的Spark、hive這樣的分布式處理工具,對(duì)數(shù)據(jù)進(jìn)行更深層次的利用。
經(jīng)過(guò)處理的底層大數(shù)據(jù)相對(duì)于以往,在實(shí)際業(yè)務(wù)中使源數(shù)據(jù)種類(lèi)更豐富,數(shù)據(jù)量更多, 借助集群的助力,處理速度更快,回溯時(shí)間更久遠(yuǎn)。
實(shí)際運(yùn)用:
模型訓(xùn)練:風(fēng)控模型是互聯(lián)網(wǎng)金融,傳統(tǒng)金融等行業(yè)在風(fēng)控流程中不可或缺的環(huán)節(jié)。
模型應(yīng)用:將模型與流式計(jì)算相結(jié)合,提供秒級(jí)的風(fēng)控決策。
數(shù)據(jù)產(chǎn)品:對(duì)數(shù)據(jù)加工處理,產(chǎn)生像多頭、風(fēng)險(xiǎn)名單一類(lèi)的數(shù)據(jù)產(chǎn)品。
常用業(yè)務(wù):企業(yè)在日常工作中各個(gè)環(huán)節(jié)都涉及到數(shù)據(jù)如:處理數(shù)據(jù),更新數(shù)據(jù),數(shù)據(jù)調(diào)用,查詢(xún)?nèi)罩镜取?/p>
運(yùn)用大數(shù)據(jù)架構(gòu)前后比對(duì):
| 項(xiàng)目 | 前 | 后 |
| 數(shù)據(jù)體量 | GB級(jí) | TB ~ PB級(jí) |
| 響應(yīng)時(shí)效 | h級(jí) | ms ~ min級(jí) |
| 回溯 | 日/月 | 年 |
| 成本 | 反復(fù)人工成本 | 一次投入,多方使用 |
在進(jìn)行大數(shù)據(jù)框架搭建時(shí)還需注意以下幾點(diǎn):
現(xiàn)在即使在同一細(xì)分領(lǐng)域,也有很多開(kāi)源技術(shù)可供選擇,請(qǐng)盡量選用相對(duì)成熟,社區(qū)活躍的;能選用開(kāi)源的,盡量避免自研;另外代碼如果要維護(hù)自己分支,請(qǐng)?zhí)貏e要謹(jǐn)慎,避免與社區(qū)越走越遠(yuǎn);hadoop最初并沒(méi)有太多的考慮數(shù)據(jù)安全方面,這點(diǎn)要自己加強(qiáng);高穩(wěn)定性和高性能往往一個(gè)是魚(yú),一個(gè)是熊掌,請(qǐng)考慮好取舍。
本期對(duì)大數(shù)據(jù)底層架構(gòu)的分享就到這里,歡迎大家聯(lián)系探討。
轉(zhuǎn)載于:https://www.cnblogs.com/quietwalk/p/7659857.html
總結(jié)
以上是生活随笔為你收集整理的资深数据大牛《教你如何从零开始做大数据底层架构》!(转)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 素数分布 - nefu 117
- 下一篇: 【例题5-7 UVA - 136】Ugl