数据仓库系列篇——唯品会大数据架构
https://zhuanlan.zhihu.com/p/45123018
What——大數(shù)據(jù)&數(shù)據(jù)倉庫
什么是大數(shù)據(jù)?
*?廣義的大數(shù)據(jù)是指:無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的、海量的、復雜的數(shù)據(jù)集合。業(yè)界通常用4個V(即Volume、Variety、Value、Velocity)概括大數(shù)據(jù)的特征——
一是數(shù)據(jù)體量巨大(Volume)。
二是數(shù)據(jù)類型繁多(Variety)。相對以往便于存儲的、以文本為主的結構化數(shù)據(jù),非結構化數(shù)據(jù)越來越多,包括網(wǎng)絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù),對數(shù)據(jù)的處理能力提出了更高要求。
三是價值密度低(Value)。以視頻為例,一部1小時的視頻,在連續(xù)不斷的監(jiān)控中,有用數(shù)據(jù)可能僅有1~2秒。如何通過強大的機器算法,更迅速地完成數(shù)據(jù)的價值“提純”,成為目前大數(shù)據(jù)背景下亟待解決的難題。
四是處理速度快(Velocity)。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。
什么是數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫的概念創(chuàng)始人W.H.Inmon在《建立數(shù)據(jù)倉庫》中定義:面向主題的、集成的、相對穩(wěn)定的、隨時間不斷變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。數(shù)據(jù)倉庫的目的,是構建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持。
大數(shù)據(jù)&數(shù)據(jù)倉庫
現(xiàn)在大部分情況下其實大家說的是狹義的大數(shù)據(jù),就是專門指處理大數(shù)據(jù)的新技術,新工具,例如分布式計算,分布式存儲等。數(shù)據(jù)倉庫是為企業(yè)提供決策支持的戰(zhàn)略集合,而大數(shù)據(jù)是技術,是工具。
Why——為何要建設好數(shù)據(jù)倉庫
大數(shù)據(jù)的運用,是金融得以快速發(fā)展的基礎。而良好的數(shù)據(jù)倉庫架構,可以協(xié)助這些應用快速實施,優(yōu)化資源利用。
唯品金融在建設之初,就清楚地知道充分利用大數(shù)據(jù)的重要性。大數(shù)據(jù)的應用,體現(xiàn)在金融用戶整個生命周期中——
在貸前階段,通過對所有客戶的分析和算法模型計算,我們分析哪些客戶更有金融產(chǎn)品需求,有針對性地在廣告資源和營銷資源上進行重點投放;
在風控審核階段,需要防止不符合要求的客戶通過審核,基于大數(shù)據(jù)構建授信評分模型、欺詐模型來控制風險;
在營銷階段,需要識別高價值用戶,利用大數(shù)據(jù)根據(jù)用戶的瀏覽和購買行為,對用戶進行畫像描述,在運營廣告位投放針對性的運營信息,促進用戶的開通和使用;
在貸后管理階段,根據(jù)客戶的購買行為及還款行為,提前預測還款風險情況,提前溝通,使壞賬始終維持在較低水平。
How——如何做好數(shù)據(jù)倉庫分層
在現(xiàn)代數(shù)據(jù)倉庫建設中,分層理論已得到廣泛應用,它的價值包括但不限于:便于數(shù)據(jù)管理、清晰數(shù)據(jù)結構、便于數(shù)據(jù)血緣追蹤、減少重復開發(fā)、簡化復雜問題、屏蔽原始數(shù)據(jù)異常。
?
唯品金融的數(shù)據(jù)倉庫,分為如下三層——基礎層、中間層、應用層
1、基礎層(DW)
基礎層,也叫DW層,是最接近數(shù)據(jù)源中數(shù)據(jù)的一層。數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過抽取、轉換、加載(即ETL)之后,裝入DW層。本層數(shù)據(jù),大多是按業(yè)務系統(tǒng)的分類方式分類的,這樣可以快速的和業(yè)務系統(tǒng)進行對應。
但是,這一層面的數(shù)據(jù)卻不完全等同于業(yè)務原始數(shù)據(jù)。在源數(shù)據(jù)裝入這一層時,要進行一定的清洗(例如去掉明顯偏離正常水平的信息)、去重、提臟、業(yè)務提取、單位統(tǒng)一、砍字段(例如用于支撐前端系統(tǒng)工作但是在分析中不需要的字段,敏感信息字段)、業(yè)務判別等多項工作。
2、中間層(DM),是數(shù)據(jù)倉庫的核心
從DW層中獲得的數(shù)據(jù),按照主題建立各種數(shù)據(jù)模型。中間層建設原則如下——
* 中性,共享:中間層的主題要足夠抽象,不針對特定的應用而設計;
* 靈活,可擴展:當業(yè)務發(fā)生變化時易于擴展,適應復雜的實際業(yè)務情況;
* 穩(wěn)定性強:能夠在長時間內保持其穩(wěn)定性,滿足下游集市、分析、挖掘等的使用;
* 規(guī)范,易讀:分主題進行模型設計,易于讓使用人員理解和使用。
3、應用層(ST),這一層提供數(shù)據(jù)產(chǎn)品使用的結果數(shù)據(jù)
在這里,主要提供給數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用的數(shù)據(jù),當然也有將集市層單獨劃分一個層次的設計,集市下面才是應用。我們之所以把集市劃為應用,是因為集市與應用結合得非常密切,所有的預處理數(shù)據(jù)在DM層已處理好,集市層直接運用結果計算數(shù)據(jù)即可。
最終的應用一般會存放在redis、mysql等系統(tǒng)中,供線上系統(tǒng)使用,也可能會存在Hive或者hbase中,供數(shù)據(jù)分析和數(shù)據(jù)挖掘使用。 我們經(jīng)常說的報表數(shù)據(jù),一般放在這里。
總結
在互聯(lián)網(wǎng)金融大數(shù)據(jù)建設中,數(shù)據(jù)分層建設是一個重要環(huán)節(jié),它決定的不僅是一個層次的問題,還直接影響到后續(xù)血緣分析、特征自動生成、元數(shù)據(jù)管理等一系列建設。層級劃分精簡,減少了數(shù)據(jù)處理流程,弱化了傳統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)模型設計的規(guī)范限制。能夠快速構建大數(shù)據(jù)生產(chǎn)系統(tǒng)、響應業(yè)務分析需求、迭代大數(shù)據(jù)分析能力、適應互聯(lián)網(wǎng)公司業(yè)務發(fā)展節(jié)奏。但在建設之初,一定要把架構搭好,并做好數(shù)據(jù)源管理,且充分了解行業(yè)發(fā)展。
本文分享了筆者對唯品金融數(shù)據(jù)倉庫的設計思路,未必適合所有行業(yè)公司。但方法是靈活的,理念是共通的,歡迎感興趣的朋友,分享心得,交流經(jīng)驗。
?
轉載于:https://www.cnblogs.com/davidwang456/articles/9732801.html
總結
以上是生活随笔為你收集整理的数据仓库系列篇——唯品会大数据架构的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 农发行:BI数据平台建设
- 下一篇: 华数大数据平台解决方案