数据又多又散,“孤岛困境”怎样破局?
導(dǎo)讀:企業(yè)數(shù)據(jù)指的是企業(yè)內(nèi)部員工及其合作伙伴跨越不同部門、不同地點(diǎn)而共享,跨越不同大洲而傳播的數(shù)據(jù)。這些數(shù)據(jù)對(duì)企業(yè)具有很高的價(jià)值,包括財(cái)務(wù)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、員工個(gè)人數(shù)據(jù)等,企業(yè)花費(fèi)了大量時(shí)間和金錢來(lái)保證數(shù)據(jù)在各方面的安全和質(zhì)量。
?
然而,所謂的企業(yè)數(shù)據(jù)從當(dāng)前狀態(tài)變得日漸陳舊,雖然以某種形式進(jìn)行存儲(chǔ),但是難以進(jìn)行分析和檢索。這些數(shù)據(jù)有著重大的意義,企業(yè)需要有一個(gè)專門的地方來(lái)分析它,以挖掘各種潛在的商機(jī),這就是數(shù)據(jù)湖產(chǎn)生的原因,也是本文主要探討的問(wèn)題。
?
作者:湯姆斯·約翰 潘卡·米斯拉
如需轉(zhuǎn)載請(qǐng)聯(lián)系大數(shù)據(jù)(ID:hzdashuju)
?
?
企業(yè)數(shù)據(jù)主要分為3大類,具體如下:
?
-
主數(shù)據(jù)(master data),指的是詳細(xì)描述企業(yè)內(nèi)部主要實(shí)體的數(shù)據(jù)。通過(guò)觀察主數(shù)據(jù),可以了解企業(yè)涉及的業(yè)務(wù)。這些數(shù)據(jù)通常由不同部門管理和掌握。其他類別的數(shù)據(jù),如后文所述,需要利用主數(shù)據(jù)來(lái)產(chǎn)生價(jià)值。
-
事務(wù)數(shù)據(jù)(transaction data),指的是各種應(yīng)用程序(內(nèi)部或外部)在處理企業(yè)內(nèi)的各種業(yè)務(wù)流程時(shí)產(chǎn)生的數(shù)據(jù)。事務(wù)數(shù)據(jù)也包括人員相關(guān)的數(shù)據(jù),雖然某些時(shí)候并不屬于業(yè)務(wù)數(shù)據(jù),但這部分?jǐn)?shù)據(jù)也非常重要。分析這部分?jǐn)?shù)據(jù),可以幫助企業(yè)優(yōu)化業(yè)務(wù)。這些數(shù)據(jù)也依賴于主數(shù)據(jù),并經(jīng)常引用主數(shù)據(jù)。
-
分析數(shù)據(jù)(analytic data),實(shí)際上指的是來(lái)源于前兩類數(shù)據(jù)的數(shù)據(jù)。這部分?jǐn)?shù)據(jù)是對(duì)企業(yè)中的各種實(shí)體(主數(shù)據(jù))的深入分析,同時(shí)結(jié)合事務(wù)數(shù)據(jù),為企業(yè)提供積極的建議,經(jīng)過(guò)必要的調(diào)研之后,這些建議可以被企業(yè)采納。
?
前面已經(jīng)解釋過(guò)這些類型的數(shù)據(jù)對(duì)企業(yè)的重要性,大多數(shù)企業(yè)都有管理這幾類數(shù)據(jù)的機(jī)制,通常叫作企業(yè)數(shù)據(jù)管理(Enterprise Data Management,EDM)。
?
圖1-2顯示了各種類型的企業(yè)數(shù)據(jù)以及它們是如何相互影響的。
?
▲圖1-2 不同類型的企業(yè)數(shù)據(jù)
?
如圖1-2所示,事務(wù)數(shù)據(jù)和分析數(shù)據(jù)都利用了主數(shù)據(jù)。分析數(shù)據(jù)也依賴于事務(wù)數(shù)據(jù),并根據(jù)不同客戶的需求進(jìn)行有意義的分析。
?
?
01 企業(yè)數(shù)據(jù)管理
?
組織具有能夠精確定義數(shù)據(jù)、輕松集成數(shù)據(jù)和同時(shí)為內(nèi)部應(yīng)用和外部通信檢索數(shù)據(jù)的能力。
?
——維基百科
?
EDM強(qiáng)調(diào)數(shù)據(jù)的精確性、粒度和含義,關(guān)注數(shù)據(jù)內(nèi)容如何整合到業(yè)務(wù)應(yīng)用程序中,以及數(shù)據(jù)如何從一個(gè)業(yè)務(wù)流程轉(zhuǎn)移到另一個(gè)業(yè)務(wù)流程。
?
——維基百科
?
正如維基百科的定義中明確指出的那樣,EDM是定義了企業(yè)數(shù)據(jù)如何存儲(chǔ)、存儲(chǔ)的位置以及使用哪些技術(shù)來(lái)存儲(chǔ)和檢索這類數(shù)據(jù)的一整套策略。
?
此類數(shù)據(jù)價(jià)值巨大,必須處于正確的控制下以保證安全,并且需要以明確的方式進(jìn)行掌握和管理。EDM還定義了數(shù)據(jù)如何與內(nèi)部和外部的應(yīng)用程序進(jìn)行通信。此外,數(shù)據(jù)交換的相關(guān)政策和流程也必須明確。
?
對(duì)企業(yè)來(lái)說(shuō)實(shí)現(xiàn)EDM非常容易,但實(shí)際上卻是困難重重。一個(gè)企業(yè)有多個(gè)部門,每個(gè)部門都產(chǎn)生數(shù)據(jù);基于這些部門的重要性,它們所產(chǎn)生的數(shù)據(jù)與整個(gè)組織密切相關(guān)。
?
由于彼此處境不同,不同數(shù)據(jù)的所有者在EDM中有著不同的利益點(diǎn),這會(huì)產(chǎn)生沖突,從而給企業(yè)帶來(lái)危害。這就需要在EDM中制定各種政策和程序來(lái)明確數(shù)據(jù)的所有權(quán)。
?
?
02 企業(yè)中數(shù)據(jù)如何存放
?
企業(yè)數(shù)據(jù)以原始數(shù)據(jù)格式、二進(jìn)制文件(圖片和視頻)等形式存儲(chǔ),存放的位置可以是各種內(nèi)部應(yīng)用程序的持久化存儲(chǔ),也可以存放到外部的私有或公有的云平臺(tái)中。首先,需要對(duì)數(shù)據(jù)類型進(jìn)行劃分。按照數(shù)據(jù)存放位置劃分如下:
?
-
內(nèi)聯(lián)網(wǎng)(企業(yè)內(nèi)部)
-
互聯(lián)網(wǎng)(企業(yè)外部)
?
另一種方式是按照數(shù)據(jù)存儲(chǔ)的格式劃分,具體如下:
?
-
持久化存儲(chǔ)引擎(RDBMS或者NoSQL)
-
傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)(基于RDBMS、NoSQL等)
-
文件存儲(chǔ)
?
下面進(jìn)一步詳細(xì)介紹這些數(shù)據(jù)類型。
?
1. 內(nèi)聯(lián)網(wǎng)(企業(yè)內(nèi)部)
?
企業(yè)數(shù)據(jù)存放在自己的私有網(wǎng)絡(luò),即內(nèi)聯(lián)網(wǎng)中。
?
企業(yè)內(nèi)部的各種應(yīng)用程序也運(yùn)行在私有網(wǎng)絡(luò)中,并且只有指定的人員才能訪問(wèn)。因此,從這些應(yīng)用程序獲取的數(shù)據(jù)能以安全和私密的方式存儲(chǔ)于企業(yè)內(nèi)部。
?
這些應(yīng)用產(chǎn)生的數(shù)據(jù)可能是員工數(shù)據(jù),也可能是日常使用中產(chǎn)生的事務(wù)數(shù)據(jù)。
?
企業(yè)用來(lái)構(gòu)建內(nèi)聯(lián)網(wǎng)的技術(shù)包括局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)。此外,企業(yè)內(nèi)部還有多個(gè)應(yīng)用平臺(tái)可以使用,數(shù)據(jù)可以以結(jié)構(gòu)化方式存儲(chǔ)在不同的存儲(chǔ)引擎中,例如,傳統(tǒng)的RDBMS和NoSQL數(shù)據(jù)庫(kù)。除了這些存儲(chǔ)引擎,還有以各種文件形式存放的非結(jié)構(gòu)化數(shù)據(jù)。
?
另外,大數(shù)據(jù)企業(yè)都有傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),用來(lái)存放清洗后的數(shù)據(jù)以備分析之用。
?
2. 互聯(lián)網(wǎng)(企業(yè)外部)
?
大約從近10年開(kāi)始,大多數(shù)企業(yè)都擁有自己的數(shù)據(jù)中心,幾乎所有的企業(yè)數(shù)據(jù)都存放于此。伴隨云計(jì)算的發(fā)展,企業(yè)開(kāi)始把一些數(shù)據(jù)存放到私有數(shù)據(jù)中心以外的云平臺(tái)上,加上健全的安全控制,未經(jīng)授權(quán)的人根本接觸不到這些數(shù)據(jù)。
?
采用云服務(wù)的方式能極大地降低企業(yè)的運(yùn)營(yíng)成本,這是云服務(wù)最大的優(yōu)勢(shì)。本文將進(jìn)一步介紹這個(gè)領(lǐng)域,包括更細(xì)粒度的類別劃分。
?
2.1 云托管業(yè)務(wù)應(yīng)用程序
?
云計(jì)算供應(yīng)商提供了各種服務(wù),如SaaS、PaaS、IaaS等,企業(yè)可以把業(yè)務(wù)應(yīng)用程序托管到云中,同樣也能滿足企業(yè)管理的需求。因此,許多企業(yè)選擇把內(nèi)部開(kāi)發(fā)的應(yīng)用程序托管到這些云計(jì)算提供商。
?
員工使用這些部署在云中的應(yīng)用程序,進(jìn)行日常的一些操作,這和操作部署在企業(yè)自有的數(shù)據(jù)中心中的應(yīng)用沒(méi)有區(qū)別。
?
?
2.2 第三方云計(jì)算方案
?
如今這么多公司把自身的應(yīng)用/服務(wù)托管到云端,這些應(yīng)用/服務(wù)用起來(lái)就跟部署在本地一樣,但是企業(yè)不必考慮維護(hù)和管理應(yīng)用/服務(wù)所需的基礎(chǔ)架構(gòu)。這些僅僅依賴云端環(huán)境的產(chǎn)品,最吸引企業(yè)的一點(diǎn)是它們的收費(fèi)方式。
?
基于這個(gè)優(yōu)點(diǎn),企業(yè)傾向于選擇這些云產(chǎn)品,同時(shí)也由于云產(chǎn)品的先天特點(diǎn),企業(yè)現(xiàn)在也將數(shù)據(jù)(業(yè)務(wù)相關(guān))存儲(chǔ)在其他的云設(shè)施中,即使云提供商完全掌控了這些數(shù)據(jù)。
?
Google的BigQuery就是這樣一款云服務(wù)軟件,用戶可以把數(shù)據(jù)導(dǎo)出到云服務(wù)中,然后運(yùn)行這個(gè)軟件來(lái)進(jìn)行各種分析工作。
?
這類產(chǎn)品有一個(gè)優(yōu)點(diǎn),就是我們可以根據(jù)分析的結(jié)果來(lái)決定是否保留這些數(shù)據(jù)。云服務(wù)具有天然的可伸縮性(硬件層面隨意擴(kuò)展和收縮的能力),如果數(shù)據(jù)分析很復(fù)雜,可以臨時(shí)申請(qǐng)性能強(qiáng)勁的服務(wù)器,分析結(jié)束之后又可以把服務(wù)器的配置恢復(fù)到此前的水平。
?
當(dāng)前階段,類似的解決方案仍在不斷地涌現(xiàn),本文不再一一羅列。
?
與SaaS的方式類似,云端還有很多業(yè)務(wù)應(yīng)用程序也可以作為服務(wù)對(duì)外提供。Salesforce就是這樣的一個(gè)例子。
?
本質(zhì)上,Salesforce是一個(gè)客戶關(guān)系管理(CRM)的解決方案,但是它還集成了很多其他特性。筆者在這里并不是想幫助推銷Salesforce,但是希望介紹一些云端業(yè)務(wù)應(yīng)用的重要特性。Salesforce將所有的客戶信息匯總到一起,幫助企業(yè)從銷售、業(yè)務(wù)分析和客戶服務(wù)等幾個(gè)維度來(lái)構(gòu)建以用戶為中心的商業(yè)模式。
?
因?yàn)椴渴鹪谠贫?#xff0c;Salesforce也帶來(lái)了很多云端SaaS的特性。
?
隨著云服務(wù)對(duì)企業(yè)的影響越來(lái)越大,現(xiàn)在大量企業(yè)把數(shù)據(jù)存儲(chǔ)在互聯(lián)網(wǎng)(云)上,同時(shí),這些云服務(wù)要明確保護(hù)客戶隱私和其他共同權(quán)益,以捍衛(wèi)企業(yè)的商業(yè)目標(biāo)。
?
2.3 社交數(shù)據(jù)(結(jié)構(gòu)化與非結(jié)構(gòu)化)
?
如今,企業(yè)的社交關(guān)系變得至關(guān)重要,即使企業(yè)的數(shù)據(jù)并沒(méi)有存儲(chǔ)在社交網(wǎng)站上,它仍然包含了豐富的信息,這些信息來(lái)自企業(yè)業(yè)務(wù)和其服務(wù)的真實(shí)客戶。
?
用戶在社交網(wǎng)站上留下各種評(píng)價(jià)和建議,企業(yè)可以利用這些數(shù)據(jù)重塑自己的業(yè)務(wù)和與用戶互動(dòng)的方式。
?
如果企業(yè)忽視此類信息,很可能會(huì)損害企業(yè)的聲譽(yù)和品牌。現(xiàn)在企業(yè)非常重視社交網(wǎng)站,因?yàn)檫@些網(wǎng)站上即使沒(méi)有企業(yè)的數(shù)據(jù),也有客戶的評(píng)價(jià)信息,在某種程度上,這些信息代表了客戶對(duì)品牌的認(rèn)知。
?
于是,我們傾向于將這部分?jǐn)?shù)據(jù)歸類為非企業(yè)用戶提供的企業(yè)數(shù)據(jù)。在分析這類數(shù)據(jù)時(shí),需要特別關(guān)注大數(shù)據(jù)的第4個(gè)V(見(jiàn)圖1-3),即精準(zhǔn)性。因?yàn)橛行┤藭?huì)利用這個(gè)渠道,在與企業(yè)進(jìn)行業(yè)務(wù)往來(lái)時(shí),獲得一些不正當(dāng)?shù)膬?yōu)勢(shì)。
?
另一個(gè)對(duì)企業(yè)數(shù)據(jù)進(jìn)行分類的方式是按數(shù)據(jù)最終的存儲(chǔ)方式。
?
▲圖1-3 大數(shù)據(jù)的4V
?
3. 數(shù)據(jù)持久化存儲(chǔ)(RDBMS或者NoSQL)
?
無(wú)論是在企業(yè)內(nèi)部(企業(yè)基礎(chǔ)架構(gòu))還是在云服務(wù)中,數(shù)據(jù)通常都以結(jié)構(gòu)化數(shù)據(jù)的方式存儲(chǔ)在所謂的傳統(tǒng)RDBMS或者新一代NoSQL持久化存儲(chǔ)中。數(shù)據(jù)通過(guò)業(yè)務(wù)應(yīng)用程序?qū)懭脒@些存儲(chǔ)系統(tǒng),絕大部分?jǐn)?shù)據(jù)在本質(zhì)上是不相關(guān)的,企業(yè)可以很容易理解這些數(shù)據(jù)。
?
數(shù)據(jù)存儲(chǔ)在傳統(tǒng)的RDBMS類存儲(chǔ)系統(tǒng)中時(shí),會(huì)遇到的一個(gè)常見(jiàn)的問(wèn)題,即數(shù)據(jù)量超出了可接受的范圍。在這種情況下,對(duì)數(shù)據(jù)進(jìn)行分析將耗費(fèi)大量的時(shí)間和精力。
?
因此,企業(yè)被迫將數(shù)據(jù)分拆為生產(chǎn)數(shù)據(jù)(數(shù)據(jù)可以被業(yè)務(wù)應(yīng)用查詢和使用)和非生產(chǎn)數(shù)據(jù)(從生產(chǎn)系統(tǒng)轉(zhuǎn)移到另外的存儲(chǔ)系統(tǒng)中的離線數(shù)據(jù))。
?
由于這種拆分,數(shù)據(jù)分析通常跨越若干年,這種分析并不能覆蓋到企業(yè)的全部業(yè)務(wù)因素。
?
舉例來(lái)說(shuō),如果生產(chǎn)系統(tǒng)中有5年的銷售數(shù)據(jù),而非生產(chǎn)系統(tǒng)存儲(chǔ)了15年的銷售數(shù)據(jù),那么用戶在進(jìn)行銷售數(shù)據(jù)分析時(shí),只能查看過(guò)去5年的數(shù)據(jù)。可能存在周期剛好為5年的變化趨勢(shì),只有對(duì)20年的銷售數(shù)據(jù)進(jìn)行分析才能發(fā)現(xiàn)。
?
大多數(shù)時(shí)候,由于RDBMS的局限,存儲(chǔ)和分析海量數(shù)據(jù)是不可能的。即使勉力為之,這種分析也十分耗時(shí),也不能給分析師提供足夠的靈活性。這樣一來(lái),分析師只能進(jìn)行有限的分析,如果企業(yè)正在通過(guò)這些數(shù)據(jù)來(lái)調(diào)整業(yè)務(wù)流程,那么可能會(huì)給企業(yè)帶來(lái)大麻煩。
?
新一代NoSQL(該領(lǐng)域中不同的數(shù)據(jù)庫(kù)具有不同的功能)讓數(shù)據(jù)分析更靈活,同時(shí)存儲(chǔ)數(shù)據(jù)的量也大大增加。這些存儲(chǔ)滿足了分析師們?cè)谛阅芤约捌渌承┓矫娴男枨?#xff0c;但是在一些方面仍然存在不足。
?
即使數(shù)據(jù)存儲(chǔ)在一個(gè)業(yè)務(wù)應(yīng)用中,各種業(yè)務(wù)應(yīng)用的數(shù)據(jù)并沒(méi)有匯聚成一個(gè)單一的視圖,而建設(shè)一個(gè)合適的數(shù)據(jù)湖能幫企業(yè)解決這種問(wèn)題。
?
?
4. 傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)
?
由于生產(chǎn)系統(tǒng)的業(yè)務(wù)應(yīng)用獲取的數(shù)據(jù)量巨大,幾乎所有的時(shí)間里,生產(chǎn)系統(tǒng)的數(shù)據(jù)都與非生產(chǎn)系統(tǒng)分離。非生產(chǎn)系統(tǒng)的數(shù)據(jù)通常存儲(chǔ)在不同的區(qū)域中,并保存在不同的數(shù)據(jù)存儲(chǔ)系統(tǒng)(通常是RDBMS或者NoSQL)中,這種存儲(chǔ)系統(tǒng)就是所謂的數(shù)據(jù)倉(cāng)庫(kù)。
?
通常來(lái)說(shuō),根據(jù)數(shù)據(jù)分析師的需求,數(shù)據(jù)會(huì)被相應(yīng)地清洗和刪除。刪除部分?jǐn)?shù)據(jù)會(huì)限制分析師能執(zhí)行的分析的類別。大多數(shù)情況下,都會(huì)有隱藏的有價(jià)值的數(shù)據(jù)尚未進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),這就會(huì)導(dǎo)致更多的分析,而企業(yè)可以基于這些分析來(lái)調(diào)整業(yè)務(wù);然而,此類數(shù)據(jù)清理和刪除可能會(huì)扼殺潛在的創(chuàng)新。因此這方面需要改進(jìn)。
?
而數(shù)據(jù)湖使得分析師可以引入生產(chǎn)系統(tǒng)中的任意業(yè)務(wù)應(yīng)用數(shù)據(jù),并根據(jù)具體情況進(jìn)行各種分析。
?
目前,構(gòu)建這類數(shù)據(jù)倉(cāng)庫(kù)的方案是通過(guò)ETL(Extract,Transform,Load,即抽取、轉(zhuǎn)換、加載),從生產(chǎn)系統(tǒng)的數(shù)據(jù)庫(kù)提取數(shù)據(jù)并保存到數(shù)據(jù)倉(cāng)庫(kù)中。ETL流程會(huì)根據(jù)分析師的需求來(lái)清洗數(shù)據(jù),而分析師會(huì)在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行各種分析。
?
5. 文件存儲(chǔ)
?
業(yè)務(wù)應(yīng)用程序在不斷地變化,新的應(yīng)用允許終端用戶以各種格式獲取數(shù)據(jù),而不僅僅限于從鍵盤輸入的格式化數(shù)據(jù)。
?
終端用戶另一種輸入數(shù)據(jù)的渠道是提交不同格式的文檔。其中一些眾所周知的格式如下:
?
-
文檔(PDF、DOC、XLS等)
-
二進(jìn)制
圖片(JPG、PNG等)
音頻(MP3、RAM、AC3)
視頻(MP4、MPEG、MKV)
?
正如前文中介紹的那樣,處理結(jié)構(gòu)化數(shù)據(jù)本身就是一個(gè)大問(wèn)題,現(xiàn)在又引入了非結(jié)構(gòu)化數(shù)據(jù)的分析。但是,分析非結(jié)構(gòu)化數(shù)據(jù)與分析結(jié)構(gòu)化數(shù)據(jù)同等重要。通過(guò)構(gòu)建數(shù)據(jù)湖,我們可以圍繞數(shù)據(jù)湖引入新的技術(shù),利用大數(shù)據(jù)領(lǐng)域最新和最好的技術(shù),可以從非結(jié)構(gòu)數(shù)據(jù)中挖掘到巨大價(jià)值。
?
除了各種文件格式的數(shù)據(jù),有很多應(yīng)用允許終端用戶以語(yǔ)句的形式獲取大量數(shù)據(jù),這部分?jǐn)?shù)據(jù)也需要分析。手動(dòng)處理這些來(lái)自終端用戶的評(píng)論數(shù)據(jù)是一項(xiàng)艱難的任務(wù),在現(xiàn)代化的今天,需要的是自動(dòng)化地解析這些評(píng)論,并了解用戶的觀點(diǎn)。同樣,有很多這樣的技術(shù)可以理解這些數(shù)據(jù)(如自由文本流),讓企業(yè)能夠正確地處理它。
?
舉例來(lái)說(shuō),假如我們有一個(gè)獲取企業(yè)建議的系統(tǒng),每天能獲取近1000條建議,由于該業(yè)務(wù)的天然屬性,很難對(duì)這些建議進(jìn)行過(guò)濾分析。
?
這種場(chǎng)景中,我們可以利用一些技術(shù)來(lái)對(duì)這些評(píng)論進(jìn)行情感分析,然后根據(jù)這些分析工具給出的評(píng)分進(jìn)行初步的過(guò)濾,再將篩選后的建議交給能夠理解和利用這部分?jǐn)?shù)據(jù)的人來(lái)處理。
?
?
?
03 企業(yè)現(xiàn)狀
?
企業(yè)數(shù)據(jù)當(dāng)前的狀態(tài)可以總結(jié)為以下幾點(diǎn):
?
1. 傳統(tǒng)DW(Data Warehouse)/BI(Business Intelligence)
?
-
使用ETL清洗來(lái)自生產(chǎn)業(yè)務(wù)應(yīng)用的數(shù)據(jù)。
-
早于一定時(shí)間的數(shù)據(jù)會(huì)轉(zhuǎn)移到另外的存儲(chǔ)系統(tǒng)(如磁帶)中,但是很難對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行檢索。
-
一些顯著的缺陷:
數(shù)據(jù)倉(cāng)庫(kù)中保存的是清洗后的生產(chǎn)數(shù)據(jù)的子集;在數(shù)據(jù)倉(cāng)庫(kù)中添加任何數(shù)據(jù)元素都需要付出代價(jià)。
數(shù)據(jù)倉(cāng)庫(kù)中保存的是全量數(shù)據(jù)的一個(gè)子集,其余數(shù)據(jù)會(huì)轉(zhuǎn)存到另外的持久存儲(chǔ)系統(tǒng)中去。
-
通常分析速度較慢,即使對(duì)查詢做了一定程度的優(yōu)化。
?
2. 大數(shù)據(jù)孤島
?
-
一些部門在建設(shè)大數(shù)據(jù)時(shí)采取了正確的措施。但是部門間通常不會(huì)互相協(xié)作,這些大數(shù)據(jù)平臺(tái)就成了孤島,并沒(méi)有真正給企業(yè)帶來(lái)價(jià)值。
-
一些顯著的缺陷:
大數(shù)據(jù)平臺(tái)的孤立性再次限制了分析師,使得分析師們無(wú)法跨部門整合和查詢數(shù)據(jù)。
需要大量資金來(lái)構(gòu)建、維護(hù)、管理這些數(shù)據(jù)孤島,時(shí)間一長(zhǎng)就難以為繼。
?
3. 大量非連接應(yīng)用
?
-
在企業(yè)內(nèi)部和云服務(wù)中部署大量應(yīng)用程序。
-
除了產(chǎn)生結(jié)構(gòu)化數(shù)據(jù),應(yīng)用程序也產(chǎn)生非結(jié)構(gòu)化數(shù)據(jù)。
-
一些顯著的缺陷:
互相沒(méi)有通信。
即使有通信,數(shù)據(jù)科學(xué)家們既不能有效地利用這些數(shù)據(jù),也不能對(duì)企業(yè)進(jìn)行有益的改進(jìn)。
各個(gè)業(yè)務(wù)應(yīng)用在多個(gè)方面重復(fù)使用各種技術(shù)。
?
這里并不是說(shuō)投資構(gòu)建數(shù)據(jù)湖是解決上述所有缺陷的“銀彈”。但是這個(gè)方向一定是正確的,企業(yè)至少應(yīng)該花時(shí)間去思考是否確實(shí)需要數(shù)據(jù)湖,如果答案是肯定的,就不要過(guò)多考慮,直接著手去構(gòu)建。
?
構(gòu)建數(shù)據(jù)湖是企業(yè)的一項(xiàng)戰(zhàn)略級(jí)決策,在構(gòu)建時(shí)需要所有相關(guān)人員的認(rèn)可與支持,而且需要高管層投入精力關(guān)注這個(gè)項(xiàng)目。基于數(shù)據(jù)湖,企業(yè)一定能找到改進(jìn)業(yè)務(wù)流程的方法。它能讓高管人員更深入地了解業(yè)務(wù),同時(shí)也能提升決策的成功率。
?
?
?
04 企業(yè)數(shù)字化轉(zhuǎn)型
?
數(shù)字化轉(zhuǎn)型指的是應(yīng)用數(shù)字化技術(shù),從根本上影響商業(yè)和社會(huì)的方方面面。
?
——infoworld.com
?
數(shù)字化轉(zhuǎn)型(DX)是一個(gè)流行的行業(yè)術(shù)語(yǔ),每個(gè)企業(yè)都毫不猶豫地跟隨了這個(gè)趨勢(shì)。這個(gè)術(shù)語(yǔ)指的是企業(yè)向以信息技術(shù)為核心轉(zhuǎn)型。技術(shù)領(lǐng)域的投入是這項(xiàng)轉(zhuǎn)型的一部分,但數(shù)據(jù)才是轉(zhuǎn)型的關(guān)鍵。
?
近年來(lái),企業(yè)越來(lái)越多地認(rèn)識(shí)到數(shù)據(jù)和數(shù)據(jù)分析的重要性,這無(wú)疑讓企業(yè)有了新思維。這種轉(zhuǎn)型就是一種以數(shù)據(jù)為中心的實(shí)踐。
?
作為商業(yè)轉(zhuǎn)型的一部分,企業(yè)絕對(duì)應(yīng)該把數(shù)據(jù)湖列入重點(diǎn)投入項(xiàng)目列表,所有部門都應(yīng)該欣然將數(shù)據(jù)歸集到數(shù)據(jù)湖來(lái)完成數(shù)據(jù)共享,而不能對(duì)它存有偏見(jiàn)。
?
-
企業(yè)轉(zhuǎn)型之路
?
埃森哲互動(dòng)曾經(jīng)委托Forrester咨詢公司進(jìn)行過(guò)一項(xiàng)研究,該研究表明數(shù)字化轉(zhuǎn)型的關(guān)鍵驅(qū)動(dòng)力是提升盈利能力、客戶滿意度和產(chǎn)品迭代速度。
?
實(shí)際上,很多企業(yè)已經(jīng)走上了數(shù)字化的轉(zhuǎn)型之路。數(shù)字化轉(zhuǎn)型不再是一句空話,很多企業(yè)正竭力轉(zhuǎn)向把技術(shù)作為驅(qū)動(dòng)力之一,而另一個(gè)驅(qū)動(dòng)力,就是數(shù)據(jù)。
?
轉(zhuǎn)型中的企業(yè)有明確的目標(biāo)。當(dāng)然,這些目標(biāo)與它們所處的具體行業(yè)有關(guān)。但是有些目標(biāo)是公共的,具體如下:
?
-
從根本上改善客戶體驗(yàn)。
-
削減成本。
-
增加收入。
-
差異化競(jìng)爭(zhēng)。
-
調(diào)整業(yè)務(wù)流程,反過(guò)來(lái)改善商業(yè)模式。
?
以下是轉(zhuǎn)型目標(biāo)舉例,關(guān)于企業(yè)在該領(lǐng)域希望達(dá)到的目標(biāo),有一系列清晰的例子,部分如下:
?
-
能夠?qū)蛻暨M(jìn)行細(xì)分并提供個(gè)性化的產(chǎn)品。在恰當(dāng)?shù)臅r(shí)間向合適的客戶推送廣告。
-
引進(jìn)更多的技術(shù),減少體力勞動(dòng),企業(yè)實(shí)現(xiàn)全方位數(shù)字化。
-
結(jié)合社交信息和企業(yè)自身數(shù)據(jù),為決策提供支持。
-
以更為量化的方式預(yù)測(cè)未來(lái),并采取必要措施,提前做好預(yù)案。
-
以技術(shù)為重要載體實(shí)現(xiàn)業(yè)務(wù)全球化。
?
下文將詳細(xì)介紹企業(yè)在數(shù)字化轉(zhuǎn)型中希望實(shí)現(xiàn)的一個(gè)用例,其中數(shù)據(jù)是主要的貢獻(xiàn)因素。
?
?
?
05 數(shù)據(jù)湖用例啟示
?
數(shù)據(jù)在企業(yè)中的重要性已經(jīng)顯露無(wú)遺。當(dāng)今企業(yè)所面臨的問(wèn)題是如何從這些數(shù)據(jù)中挖掘有用信息來(lái)優(yōu)化自身的業(yè)務(wù)。
?
即便數(shù)據(jù)能夠以某種方式匯聚到一起,也很難在合適的時(shí)間內(nèi)處理數(shù)量如此巨大的數(shù)據(jù)。這時(shí)數(shù)據(jù)湖進(jìn)入了人們的視野。在大數(shù)據(jù)(ID:hzdashuju)此前的文章中曾全面而詳盡地介紹數(shù)據(jù)湖到底是什么。下文將介紹一個(gè)以數(shù)據(jù)湖為中心的用例。
?
基于現(xiàn)代技術(shù)構(gòu)建數(shù)據(jù)湖有很多優(yōu)勢(shì),其中一些如下:
?
-
通過(guò)各種數(shù)據(jù)分析,企業(yè)能找到業(yè)務(wù)中重要的人員和流程,也能深入了解各類客戶。
-
企業(yè)能在適度的時(shí)間范圍內(nèi)完成這些分析,而不用等待幾周甚至幾個(gè)月。
-
業(yè)務(wù)用戶能快速分析數(shù)據(jù),進(jìn)而快速調(diào)整業(yè)務(wù)流程。
?
這個(gè)用例叫作單一客戶視圖(Single Customer View,SCV)。單一客戶視圖是業(yè)內(nèi)眾所周知的術(shù)語(yǔ),它有很多種定義,下面是其中之一:
?
單一客戶視圖是組織或企業(yè)的客戶數(shù)據(jù)的一種聚合的、一致的及全面的表示。
?
——維基百科
?
企業(yè)將客戶數(shù)據(jù)保存在不同的業(yè)務(wù)應(yīng)用中,這會(huì)導(dǎo)致不同程度的數(shù)據(jù)孤島現(xiàn)象。該用例旨在將這些不同來(lái)源的數(shù)據(jù)整合到一起,提供給分析人員查看,從而創(chuàng)建一個(gè)包含所有數(shù)據(jù)的客戶視圖。通過(guò)這個(gè)視圖,企業(yè)能對(duì)客戶進(jìn)行細(xì)分,進(jìn)而向客戶進(jìn)行精準(zhǔn)廣告投放。
?
這個(gè)用例對(duì)企業(yè)的意義可以歸納為如下幾點(diǎn):
?
-
客戶細(xì)分。
-
信息整合。
-
增進(jìn)客戶關(guān)系,避免客戶流失。
-
更深入的分析等。
?
從概念上講,圖1-5中總結(jié)了我們計(jì)劃實(shí)現(xiàn)的用例。結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都被灌入數(shù)據(jù)湖。單一客戶視圖從數(shù)據(jù)湖中以整體性方式被導(dǎo)出。該用例會(huì)引入各類數(shù)據(jù),也會(huì)詳細(xì)描述各種類型的數(shù)據(jù)樣本。之所以這樣做,是因?yàn)檫@樣可以充分利用數(shù)據(jù)湖,同時(shí)也更為接近真實(shí)情況。
?
圖1-5中顯示了數(shù)據(jù)湖從各種數(shù)據(jù)源(多樣性),以不同的速度獲取不同數(shù)量級(jí)的數(shù)據(jù)。更多地,這是一個(gè)概念性的抽象視圖,本文篇幅有限,如需了解更詳細(xì)的內(nèi)容可閱讀《企業(yè)數(shù)據(jù)湖》一書(shū),你將會(huì)確切知道它具體指代的是什么。
?
?
▲圖1-5 SCV數(shù)據(jù)湖用例的概念視圖
?
關(guān)于作者:湯姆斯·約翰(Tomcy John)是一名企業(yè)級(jí)Java技術(shù)專家,擁有工學(xué)學(xué)士學(xué)位,并且有超過(guò)14年多行業(yè)的開(kāi)發(fā)經(jīng)驗(yàn)。
潘卡·米斯拉(Pankaj Misra)是一名技術(shù)傳播者,擁有工程學(xué)士學(xué)位,并且有超過(guò)16年跨多個(gè)業(yè)務(wù)領(lǐng)域的技術(shù)經(jīng)驗(yàn)。
本文摘編自《企業(yè)數(shù)據(jù)湖》,經(jīng)出版方授權(quán)發(fā)布。
?
延伸閱讀《企業(yè)數(shù)據(jù)湖》
點(diǎn)擊上圖了解及購(gòu)買
轉(zhuǎn)載請(qǐng)聯(lián)系微信:togo-maruko
?
推薦語(yǔ):從軟件工程師、架構(gòu)師角度出發(fā),手把手教企你為業(yè)構(gòu)建自己的數(shù)據(jù)湖。“數(shù)據(jù)湖”已經(jīng)成為大數(shù)據(jù)行業(yè)的一個(gè)重要術(shù)語(yǔ),它是數(shù)據(jù)科學(xué)家們獲得有意義的洞察力的平臺(tái),這些洞察力可以被企業(yè)用來(lái)重新定義或改變它們的運(yùn)營(yíng)方式。
?
?
據(jù)統(tǒng)計(jì),99%的大咖都完成了這個(gè)神操作
▼
?
?
更多精彩
?
在公眾號(hào)后臺(tái)對(duì)話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
?
PPT?|?報(bào)告?|?讀書(shū)?|?書(shū)單?|?干貨?
大數(shù)據(jù)?|?揭秘?|?Python?|?可視化
人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)
AI?|?1024?|?段子?|?區(qū)塊鏈?|?數(shù)學(xué)
?
猜你想看
?
-
從數(shù)據(jù)角度看,每家公司只有2種角色:看看你更適合哪一種?
-
實(shí)用干貨:7個(gè)實(shí)例教你從PDF、Word和網(wǎng)頁(yè)中提取數(shù)據(jù)
-
怎樣教一臺(tái)計(jì)算機(jī)區(qū)分貓和狗?一文零基礎(chǔ)入坑機(jī)器學(xué)習(xí)
-
什么是數(shù)據(jù)湖?有什么用?終于有人講明白了……
?
?
Q:?數(shù)據(jù)分析過(guò)程中你都遇到過(guò)哪些困難?
歡迎留言與大家分享
覺(jué)得不錯(cuò),請(qǐng)把這篇文章分享給你的朋友
轉(zhuǎn)載 / 投稿請(qǐng)聯(lián)系:baiyu@hzbook.com
更多精彩,請(qǐng)?jiān)诤笈_(tái)點(diǎn)擊“歷史文章”查看
點(diǎn)擊閱讀原文,了解更多
總結(jié)
以上是生活随笔為你收集整理的数据又多又散,“孤岛困境”怎样破局?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 怎样教一台计算机区分猫和狗?一文零基础入
- 下一篇: 重磅盘点!过去一年里最受欢迎的技术干货,