日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

数据又多又散,“孤岛困境”怎样破局?

發(fā)布時(shí)間:2025/3/15 编程问答 39 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据又多又散,“孤岛困境”怎样破局? 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

導(dǎo)讀:企業(yè)數(shù)據(jù)指的是企業(yè)內(nèi)部員工及其合作伙伴跨越不同部門、不同地點(diǎn)而共享,跨越不同大洲而傳播的數(shù)據(jù)。這些數(shù)據(jù)對(duì)企業(yè)具有很高的價(jià)值,包括財(cái)務(wù)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、員工個(gè)人數(shù)據(jù)等,企業(yè)花費(fèi)了大量時(shí)間和金錢來(lái)保證數(shù)據(jù)在各方面的安全和質(zhì)量。

?

然而,所謂的企業(yè)數(shù)據(jù)從當(dāng)前狀態(tài)變得日漸陳舊,雖然以某種形式進(jìn)行存儲(chǔ),但是難以進(jìn)行分析和檢索。這些數(shù)據(jù)有著重大的意義,企業(yè)需要有一個(gè)專門的地方來(lái)分析它,以挖掘各種潛在的商機(jī),這就是數(shù)據(jù)湖產(chǎn)生的原因,也是本文主要探討的問(wèn)題。

?

作者:湯姆斯·約翰 潘卡·米斯拉

如需轉(zhuǎn)載請(qǐng)聯(lián)系大數(shù)據(jù)(ID:hzdashuju)

?

?

企業(yè)數(shù)據(jù)主要分為3大類,具體如下:

?

  • 主數(shù)據(jù)(master data),指的是詳細(xì)描述企業(yè)內(nèi)部主要實(shí)體的數(shù)據(jù)。通過(guò)觀察主數(shù)據(jù),可以了解企業(yè)涉及的業(yè)務(wù)。這些數(shù)據(jù)通常由不同部門管理和掌握。其他類別的數(shù)據(jù),如后文所述,需要利用主數(shù)據(jù)來(lái)產(chǎn)生價(jià)值。

  • 事務(wù)數(shù)據(jù)(transaction data),指的是各種應(yīng)用程序(內(nèi)部或外部)在處理企業(yè)內(nèi)的各種業(yè)務(wù)流程時(shí)產(chǎn)生的數(shù)據(jù)。事務(wù)數(shù)據(jù)也包括人員相關(guān)的數(shù)據(jù),雖然某些時(shí)候并不屬于業(yè)務(wù)數(shù)據(jù),但這部分?jǐn)?shù)據(jù)也非常重要。分析這部分?jǐn)?shù)據(jù),可以幫助企業(yè)優(yōu)化業(yè)務(wù)。這些數(shù)據(jù)也依賴于主數(shù)據(jù),并經(jīng)常引用主數(shù)據(jù)。

  • 分析數(shù)據(jù)(analytic data),實(shí)際上指的是來(lái)源于前兩類數(shù)據(jù)的數(shù)據(jù)。這部分?jǐn)?shù)據(jù)是對(duì)企業(yè)中的各種實(shí)體(主數(shù)據(jù))的深入分析,同時(shí)結(jié)合事務(wù)數(shù)據(jù),為企業(yè)提供積極的建議,經(jīng)過(guò)必要的調(diào)研之后,這些建議可以被企業(yè)采納。

?

前面已經(jīng)解釋過(guò)這些類型的數(shù)據(jù)對(duì)企業(yè)的重要性,大多數(shù)企業(yè)都有管理這幾類數(shù)據(jù)的機(jī)制,通常叫作企業(yè)數(shù)據(jù)管理(Enterprise Data Management,EDM)。

?

圖1-2顯示了各種類型的企業(yè)數(shù)據(jù)以及它們是如何相互影響的。

?

▲圖1-2 不同類型的企業(yè)數(shù)據(jù)

?

如圖1-2所示,事務(wù)數(shù)據(jù)和分析數(shù)據(jù)都利用了主數(shù)據(jù)。分析數(shù)據(jù)也依賴于事務(wù)數(shù)據(jù),并根據(jù)不同客戶的需求進(jìn)行有意義的分析。

?

?

01 企業(yè)數(shù)據(jù)管理

?

組織具有能夠精確定義數(shù)據(jù)、輕松集成數(shù)據(jù)和同時(shí)為內(nèi)部應(yīng)用和外部通信檢索數(shù)據(jù)的能力。

?

——維基百科

?

EDM強(qiáng)調(diào)數(shù)據(jù)的精確性、粒度和含義,關(guān)注數(shù)據(jù)內(nèi)容如何整合到業(yè)務(wù)應(yīng)用程序中,以及數(shù)據(jù)如何從一個(gè)業(yè)務(wù)流程轉(zhuǎn)移到另一個(gè)業(yè)務(wù)流程。

?

——維基百科

?

正如維基百科的定義中明確指出的那樣,EDM是定義了企業(yè)數(shù)據(jù)如何存儲(chǔ)、存儲(chǔ)的位置以及使用哪些技術(shù)來(lái)存儲(chǔ)和檢索這類數(shù)據(jù)的一整套策略。

?

此類數(shù)據(jù)價(jià)值巨大,必須處于正確的控制下以保證安全,并且需要以明確的方式進(jìn)行掌握和管理。EDM還定義了數(shù)據(jù)如何與內(nèi)部和外部的應(yīng)用程序進(jìn)行通信。此外,數(shù)據(jù)交換的相關(guān)政策和流程也必須明確。

?

對(duì)企業(yè)來(lái)說(shuō)實(shí)現(xiàn)EDM非常容易,但實(shí)際上卻是困難重重。一個(gè)企業(yè)有多個(gè)部門,每個(gè)部門都產(chǎn)生數(shù)據(jù);基于這些部門的重要性,它們所產(chǎn)生的數(shù)據(jù)與整個(gè)組織密切相關(guān)。

?

由于彼此處境不同,不同數(shù)據(jù)的所有者在EDM中有著不同的利益點(diǎn),這會(huì)產(chǎn)生沖突,從而給企業(yè)帶來(lái)危害。這就需要在EDM中制定各種政策和程序來(lái)明確數(shù)據(jù)的所有權(quán)。

?

?

02 企業(yè)中數(shù)據(jù)如何存放

?

企業(yè)數(shù)據(jù)以原始數(shù)據(jù)格式、二進(jìn)制文件(圖片和視頻)等形式存儲(chǔ),存放的位置可以是各種內(nèi)部應(yīng)用程序的持久化存儲(chǔ),也可以存放到外部的私有或公有的云平臺(tái)中。首先,需要對(duì)數(shù)據(jù)類型進(jìn)行劃分。按照數(shù)據(jù)存放位置劃分如下:

?

  • 內(nèi)聯(lián)網(wǎng)(企業(yè)內(nèi)部)

  • 互聯(lián)網(wǎng)(企業(yè)外部)

?

另一種方式是按照數(shù)據(jù)存儲(chǔ)的格式劃分,具體如下:

?

  • 持久化存儲(chǔ)引擎(RDBMS或者NoSQL)

  • 傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)(基于RDBMS、NoSQL等)

  • 文件存儲(chǔ)

?

下面進(jìn)一步詳細(xì)介紹這些數(shù)據(jù)類型。

?

1. 內(nèi)聯(lián)網(wǎng)(企業(yè)內(nèi)部)

?

企業(yè)數(shù)據(jù)存放在自己的私有網(wǎng)絡(luò),即內(nèi)聯(lián)網(wǎng)中。

?

企業(yè)內(nèi)部的各種應(yīng)用程序也運(yùn)行在私有網(wǎng)絡(luò)中,并且只有指定的人員才能訪問(wèn)。因此,從這些應(yīng)用程序獲取的數(shù)據(jù)能以安全和私密的方式存儲(chǔ)于企業(yè)內(nèi)部。

?

這些應(yīng)用產(chǎn)生的數(shù)據(jù)可能是員工數(shù)據(jù),也可能是日常使用中產(chǎn)生的事務(wù)數(shù)據(jù)。

?

企業(yè)用來(lái)構(gòu)建內(nèi)聯(lián)網(wǎng)的技術(shù)包括局域網(wǎng)(LAN)和廣域網(wǎng)(WAN)。此外,企業(yè)內(nèi)部還有多個(gè)應(yīng)用平臺(tái)可以使用,數(shù)據(jù)可以以結(jié)構(gòu)化方式存儲(chǔ)在不同的存儲(chǔ)引擎中,例如,傳統(tǒng)的RDBMS和NoSQL數(shù)據(jù)庫(kù)。除了這些存儲(chǔ)引擎,還有以各種文件形式存放的非結(jié)構(gòu)化數(shù)據(jù)。

?

另外,大數(shù)據(jù)企業(yè)都有傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),用來(lái)存放清洗后的數(shù)據(jù)以備分析之用。

?

2. 互聯(lián)網(wǎng)(企業(yè)外部)

?

大約從近10年開(kāi)始,大多數(shù)企業(yè)都擁有自己的數(shù)據(jù)中心,幾乎所有的企業(yè)數(shù)據(jù)都存放于此。伴隨云計(jì)算的發(fā)展,企業(yè)開(kāi)始把一些數(shù)據(jù)存放到私有數(shù)據(jù)中心以外的云平臺(tái)上,加上健全的安全控制,未經(jīng)授權(quán)的人根本接觸不到這些數(shù)據(jù)。

?

采用云服務(wù)的方式能極大地降低企業(yè)的運(yùn)營(yíng)成本,這是云服務(wù)最大的優(yōu)勢(shì)。本文將進(jìn)一步介紹這個(gè)領(lǐng)域,包括更細(xì)粒度的類別劃分。

?

2.1 云托管業(yè)務(wù)應(yīng)用程序

?

云計(jì)算供應(yīng)商提供了各種服務(wù),如SaaS、PaaS、IaaS等,企業(yè)可以把業(yè)務(wù)應(yīng)用程序托管到云中,同樣也能滿足企業(yè)管理的需求。因此,許多企業(yè)選擇把內(nèi)部開(kāi)發(fā)的應(yīng)用程序托管到這些云計(jì)算提供商。

?

員工使用這些部署在云中的應(yīng)用程序,進(jìn)行日常的一些操作,這和操作部署在企業(yè)自有的數(shù)據(jù)中心中的應(yīng)用沒(méi)有區(qū)別。

?

?

2.2 第三方云計(jì)算方案

?

如今這么多公司把自身的應(yīng)用/服務(wù)托管到云端,這些應(yīng)用/服務(wù)用起來(lái)就跟部署在本地一樣,但是企業(yè)不必考慮維護(hù)和管理應(yīng)用/服務(wù)所需的基礎(chǔ)架構(gòu)。這些僅僅依賴云端環(huán)境的產(chǎn)品,最吸引企業(yè)的一點(diǎn)是它們的收費(fèi)方式。

?

基于這個(gè)優(yōu)點(diǎn),企業(yè)傾向于選擇這些云產(chǎn)品,同時(shí)也由于云產(chǎn)品的先天特點(diǎn),企業(yè)現(xiàn)在也將數(shù)據(jù)(業(yè)務(wù)相關(guān))存儲(chǔ)在其他的云設(shè)施中,即使云提供商完全掌控了這些數(shù)據(jù)。

?

Google的BigQuery就是這樣一款云服務(wù)軟件,用戶可以把數(shù)據(jù)導(dǎo)出到云服務(wù)中,然后運(yùn)行這個(gè)軟件來(lái)進(jìn)行各種分析工作。

?

這類產(chǎn)品有一個(gè)優(yōu)點(diǎn),就是我們可以根據(jù)分析的結(jié)果來(lái)決定是否保留這些數(shù)據(jù)。云服務(wù)具有天然的可伸縮性(硬件層面隨意擴(kuò)展和收縮的能力),如果數(shù)據(jù)分析很復(fù)雜,可以臨時(shí)申請(qǐng)性能強(qiáng)勁的服務(wù)器,分析結(jié)束之后又可以把服務(wù)器的配置恢復(fù)到此前的水平。

?

當(dāng)前階段,類似的解決方案仍在不斷地涌現(xiàn),本文不再一一羅列。

?

與SaaS的方式類似,云端還有很多業(yè)務(wù)應(yīng)用程序也可以作為服務(wù)對(duì)外提供。Salesforce就是這樣的一個(gè)例子。

?

本質(zhì)上,Salesforce是一個(gè)客戶關(guān)系管理(CRM)的解決方案,但是它還集成了很多其他特性。筆者在這里并不是想幫助推銷Salesforce,但是希望介紹一些云端業(yè)務(wù)應(yīng)用的重要特性。Salesforce將所有的客戶信息匯總到一起,幫助企業(yè)從銷售、業(yè)務(wù)分析和客戶服務(wù)等幾個(gè)維度來(lái)構(gòu)建以用戶為中心的商業(yè)模式。

?

因?yàn)椴渴鹪谠贫?#xff0c;Salesforce也帶來(lái)了很多云端SaaS的特性。

?

隨著云服務(wù)對(duì)企業(yè)的影響越來(lái)越大,現(xiàn)在大量企業(yè)把數(shù)據(jù)存儲(chǔ)在互聯(lián)網(wǎng)(云)上,同時(shí),這些云服務(wù)要明確保護(hù)客戶隱私和其他共同權(quán)益,以捍衛(wèi)企業(yè)的商業(yè)目標(biāo)。

?

2.3 社交數(shù)據(jù)(結(jié)構(gòu)化與非結(jié)構(gòu)化)

?

如今,企業(yè)的社交關(guān)系變得至關(guān)重要,即使企業(yè)的數(shù)據(jù)并沒(méi)有存儲(chǔ)在社交網(wǎng)站上,它仍然包含了豐富的信息,這些信息來(lái)自企業(yè)業(yè)務(wù)和其服務(wù)的真實(shí)客戶。

?

用戶在社交網(wǎng)站上留下各種評(píng)價(jià)和建議,企業(yè)可以利用這些數(shù)據(jù)重塑自己的業(yè)務(wù)和與用戶互動(dòng)的方式。

?

如果企業(yè)忽視此類信息,很可能會(huì)損害企業(yè)的聲譽(yù)和品牌。現(xiàn)在企業(yè)非常重視社交網(wǎng)站,因?yàn)檫@些網(wǎng)站上即使沒(méi)有企業(yè)的數(shù)據(jù),也有客戶的評(píng)價(jià)信息,在某種程度上,這些信息代表了客戶對(duì)品牌的認(rèn)知。

?

于是,我們傾向于將這部分?jǐn)?shù)據(jù)歸類為非企業(yè)用戶提供的企業(yè)數(shù)據(jù)。在分析這類數(shù)據(jù)時(shí),需要特別關(guān)注大數(shù)據(jù)的第4個(gè)V(見(jiàn)圖1-3),精準(zhǔn)性。因?yàn)橛行┤藭?huì)利用這個(gè)渠道,在與企業(yè)進(jìn)行業(yè)務(wù)往來(lái)時(shí),獲得一些不正當(dāng)?shù)膬?yōu)勢(shì)。

?

另一個(gè)對(duì)企業(yè)數(shù)據(jù)進(jìn)行分類的方式是按數(shù)據(jù)最終的存儲(chǔ)方式

?

▲圖1-3 大數(shù)據(jù)的4V

?

3. 數(shù)據(jù)持久化存儲(chǔ)(RDBMS或者NoSQL)

?

無(wú)論是在企業(yè)內(nèi)部(企業(yè)基礎(chǔ)架構(gòu))還是在云服務(wù)中,數(shù)據(jù)通常都以結(jié)構(gòu)化數(shù)據(jù)的方式存儲(chǔ)在所謂的傳統(tǒng)RDBMS或者新一代NoSQL持久化存儲(chǔ)中。數(shù)據(jù)通過(guò)業(yè)務(wù)應(yīng)用程序?qū)懭脒@些存儲(chǔ)系統(tǒng),絕大部分?jǐn)?shù)據(jù)在本質(zhì)上是不相關(guān)的,企業(yè)可以很容易理解這些數(shù)據(jù)。

?

數(shù)據(jù)存儲(chǔ)在傳統(tǒng)的RDBMS類存儲(chǔ)系統(tǒng)中時(shí),會(huì)遇到的一個(gè)常見(jiàn)的問(wèn)題,即數(shù)據(jù)量超出了可接受的范圍。在這種情況下,對(duì)數(shù)據(jù)進(jìn)行分析將耗費(fèi)大量的時(shí)間和精力。

?

因此,企業(yè)被迫將數(shù)據(jù)分拆為生產(chǎn)數(shù)據(jù)(數(shù)據(jù)可以被業(yè)務(wù)應(yīng)用查詢和使用)和非生產(chǎn)數(shù)據(jù)(從生產(chǎn)系統(tǒng)轉(zhuǎn)移到另外的存儲(chǔ)系統(tǒng)中的離線數(shù)據(jù))。

?

由于這種拆分,數(shù)據(jù)分析通常跨越若干年,這種分析并不能覆蓋到企業(yè)的全部業(yè)務(wù)因素。

?

舉例來(lái)說(shuō),如果生產(chǎn)系統(tǒng)中有5年的銷售數(shù)據(jù),而非生產(chǎn)系統(tǒng)存儲(chǔ)了15年的銷售數(shù)據(jù),那么用戶在進(jìn)行銷售數(shù)據(jù)分析時(shí),只能查看過(guò)去5年的數(shù)據(jù)。可能存在周期剛好為5年的變化趨勢(shì),只有對(duì)20年的銷售數(shù)據(jù)進(jìn)行分析才能發(fā)現(xiàn)。

?

大多數(shù)時(shí)候,由于RDBMS的局限,存儲(chǔ)和分析海量數(shù)據(jù)是不可能的。即使勉力為之,這種分析也十分耗時(shí),也不能給分析師提供足夠的靈活性。這樣一來(lái),分析師只能進(jìn)行有限的分析,如果企業(yè)正在通過(guò)這些數(shù)據(jù)來(lái)調(diào)整業(yè)務(wù)流程,那么可能會(huì)給企業(yè)帶來(lái)大麻煩。

?

新一代NoSQL(該領(lǐng)域中不同的數(shù)據(jù)庫(kù)具有不同的功能)讓數(shù)據(jù)分析更靈活,同時(shí)存儲(chǔ)數(shù)據(jù)的量也大大增加。這些存儲(chǔ)滿足了分析師們?cè)谛阅芤约捌渌承┓矫娴男枨?#xff0c;但是在一些方面仍然存在不足。

?

即使數(shù)據(jù)存儲(chǔ)在一個(gè)業(yè)務(wù)應(yīng)用中,各種業(yè)務(wù)應(yīng)用的數(shù)據(jù)并沒(méi)有匯聚成一個(gè)單一的視圖,而建設(shè)一個(gè)合適的數(shù)據(jù)湖能幫企業(yè)解決這種問(wèn)題。

?

?

4. 傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)

?

由于生產(chǎn)系統(tǒng)的業(yè)務(wù)應(yīng)用獲取的數(shù)據(jù)量巨大,幾乎所有的時(shí)間里,生產(chǎn)系統(tǒng)的數(shù)據(jù)都與非生產(chǎn)系統(tǒng)分離。非生產(chǎn)系統(tǒng)的數(shù)據(jù)通常存儲(chǔ)在不同的區(qū)域中,并保存在不同的數(shù)據(jù)存儲(chǔ)系統(tǒng)(通常是RDBMS或者NoSQL)中,這種存儲(chǔ)系統(tǒng)就是所謂的數(shù)據(jù)倉(cāng)庫(kù)。

?

通常來(lái)說(shuō),根據(jù)數(shù)據(jù)分析師的需求,數(shù)據(jù)會(huì)被相應(yīng)地清洗和刪除。刪除部分?jǐn)?shù)據(jù)會(huì)限制分析師能執(zhí)行的分析的類別。大多數(shù)情況下,都會(huì)有隱藏的有價(jià)值的數(shù)據(jù)尚未進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),這就會(huì)導(dǎo)致更多的分析,而企業(yè)可以基于這些分析來(lái)調(diào)整業(yè)務(wù);然而,此類數(shù)據(jù)清理和刪除可能會(huì)扼殺潛在的創(chuàng)新。因此這方面需要改進(jìn)。

?

數(shù)據(jù)湖使得分析師可以引入生產(chǎn)系統(tǒng)中的任意業(yè)務(wù)應(yīng)用數(shù)據(jù),并根據(jù)具體情況進(jìn)行各種分析。

?

目前,構(gòu)建這類數(shù)據(jù)倉(cāng)庫(kù)的方案是通過(guò)ETL(Extract,Transform,Load,即抽取、轉(zhuǎn)換、加載),從生產(chǎn)系統(tǒng)的數(shù)據(jù)庫(kù)提取數(shù)據(jù)并保存到數(shù)據(jù)倉(cāng)庫(kù)中。ETL流程會(huì)根據(jù)分析師的需求來(lái)清洗數(shù)據(jù),而分析師會(huì)在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行各種分析。

?

5. 文件存儲(chǔ)

?

業(yè)務(wù)應(yīng)用程序在不斷地變化,新的應(yīng)用允許終端用戶以各種格式獲取數(shù)據(jù),而不僅僅限于從鍵盤輸入的格式化數(shù)據(jù)。

?

終端用戶另一種輸入數(shù)據(jù)的渠道是提交不同格式的文檔。其中一些眾所周知的格式如下:

?

  • 文檔(PDF、DOC、XLS等)

  • 二進(jìn)制

    圖片(JPG、PNG等)

    音頻(MP3、RAM、AC3)

    視頻(MP4、MPEG、MKV)

?

正如前文中介紹的那樣,處理結(jié)構(gòu)化數(shù)據(jù)本身就是一個(gè)大問(wèn)題,現(xiàn)在又引入了非結(jié)構(gòu)化數(shù)據(jù)的分析。但是,分析非結(jié)構(gòu)化數(shù)據(jù)與分析結(jié)構(gòu)化數(shù)據(jù)同等重要。通過(guò)構(gòu)建數(shù)據(jù)湖,我們可以圍繞數(shù)據(jù)湖引入新的技術(shù),利用大數(shù)據(jù)領(lǐng)域最新和最好的技術(shù),可以從非結(jié)構(gòu)數(shù)據(jù)中挖掘到巨大價(jià)值。

?

除了各種文件格式的數(shù)據(jù),有很多應(yīng)用允許終端用戶以語(yǔ)句的形式獲取大量數(shù)據(jù),這部分?jǐn)?shù)據(jù)也需要分析。手動(dòng)處理這些來(lái)自終端用戶的評(píng)論數(shù)據(jù)是一項(xiàng)艱難的任務(wù),在現(xiàn)代化的今天,需要的是自動(dòng)化地解析這些評(píng)論,并了解用戶的觀點(diǎn)。同樣,有很多這樣的技術(shù)可以理解這些數(shù)據(jù)(如自由文本流),讓企業(yè)能夠正確地處理它。

?

舉例來(lái)說(shuō),假如我們有一個(gè)獲取企業(yè)建議的系統(tǒng),每天能獲取近1000條建議,由于該業(yè)務(wù)的天然屬性,很難對(duì)這些建議進(jìn)行過(guò)濾分析。

?

這種場(chǎng)景中,我們可以利用一些技術(shù)來(lái)對(duì)這些評(píng)論進(jìn)行情感分析,然后根據(jù)這些分析工具給出的評(píng)分進(jìn)行初步的過(guò)濾,再將篩選后的建議交給能夠理解和利用這部分?jǐn)?shù)據(jù)的人來(lái)處理。

?

?

?

03 企業(yè)現(xiàn)狀

?

企業(yè)數(shù)據(jù)當(dāng)前的狀態(tài)可以總結(jié)為以下幾點(diǎn):

?

1. 傳統(tǒng)DW(Data Warehouse)/BI(Business Intelligence)

?

  • 使用ETL清洗來(lái)自生產(chǎn)業(yè)務(wù)應(yīng)用的數(shù)據(jù)。

  • 早于一定時(shí)間的數(shù)據(jù)會(huì)轉(zhuǎn)移到另外的存儲(chǔ)系統(tǒng)(如磁帶)中,但是很難對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行檢索。

  • 一些顯著的缺陷:

    數(shù)據(jù)倉(cāng)庫(kù)中保存的是清洗后的生產(chǎn)數(shù)據(jù)的子集;在數(shù)據(jù)倉(cāng)庫(kù)中添加任何數(shù)據(jù)元素都需要付出代價(jià)。

    數(shù)據(jù)倉(cāng)庫(kù)中保存的是全量數(shù)據(jù)的一個(gè)子集,其余數(shù)據(jù)會(huì)轉(zhuǎn)存到另外的持久存儲(chǔ)系統(tǒng)中去。

  • 通常分析速度較慢,即使對(duì)查詢做了一定程度的優(yōu)化。

?

2. 大數(shù)據(jù)孤島

?

  • 一些部門在建設(shè)大數(shù)據(jù)時(shí)采取了正確的措施。但是部門間通常不會(huì)互相協(xié)作,這些大數(shù)據(jù)平臺(tái)就成了孤島,并沒(méi)有真正給企業(yè)帶來(lái)價(jià)值。

  • 一些顯著的缺陷:

    大數(shù)據(jù)平臺(tái)的孤立性再次限制了分析師,使得分析師們無(wú)法跨部門整合和查詢數(shù)據(jù)。

    需要大量資金來(lái)構(gòu)建、維護(hù)、管理這些數(shù)據(jù)孤島,時(shí)間一長(zhǎng)就難以為繼。

?

3. 大量非連接應(yīng)用

?

  • 在企業(yè)內(nèi)部和云服務(wù)中部署大量應(yīng)用程序。

  • 除了產(chǎn)生結(jié)構(gòu)化數(shù)據(jù),應(yīng)用程序也產(chǎn)生非結(jié)構(gòu)化數(shù)據(jù)。

  • 一些顯著的缺陷:

    互相沒(méi)有通信。

    即使有通信,數(shù)據(jù)科學(xué)家們既不能有效地利用這些數(shù)據(jù),也不能對(duì)企業(yè)進(jìn)行有益的改進(jìn)。

    各個(gè)業(yè)務(wù)應(yīng)用在多個(gè)方面重復(fù)使用各種技術(shù)。

?

這里并不是說(shuō)投資構(gòu)建數(shù)據(jù)湖是解決上述所有缺陷的“銀彈”。但是這個(gè)方向一定是正確的,企業(yè)至少應(yīng)該花時(shí)間去思考是否確實(shí)需要數(shù)據(jù)湖,如果答案是肯定的,就不要過(guò)多考慮,直接著手去構(gòu)建。

?

構(gòu)建數(shù)據(jù)湖是企業(yè)的一項(xiàng)戰(zhàn)略級(jí)決策,在構(gòu)建時(shí)需要所有相關(guān)人員的認(rèn)可與支持,而且需要高管層投入精力關(guān)注這個(gè)項(xiàng)目。基于數(shù)據(jù)湖,企業(yè)一定能找到改進(jìn)業(yè)務(wù)流程的方法。它能讓高管人員更深入地了解業(yè)務(wù),同時(shí)也能提升決策的成功率。

?

?

?

04 企業(yè)數(shù)字化轉(zhuǎn)型

?

數(shù)字化轉(zhuǎn)型指的是應(yīng)用數(shù)字化技術(shù),從根本上影響商業(yè)和社會(huì)的方方面面。

?

——infoworld.com

?

數(shù)字化轉(zhuǎn)型(DX)是一個(gè)流行的行業(yè)術(shù)語(yǔ),每個(gè)企業(yè)都毫不猶豫地跟隨了這個(gè)趨勢(shì)。這個(gè)術(shù)語(yǔ)指的是企業(yè)向以信息技術(shù)為核心轉(zhuǎn)型。技術(shù)領(lǐng)域的投入是這項(xiàng)轉(zhuǎn)型的一部分,但數(shù)據(jù)才是轉(zhuǎn)型的關(guān)鍵。

?

近年來(lái),企業(yè)越來(lái)越多地認(rèn)識(shí)到數(shù)據(jù)和數(shù)據(jù)分析的重要性,這無(wú)疑讓企業(yè)有了新思維。這種轉(zhuǎn)型就是一種以數(shù)據(jù)為中心的實(shí)踐。

?

作為商業(yè)轉(zhuǎn)型的一部分,企業(yè)絕對(duì)應(yīng)該把數(shù)據(jù)湖列入重點(diǎn)投入項(xiàng)目列表,所有部門都應(yīng)該欣然將數(shù)據(jù)歸集到數(shù)據(jù)湖來(lái)完成數(shù)據(jù)共享,而不能對(duì)它存有偏見(jiàn)。

?

  • 企業(yè)轉(zhuǎn)型之路

?

埃森哲互動(dòng)曾經(jīng)委托Forrester咨詢公司進(jìn)行過(guò)一項(xiàng)研究,該研究表明數(shù)字化轉(zhuǎn)型的關(guān)鍵驅(qū)動(dòng)力是提升盈利能力、客戶滿意度和產(chǎn)品迭代速度。

?

實(shí)際上,很多企業(yè)已經(jīng)走上了數(shù)字化的轉(zhuǎn)型之路。數(shù)字化轉(zhuǎn)型不再是一句空話,很多企業(yè)正竭力轉(zhuǎn)向把技術(shù)作為驅(qū)動(dòng)力之一,而另一個(gè)驅(qū)動(dòng)力,就是數(shù)據(jù)。

?

轉(zhuǎn)型中的企業(yè)有明確的目標(biāo)。當(dāng)然,這些目標(biāo)與它們所處的具體行業(yè)有關(guān)。但是有些目標(biāo)是公共的,具體如下:

?

  • 從根本上改善客戶體驗(yàn)。

  • 削減成本。

  • 增加收入。

  • 差異化競(jìng)爭(zhēng)。

  • 調(diào)整業(yè)務(wù)流程,反過(guò)來(lái)改善商業(yè)模式。

?

以下是轉(zhuǎn)型目標(biāo)舉例,關(guān)于企業(yè)在該領(lǐng)域希望達(dá)到的目標(biāo),有一系列清晰的例子,部分如下:

?

  • 能夠?qū)蛻暨M(jìn)行細(xì)分并提供個(gè)性化的產(chǎn)品。在恰當(dāng)?shù)臅r(shí)間向合適的客戶推送廣告。

  • 引進(jìn)更多的技術(shù),減少體力勞動(dòng),企業(yè)實(shí)現(xiàn)全方位數(shù)字化。

  • 結(jié)合社交信息和企業(yè)自身數(shù)據(jù),為決策提供支持。

  • 以更為量化的方式預(yù)測(cè)未來(lái),并采取必要措施,提前做好預(yù)案。

  • 以技術(shù)為重要載體實(shí)現(xiàn)業(yè)務(wù)全球化。

?

下文將詳細(xì)介紹企業(yè)在數(shù)字化轉(zhuǎn)型中希望實(shí)現(xiàn)的一個(gè)用例,其中數(shù)據(jù)是主要的貢獻(xiàn)因素。

?

?

?

05 數(shù)據(jù)湖用例啟示

?

數(shù)據(jù)在企業(yè)中的重要性已經(jīng)顯露無(wú)遺。當(dāng)今企業(yè)所面臨的問(wèn)題是如何從這些數(shù)據(jù)中挖掘有用信息來(lái)優(yōu)化自身的業(yè)務(wù)。

?

即便數(shù)據(jù)能夠以某種方式匯聚到一起,也很難在合適的時(shí)間內(nèi)處理數(shù)量如此巨大的數(shù)據(jù)。這時(shí)數(shù)據(jù)湖進(jìn)入了人們的視野。在大數(shù)據(jù)(ID:hzdashuju)此前的文章中曾全面而詳盡地介紹數(shù)據(jù)湖到底是什么。下文將介紹一個(gè)以數(shù)據(jù)湖為中心的用例。

?

基于現(xiàn)代技術(shù)構(gòu)建數(shù)據(jù)湖有很多優(yōu)勢(shì),其中一些如下:

?

  • 通過(guò)各種數(shù)據(jù)分析,企業(yè)能找到業(yè)務(wù)中重要的人員和流程,也能深入了解各類客戶。

  • 企業(yè)能在適度的時(shí)間范圍內(nèi)完成這些分析,而不用等待幾周甚至幾個(gè)月。

  • 業(yè)務(wù)用戶能快速分析數(shù)據(jù),進(jìn)而快速調(diào)整業(yè)務(wù)流程。

?

這個(gè)用例叫作單一客戶視圖(Single Customer View,SCV)。單一客戶視圖是業(yè)內(nèi)眾所周知的術(shù)語(yǔ),它有很多種定義,下面是其中之一:

?

單一客戶視圖是組織或企業(yè)的客戶數(shù)據(jù)的一種聚合的、一致的及全面的表示。

?

——維基百科

?

企業(yè)將客戶數(shù)據(jù)保存在不同的業(yè)務(wù)應(yīng)用中,這會(huì)導(dǎo)致不同程度的數(shù)據(jù)孤島現(xiàn)象。該用例旨在將這些不同來(lái)源的數(shù)據(jù)整合到一起,提供給分析人員查看,從而創(chuàng)建一個(gè)包含所有數(shù)據(jù)的客戶視圖。通過(guò)這個(gè)視圖,企業(yè)能對(duì)客戶進(jìn)行細(xì)分,進(jìn)而向客戶進(jìn)行精準(zhǔn)廣告投放。

?

這個(gè)用例對(duì)企業(yè)的意義可以歸納為如下幾點(diǎn):

?

  • 客戶細(xì)分。

  • 信息整合。

  • 增進(jìn)客戶關(guān)系,避免客戶流失。

  • 更深入的分析等。

?

從概念上講,圖1-5中總結(jié)了我們計(jì)劃實(shí)現(xiàn)的用例。結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都被灌入數(shù)據(jù)湖。單一客戶視圖從數(shù)據(jù)湖中以整體性方式被導(dǎo)出。該用例會(huì)引入各類數(shù)據(jù),也會(huì)詳細(xì)描述各種類型的數(shù)據(jù)樣本。之所以這樣做,是因?yàn)檫@樣可以充分利用數(shù)據(jù)湖,同時(shí)也更為接近真實(shí)情況。

?

圖1-5中顯示了數(shù)據(jù)湖從各種數(shù)據(jù)源(多樣性),以不同的速度獲取不同數(shù)量級(jí)的數(shù)據(jù)。更多地,這是一個(gè)概念性的抽象視圖,本文篇幅有限,如需了解更詳細(xì)的內(nèi)容可閱讀《企業(yè)數(shù)據(jù)湖》一書(shū),你將會(huì)確切知道它具體指代的是什么。

?

?

▲圖1-5 SCV數(shù)據(jù)湖用例的概念視圖

?

關(guān)于作者:湯姆斯·約翰(Tomcy John)是一名企業(yè)級(jí)Java技術(shù)專家,擁有工學(xué)學(xué)士學(xué)位,并且有超過(guò)14年多行業(yè)的開(kāi)發(fā)經(jīng)驗(yàn)。

潘卡·米斯拉(Pankaj Misra)是一名技術(shù)傳播者,擁有工程學(xué)士學(xué)位,并且有超過(guò)16年跨多個(gè)業(yè)務(wù)領(lǐng)域的技術(shù)經(jīng)驗(yàn)。

本文摘編自《企業(yè)數(shù)據(jù)湖》,經(jīng)出版方授權(quán)發(fā)布。

?

延伸閱讀《企業(yè)數(shù)據(jù)湖

點(diǎn)擊上圖了解及購(gòu)買

轉(zhuǎn)載請(qǐng)聯(lián)系微信:togo-maruko

?

推薦語(yǔ):從軟件工程師、架構(gòu)師角度出發(fā),手把手教企你為業(yè)構(gòu)建自己的數(shù)據(jù)湖。“數(shù)據(jù)湖”已經(jīng)成為大數(shù)據(jù)行業(yè)的一個(gè)重要術(shù)語(yǔ),它是數(shù)據(jù)科學(xué)家們獲得有意義的洞察力的平臺(tái),這些洞察力可以被企業(yè)用來(lái)重新定義或改變它們的運(yùn)營(yíng)方式。

?

?

據(jù)統(tǒng)計(jì),99%的大咖都完成了這個(gè)神操作

?

?

更多精彩

?

在公眾號(hào)后臺(tái)對(duì)話框輸入以下關(guān)鍵詞

查看更多優(yōu)質(zhì)內(nèi)容!

?

PPT?|?報(bào)告?|?讀書(shū)?|?書(shū)單?|?干貨?

大數(shù)據(jù)?|?揭秘?|?Python?|?可視化

人工智能?|?機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)

AI?|?1024?|?段子?|?區(qū)塊鏈?|?數(shù)學(xué)

?

猜你想看

?

  • 從數(shù)據(jù)角度看,每家公司只有2種角色:看看你更適合哪一種?

  • 實(shí)用干貨:7個(gè)實(shí)例教你從PDF、Word和網(wǎng)頁(yè)中提取數(shù)據(jù)

  • 怎樣教一臺(tái)計(jì)算機(jī)區(qū)分貓和狗?一文零基礎(chǔ)入坑機(jī)器學(xué)習(xí)

  • 什么是數(shù)據(jù)湖?有什么用?終于有人講明白了……

?

?

Q:?數(shù)據(jù)分析過(guò)程中你都遇到過(guò)哪些困難?

歡迎留言與大家分享

覺(jué)得不錯(cuò),請(qǐng)把這篇文章分享給你的朋友

轉(zhuǎn)載 / 投稿請(qǐng)聯(lián)系:baiyu@hzbook.com

更多精彩,請(qǐng)?jiān)诤笈_(tái)點(diǎn)擊“歷史文章”查看

點(diǎn)擊閱讀原文,了解更多

總結(jié)

以上是生活随笔為你收集整理的数据又多又散,“孤岛困境”怎样破局?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 老牛影视少妇在线观看 | 欧美一区成人 | 国产成人一区二区在线 | 欧美激情一区 | 无码国产69精品久久久久同性 | 91在线观看成人 | 五月天天 | 亚洲精品国产精品乱码桃花 | 国产精品23p | 国产网站精品 | www日本高清| 国产视频一二区 | 小色瓷导航 | 欧美色图俺去了 | 国产精品黑人一区二区三区 | 欧美三级图片 | 妹子干综合网 | 日韩欧美成人一区二区三区 | 亚洲成人一区二区 | 久久综合激情网 | 干夜夜 | 国产一区二区自拍视频 | 精产国品一二三产区m553麻豆 | 久久99精品久久久久久三级 | 久久精品免费av | 欧美视频在线播放 | 亚洲精品无码久久久久久久 | 久久久久久久网站 | 蜜桃精品久久久久久久免费影院 | 成人av在线一区二区 | 福利在线影院 | 日吊视频 | 亚洲国产精品成人综合 | 68日本xxxxxⅹxxx22 | 99这里 | 国产丰满大乳奶水在线视频 | 99精品久久久 | 黄瓜视频91 | av福利站 | 女人喷潮完整视频 | 午夜成人免费电影 | 黄色小说图片视频 | 久久久久国产精品视频 | 在线免费看mv的网站入口 | 日穴视频| 中文字幕无码乱人伦 | 日韩欧美视频一区 | 熟女少妇在线视频播放 | 奇米四色在线观看 | 超碰97在线播放 | 狠狠入 | 日韩中文字幕一区 | 荒野求生21天去码版网站 | 人妻视频一区二区三区 | 日本美女黄视频 | 成人网免费看 | 国产在线播放91 | 爱啪啪av| 在线观看国产黄色 | 日本黄色大片网站 | 青青操视频在线观看 | 黄色一区二区视频 | 久久麻豆视频 | 国产小精品 | 在线视频久 | www.亚洲一区二区 | 国产情侣在线播放 | 亚洲视频入口 | 欧美日韩在线影院 | 久久69| 国产精品成久久久久三级 | 国产999 | 青草超碰 | a视频在线 | www.狠狠 | 草草久久久 | 中文字幕一区二区三区免费看 | 色姑娘av | 天堂在线观看av | 四虎在线影视 | 国产中文一区二区三区 | 香蕉尹人网 | 人人插人人插 | 日韩专区欧美专区 | 人妻精品一区 | 91在线视频国产 | 污污动态图 | 日韩视频一 | 女人久久 | 国产第一页精品 | 稀缺小u女呦精品呦 | 高清av一区二区三区 | 伊人国产在线 | 美国黄色网址 | 一级片大片 | 欧美精品一二三 | 国产人成在线观看 | 一区二区三区在线观看av | 色综合色综合网色综合 |