日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

胖子哥大数据之路(一)-数据仓库也需要大数据

發(fā)布時(shí)間:2025/3/20 编程问答 24 豆豆
生活随笔 收集整理的這篇文章主要介紹了 胖子哥大数据之路(一)-数据仓库也需要大数据 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

為什么80%的碼農(nóng)都做不了架構(gòu)師?>>> ??

一、楔子

  大數(shù)據(jù)傳統(tǒng)企業(yè)實(shí)施,其路漫漫,絕不會(huì)如曇花一現(xiàn),探索大數(shù)據(jù)在傳統(tǒng)行業(yè)的實(shí)施之路,尋找一條適合傳統(tǒng)行業(yè)的企業(yè)大數(shù)據(jù)實(shí)施方法體系,是我執(zhí)著堅(jiān)守的信念,大數(shù)據(jù)是一種信仰,吾將上下而求索。記下項(xiàng)目中的點(diǎn)滴,算是日志,自勉。

二、項(xiàng)目背景

  最近在處理一個(gè)商業(yè)銀行的大數(shù)據(jù)項(xiàng)目,旨在構(gòu)建大數(shù)據(jù)資源池,項(xiàng)目邊界確認(rèn)過程中,針對項(xiàng)目的定位出現(xiàn)了兩種不同的觀點(diǎn),對大數(shù)據(jù)的在傳統(tǒng)行業(yè) 的應(yīng)用有了新的啟發(fā)。觀點(diǎn)一、大數(shù)據(jù)作為操作數(shù)據(jù)歷史庫,存儲(chǔ)操作數(shù)據(jù)庫數(shù)據(jù),提供歷史數(shù)據(jù)長周期,快速檢索的歷史數(shù)據(jù)存儲(chǔ)和快速查詢服務(wù)。觀點(diǎn)二、大數(shù) 據(jù)作為數(shù)據(jù)倉庫的的歷史庫,解決數(shù)據(jù)倉庫歷史數(shù)據(jù)存儲(chǔ)的問題,構(gòu)建一個(gè)大容量,高可用的數(shù)據(jù)存儲(chǔ)平臺(tái),為全量數(shù)據(jù)分析和知識(shí)挖掘提供服務(wù)。作為操作數(shù)據(jù)庫 的歷史庫,已經(jīng)完成了項(xiàng)目的實(shí)施,但是作為數(shù)據(jù)倉庫的歷史庫之前的定位一直是取代,基于大數(shù)據(jù)做數(shù)據(jù)分析和知識(shí)挖掘,現(xiàn)在卻找到了一個(gè)新的切入點(diǎn),才發(fā) 現(xiàn),原來二者并不矛盾。

三、數(shù)據(jù)倉庫與操作數(shù)據(jù)庫

  數(shù)據(jù)倉庫的定義并無統(tǒng)一的說法,通常的到人們認(rèn)可的概念是:一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理者的決策過程。簡單點(diǎn)說數(shù)據(jù)倉庫就是一種語義上的數(shù)據(jù)存儲(chǔ),它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放于企業(yè)戰(zhàn)略決策相關(guān)的重要信息。

  數(shù)據(jù)倉庫不同于操作數(shù)據(jù)庫,操作數(shù)據(jù)庫的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)處理和查詢處理,稱作聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策支持方面為用戶或者機(jī)器學(xué)習(xí)提供服務(wù),即聯(lián)機(jī)分析處理(OLAP)。二者的主要區(qū)別在于五個(gè)大的方面:

  1)用戶系統(tǒng)的面向性:客戶與市場;

  2)數(shù)據(jù)內(nèi)容:當(dāng)前與歷史;

  3)數(shù)據(jù)庫設(shè)計(jì):ER與面向主題

  4)視圖:當(dāng)前與全景

  5)訪問模式:原子事務(wù)與只讀操作

  傳統(tǒng)模式下數(shù)據(jù)倉庫服務(wù)器通常采用關(guān)系型數(shù)據(jù)庫,也就是說從軟件實(shí)現(xiàn)的角度,數(shù)據(jù)倉庫和操作型數(shù)據(jù)采用的模式是一樣的。這就決定了,數(shù)據(jù)倉庫和操作數(shù)據(jù)庫面臨同樣的問題:行業(yè)壟斷帶來的成本依賴、數(shù)據(jù)模型帶來的存儲(chǔ)瓶頸和運(yùn)算瓶頸。

數(shù)據(jù)倉庫的三層架構(gòu)如下圖所示:

四、大數(shù)據(jù)的位置

  數(shù)據(jù)倉庫系統(tǒng)應(yīng)用大數(shù)據(jù)技術(shù)的模式還在探索,但是目前總結(jié)了幾個(gè)方面的應(yīng)用。

  1)大數(shù)據(jù)作為數(shù)據(jù)倉庫的歷史數(shù)據(jù)存儲(chǔ)系統(tǒng):解決數(shù)據(jù)倉庫只能存儲(chǔ)短時(shí)段數(shù)據(jù)的問題

  2)構(gòu)建基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)模型,致力于低成本的數(shù)據(jù)挖掘體系:傳統(tǒng)BI的瓶頸在于軟硬件綁定、商業(yè)壟斷和處理性能,基于但數(shù)據(jù)開源體系的算法模型和并行計(jì)算能力,構(gòu)建全量的數(shù)據(jù)分析和挖掘,最終目標(biāo)在于取代原有高成本的BI體系,為企業(yè)降低負(fù)擔(dān)。

  3) 實(shí)時(shí)+離線模式的確立,可以充分利用企業(yè)已有的IT資源設(shè)施,充分利用成熟的BI技術(shù),從而為企業(yè)提供更好的服務(wù)。

五、遺留問題

  大數(shù)據(jù)定位為離線的數(shù)據(jù)倉庫,將會(huì)出現(xiàn)三級數(shù)據(jù)存儲(chǔ)模型,實(shí)時(shí)操作庫-數(shù)據(jù)倉庫-大數(shù)據(jù)資源池,目標(biāo)有定位已經(jīng)明確,但是具體實(shí)施仍要探索,未完待續(xù)...


轉(zhuǎn)載于:https://my.oschina.net/pangzi/blog/199158

總結(jié)

以上是生活随笔為你收集整理的胖子哥大数据之路(一)-数据仓库也需要大数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。