大话商业智能
摘要:
商業(yè)智能,英文名字叫Business Intelligence,英文簡(jiǎn)稱BI。 BI這詞看上去很神秘,給人很高科技的感覺(jué),但真正了解的人不多,又加上某些廠商亂用BI來(lái)胡弄人,將好好的BI搞得不成人樣。本文將會(huì)為大家分享我的粗淺理解,當(dāng)然如果你是老鳥(niǎo),請(qǐng)無(wú)視此文! 什么是BI? BI是一個(gè)意義很廣的詞,沒(méi)有標(biāo)準(zhǔn)的定義,簡(jiǎn)單說(shuō)說(shuō)我的理解:BI是一個(gè)對(duì)大量數(shù)據(jù)進(jìn)行處理、分析、挖掘的框架,其目的就是希望得到有用的決策依據(jù)。 下圖大致展示了這樣的一個(gè)框架: 該圖由左到右依次劃分為ETL集成數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)建模、建立Cube(數(shù)據(jù)立方體)、數(shù)據(jù)呈現(xiàn)四部分。 ETL集成數(shù)據(jù) ETL三個(gè)字母是Extract(數(shù)據(jù)抽取)、 Transform(轉(zhuǎn)換)、 Loading(裝載)三個(gè)單詞的首字母。我們暫時(shí)不必去深究這三個(gè)詞的意思,簡(jiǎn)單地說(shuō)就是我們分析數(shù)據(jù)之前,需要將各處的數(shù)據(jù)匯總到一個(gè)地方,這個(gè)過(guò)程需要對(duì)原來(lái)的數(shù)據(jù)進(jìn)行處理。 數(shù)據(jù)倉(cāng)庫(kù)建模 在這部分我們見(jiàn)到數(shù)據(jù)倉(cāng)庫(kù)(Dataware,簡(jiǎn)稱DW)、數(shù)據(jù)集市這些概念,很多書將這兩個(gè)概念說(shuō)得很玄乎,實(shí)際上數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市只是兩個(gè)概念而已,在物理上往往就是一兩個(gè)數(shù)據(jù)庫(kù)甚至是數(shù)據(jù)表而已。數(shù)據(jù)倉(cāng)庫(kù),你可以認(rèn)為就是原數(shù)據(jù)經(jīng)過(guò)ETL后集中存儲(chǔ)的地方,數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)結(jié)構(gòu)需要精心設(shè)計(jì)。而數(shù)據(jù)集市只是將ETL后的數(shù)據(jù)分類存放而已,數(shù)據(jù)集市同樣也需要精心設(shè)計(jì)存儲(chǔ)結(jié)構(gòu)。 建立Cube 我們先溫習(xí)一下數(shù)據(jù)庫(kù)存儲(chǔ)的特點(diǎn),一般來(lái)說(shuō)數(shù)據(jù)庫(kù)設(shè)計(jì)要盡量避免數(shù)據(jù)冗余,這樣可提高數(shù)據(jù)庫(kù)執(zhí)行的效率也避免了數(shù)據(jù)不一致的問(wèn)題。數(shù)據(jù)庫(kù)上有大量的增加、刪除、查找、修改等操作,要求快和具備實(shí)時(shí)性,數(shù)據(jù)庫(kù)就是針對(duì)這些特點(diǎn)來(lái)設(shè)計(jì)的。數(shù)據(jù)庫(kù)的CRUD操作(Create,Read,Update,Delete),被稱為聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing)。 Cube是數(shù)據(jù)立方體,這是一種特殊的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),它設(shè)計(jì)主要目的是方便讀取,而不是方便寫入。Cube中存在大量的冗余數(shù)據(jù),以便可以快速地從不同角度、粒度來(lái)獲取數(shù)據(jù)。這種面向數(shù)據(jù)分析的數(shù)據(jù)庫(kù)操作,被稱為聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。 Cube是在數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市的基礎(chǔ)上建立的,建立Cube時(shí)需要指定維度、粒度等內(nèi)容,設(shè)置是雪花型、星型等,這些內(nèi)容比較復(fù)雜,不太熟悉的朋友先暫且了解到有這些名詞就OK了,稍后再詳細(xì)介紹。 數(shù)據(jù)呈現(xiàn) 建立數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、Cube,其目的有兩: 1.為查詢做好準(zhǔn)備。 2.就是為數(shù)據(jù)挖掘做好準(zhǔn)備。 市面上有很多做報(bào)表的工具,功能看上去很強(qiáng)大,能做柱狀圖、餅圖等等,并且還戴上BI的帽子。其實(shí)這些工具并不是完整的BI工具,它們只做到數(shù)據(jù)展示這層而已。數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市建好后,可用普通的SQL語(yǔ)句進(jìn)行查詢,而對(duì)于Cube,可用Cube專用的查詢語(yǔ)句進(jìn)行查詢。 數(shù)據(jù)挖掘英文叫Data mining,那什么是數(shù)據(jù)挖掘呢?有很多說(shuō)法,說(shuō)說(shuō)我的理解:是指用某些方法和工具,對(duì)數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)隱藏規(guī)律的一種方法。 數(shù)據(jù)挖掘有很多方法,如關(guān)聯(lián)、聚類、分類、回歸、序列分析、偏差分析等,這些內(nèi)容都比較深?yuàn)W。關(guān)于數(shù)據(jù)挖掘的詳細(xì)內(nèi)容,稍后我會(huì)再分享一篇文章。這里只需要知道,數(shù)據(jù)挖掘比一般的SQL查詢不知道要強(qiáng)大多少倍,能得到超乎你想像的結(jié)果。 BI工具 BI工具我了解的不多,SQL Server 和 Oracle 兩大數(shù)據(jù)庫(kù)工具能完整地支持上述的BI框架,而大量充斥的BI小工具主要針對(duì)ETL和報(bào)表這兩個(gè)層次的。如果大家遇到有人用BI的招牌來(lái)兜售軟件,大家應(yīng)該能識(shí)別出該軟件的含金量。BI的核心技術(shù)在于數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)發(fā)掘,這兩者都是高科技的玩意,我好像還沒(méi)有見(jiàn)到這方面的國(guó)產(chǎn)優(yōu)秀軟件。 BI的應(yīng)用 BI在國(guó)內(nèi)的應(yīng)用很多是門面工程,無(wú)論是去胡弄人的人還是被胡弄的人,其實(shí)都不知道什么是BI,一旦套上商業(yè)智能、決策分析這樣的帽子,所有人都變成穿上“皇帝新衣”的人了。 要真正理解BI,關(guān)鍵一層是理解數(shù)據(jù)挖掘,熟悉各種數(shù)據(jù)挖掘算法的原理、特點(diǎn)和用途,運(yùn)用這些知識(shí)來(lái)思考如何挖掘現(xiàn)存的數(shù)據(jù)。 舉幾個(gè)例子: 例1:據(jù)說(shuō)若干年前麥當(dāng)勞是沒(méi)有套餐的,后來(lái)麥當(dāng)勞對(duì)產(chǎn)品的銷售數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)購(gòu)買了漢堡包和薯?xiàng)l的客戶,有70%以上的幾率會(huì)購(gòu)買可樂(lè),所以麥當(dāng)勞就將這三樣?xùn)|西捆綁來(lái)套餐來(lái)賣,結(jié)果銷量大增。 例2:我經(jīng)常在當(dāng)當(dāng)網(wǎng)購(gòu)書,該網(wǎng)站很會(huì)推銷,我看某本書時(shí),它還會(huì)列出我可能感興趣的書,很多時(shí)候我又忍不住去點(diǎn)了那些書看看,結(jié)果到了那本書的介紹頁(yè)面,它又列出我其它可能感興趣的書。這個(gè)“推薦”算法還是有一定技術(shù)含量的,這功能背后很可能應(yīng)用了數(shù)據(jù)挖掘技術(shù)。 BI是很高技術(shù)含量的活,要在各行各業(yè)中應(yīng)用,需要我們切實(shí)掌握BI的知識(shí)特別是數(shù)據(jù)挖掘的知識(shí),為客戶提供優(yōu)秀的解決方案。作者:張傳波
創(chuàng)新工場(chǎng)創(chuàng)業(yè)課堂講師
軟件研發(fā)管理資深顧問(wèn)
《火球——UML大戰(zhàn)需求分析》作者
www.umlonline.org 創(chuàng)辦人
總結(jié)
- 上一篇: Centos下安装apahce的conf
- 下一篇: IOS7的一个神奇的Bug