[转载]SQL Server 2005 Data Mining简介
簡(jiǎn)介
??? 企業(yè)均在嘗試分析其數(shù)據(jù)時(shí)都面臨若干問(wèn)題。通常,并不缺乏數(shù)據(jù)。事實(shí)上,很多企業(yè)感覺(jué)到他們被數(shù)據(jù)淹沒(méi)了;他們沒(méi)有辦法完全利用所有的數(shù)據(jù),將其變成信息。為了處理這方面的問(wèn)題,開(kāi)發(fā)了數(shù)據(jù)倉(cāng)庫(kù)技術(shù),以讓企業(yè)從異構(gòu)的數(shù)據(jù)源獲取大量數(shù)據(jù),并將其變成實(shí)用信息。
??? 恰當(dāng)實(shí)現(xiàn)的數(shù)據(jù)倉(cāng)庫(kù)是具有驚人強(qiáng)大功能的解決方案。公司可以對(duì)信息進(jìn)行分析,并將其加以利用,以進(jìn)行明智的決策。通過(guò)使用數(shù)據(jù)倉(cāng)庫(kù),可以為您提供以下問(wèn)題的答案:
?哪些產(chǎn)品最受 15-20 歲的女性歡迎?
?特定消費(fèi)者的訂單前置時(shí)間和按時(shí)交付的百分比與所有消費(fèi)者的平均值相比如何?
?病房花在每個(gè)病人身上的成本和時(shí)間是多少?
?在簽約階段停滯時(shí)間超過(guò)十天的項(xiàng)目所占的百分比為多少?
?如果某個(gè)特定的實(shí)驗(yàn)室在某類(lèi)特定的藥品上投入了較多的資金,臨床試驗(yàn)結(jié)果是否顯示病人健康狀況好于其他實(shí)驗(yàn)室?
??? 除了這些通常可通過(guò)使用分析應(yīng)用程序得出答案的問(wèn)題之外,數(shù)據(jù)倉(cāng)庫(kù)還支持各種數(shù)據(jù)交付格式。分析應(yīng)用程序設(shè)計(jì)為供分析人員使用,分析人員會(huì)對(duì)數(shù)據(jù)進(jìn)行細(xì)分,研究較低級(jí)別的細(xì)節(jié)。報(bào)告應(yīng)用程序會(huì)創(chuàng)建書(shū)面報(bào)告或聯(lián)機(jī)報(bào)告,這些報(bào)告供功能要求略低的用戶(hù)使用,提供靜態(tài)內(nèi)容,或提供有限的深入挖掘功能。對(duì)于業(yè)務(wù)決策者而言,計(jì)分卡是非常強(qiáng)大的功能,可以提供公司關(guān)鍵性能指標(biāo)的概況,使決策者知道其身處何處。
??? 盡管數(shù)據(jù)倉(cāng)庫(kù)強(qiáng)大而適用,但其自身有一個(gè)局限:它實(shí)質(zhì)上反映的是過(guò)去的情況。由于數(shù)據(jù)倉(cāng)庫(kù)經(jīng)常在夜間或按周加載和處理,因此其表示一個(gè)時(shí)間快照。實(shí)時(shí)或近似實(shí)時(shí)的數(shù)據(jù)倉(cāng)庫(kù)可能實(shí)現(xiàn),且會(huì)變得更常見(jiàn),在最佳的情況下,其數(shù)據(jù)將仍然表示當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)。業(yè)務(wù)決策者和分析人員需要研究此數(shù)據(jù),為了發(fā)現(xiàn)因果關(guān)系,數(shù)據(jù)倉(cāng)庫(kù)需要進(jìn)行一定量的分析。
??? 不是讓人提出假設(shè),然后據(jù)此去找相關(guān)數(shù)據(jù),而是讓數(shù)據(jù)倉(cāng)庫(kù)確定關(guān)系、預(yù)測(cè)未來(lái)時(shí)間、發(fā)現(xiàn)劣質(zhì)數(shù)據(jù),并允許采用以前從來(lái)不可能的方式對(duì)數(shù)據(jù)進(jìn)行分析,這是不是更為有幫助呢?這可以通過(guò)使用數(shù)據(jù)挖掘而實(shí)現(xiàn)。通過(guò)使用數(shù)據(jù)挖掘,可以得出諸如以下這樣的問(wèn)題的答案:
?客戶(hù)將購(gòu)買(mǎi)什么產(chǎn)品?哪些產(chǎn)品將一起銷(xiāo)售?
?公司如何預(yù)測(cè)哪些消費(fèi)者可能會(huì)流失?
?市場(chǎng)狀況如何,將會(huì)如何發(fā)展?
?企業(yè)如何對(duì)其網(wǎng)站使用模式進(jìn)行最佳的分析?
?組織如何確定營(yíng)銷(xiāo)活動(dòng)是否成功?
?企業(yè)如何防止劣質(zhì)數(shù)據(jù)進(jìn)入系統(tǒng)?
?什么是分析非結(jié)構(gòu)化數(shù)據(jù)(如無(wú)格式文本)的最好技術(shù)?
??? Microsoft 在 Microsoft? SQL Server? 2005 中引入了大量新的數(shù)據(jù)挖掘功能,允許企業(yè)給出這些問(wèn)題和其他問(wèn)題的答案。本文將詳細(xì)討論數(shù)據(jù)挖掘可以解決的各種問(wèn)題,并介紹 SQL Server 2005 處理這些問(wèn)題的方式。本文中包括對(duì)典型數(shù)據(jù)挖掘問(wèn)題的概述,并對(duì) SQL Server 2005 中可用于解決這些問(wèn)題的工具和模型進(jìn)行了介紹。<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
數(shù)據(jù)挖掘的承諾
??? 數(shù)據(jù)挖掘承諾將使企業(yè)決策者和分析人員更為輕松。除了僅預(yù)測(cè)未來(lái)性能外,數(shù)據(jù)挖掘?qū)椭鷺?biāo)識(shí)數(shù)據(jù)中可能會(huì)被忽略的關(guān)系,根據(jù)各種環(huán)境計(jì)算特定產(chǎn)品售出的幾率或特定消費(fèi)者可能到別處進(jìn)行購(gòu)買(mǎi)的幾率,諸如此類(lèi)。
??? Microsoft 數(shù)據(jù)挖掘工具不僅僅提供傳統(tǒng)數(shù)據(jù)挖掘功能。以前的數(shù)據(jù)挖掘功能對(duì)數(shù)據(jù)進(jìn)行分析,尋找各個(gè)元素間以前未知的關(guān)系,是典型的“運(yùn)行后即完成”過(guò)程。換句話(huà)說(shuō),公司運(yùn)行數(shù)據(jù)挖掘工具,然后就查看結(jié)果。Microsoft 數(shù)據(jù)挖掘工具不僅僅是完成特定作業(yè)的工具,它們還將執(zhí)行其相關(guān)工作,并立即反過(guò)來(lái)將結(jié)果應(yīng)用到過(guò)程中。這意味著數(shù)據(jù)挖掘模型可能根據(jù)特定的標(biāo)準(zhǔn)對(duì)消費(fèi)者進(jìn)行分組,而分析人員隨后就能立即根據(jù)這些新的客戶(hù)分組情況細(xì)分?jǐn)?shù)據(jù)。
??? 將數(shù)據(jù)挖掘模型的結(jié)果立即提供到分析過(guò)程的這個(gè)能力表示組織現(xiàn)在可以立即確定如何最佳地對(duì)數(shù)據(jù)進(jìn)行分析。目前,大部分組織都按照地域?qū)οM(fèi)者進(jìn)行劃分,僅包括有限的類(lèi)似于人口統(tǒng)計(jì)的信息,如收入或教育程度等。數(shù)據(jù)挖掘可能會(huì)認(rèn)為特定的消費(fèi)者劃分方式比任何地理界定更為有意義,例如,喜歡經(jīng)典音樂(lè)和玩拖拉機(jī)游戲的高收入人群可能更喜歡特定的產(chǎn)品,而不會(huì)受其教育程度或地域的影響。一旦建立這個(gè)消費(fèi)群后,就可以在分析階段使用其對(duì)數(shù)據(jù)進(jìn)行分析。使用不甚明顯的分組方式分析數(shù)據(jù)是數(shù)據(jù)挖掘的最大好處之一。
??? 可以使用數(shù)據(jù)挖掘模型的輸出對(duì)數(shù)據(jù)進(jìn)行分析,這是一個(gè)非常強(qiáng)大的功能,但也可以在集成階段使用這些數(shù)據(jù)。換句話(huà)說(shuō),在組織將來(lái)自整個(gè)企業(yè)的數(shù)據(jù)進(jìn)行合并的過(guò)程中,數(shù)據(jù)挖掘可以根據(jù)其他數(shù)據(jù)確定數(shù)據(jù)是否有意義。可以在商業(yè)智能項(xiàng)目集成期間發(fā)現(xiàn)不規(guī)則數(shù)據(jù),而這意味著所得到的數(shù)據(jù)倉(cāng)庫(kù)更為清楚,對(duì)其進(jìn)行分析將會(huì)更加準(zhǔn)確和有意義。
??? 數(shù)據(jù)收集應(yīng)用程序進(jìn)一步擴(kuò)展了數(shù)據(jù)挖掘,可以應(yīng)用用于在數(shù)據(jù)源消除劣質(zhì)數(shù)據(jù)的規(guī)則。這意味著在數(shù)據(jù)輸入時(shí),將根據(jù)現(xiàn)有數(shù)據(jù)總體對(duì)其進(jìn)行檢查,以確定其可靠性。可以拒絕可靠性低于一定級(jí)別的數(shù)據(jù)。因此,如果某個(gè) Web 窗體接受用戶(hù)信息,而用戶(hù)輸入的出生日期為 2/7/ 1197,則將在其源處拒絕該數(shù)據(jù)。不過(guò),除了簡(jiǎn)單的日期之外,輸入還可以查找出生日期、教育程度、職業(yè)和收入的組合,以確定其可靠程度,并決定接受數(shù)據(jù)還是將其拒絕。
??? 因此,數(shù)據(jù)挖掘遠(yuǎn)不只是一個(gè)運(yùn)行一次然后進(jìn)行分析的簡(jiǎn)單過(guò)程,它已成為了商業(yè)智能 (BI) 應(yīng)用程序、數(shù)據(jù)集成、數(shù)據(jù)分析和報(bào)告的整個(gè)開(kāi)發(fā)生命周期中不可或缺的部分。
SQL Server 2005 Data Mining
簡(jiǎn)介
??? Microsoft SQL Server 2005 Data Mining 平臺(tái)引入了大量的功能,既能采用傳統(tǒng)方式處理數(shù)據(jù)挖掘,也能采取新的方式進(jìn)行數(shù)據(jù)挖掘工作。就傳統(tǒng)方式而言,數(shù)據(jù)挖掘可以根據(jù)輸入來(lái)預(yù)測(cè)未來(lái)的結(jié)果,或者嘗試發(fā)現(xiàn)以前未識(shí)別但類(lèi)似的組中的數(shù)據(jù)或簇?cái)?shù)據(jù)間的關(guān)系。
??? Microsoft 數(shù)據(jù)挖掘工具與傳統(tǒng)數(shù)據(jù)挖掘應(yīng)用程序有很大的不同。首先,它們支持組織中數(shù)據(jù)的整個(gè)開(kāi)發(fā)生命周期(Microsoft 將其稱(chēng)為集成、分析和報(bào)告)。此功能使得數(shù)據(jù)挖掘結(jié)果不再僅限于供少數(shù)專(zhuān)門(mén)的分析人員使用,而將其向整個(gè)組織開(kāi)放了。其次,SQL Server 2005 Data Mining 是開(kāi)發(fā)智能應(yīng)用程序的平臺(tái),而并非一個(gè)獨(dú)立應(yīng)用程序。由于可以方便地從外部訪問(wèn)數(shù)據(jù)挖掘模型,因而可以構(gòu)建智能化的自定義應(yīng)用程序。而且,該模型具有可擴(kuò)展性,因此第三方可以添加自定義算法以支持特定的挖掘需求。最后,Microsoft 數(shù)據(jù)挖掘算法還可以實(shí)時(shí)運(yùn)行,允許實(shí)時(shí)根據(jù)挖掘的數(shù)據(jù)集進(jìn)行數(shù)據(jù)驗(yàn)證。
創(chuàng)建智能應(yīng)用程序
??? 創(chuàng)建智能應(yīng)用程序?qū)嶋H上就是利用數(shù)據(jù)挖掘的各種優(yōu)勢(shì),將其應(yīng)用到整個(gè)數(shù)據(jù)輸入、集成、分析和報(bào)告過(guò)程中。大部分?jǐn)?shù)據(jù)挖掘工具都可以預(yù)測(cè)未來(lái)的結(jié)果,幫助確定不同數(shù)據(jù)元素之間的關(guān)系。這些工具中的大部分都針對(duì)數(shù)據(jù)運(yùn)行,將生成隨后分別解釋的結(jié)果。很多數(shù)據(jù)挖掘工具都是獨(dú)立應(yīng)用程序,專(zhuān)為預(yù)測(cè)需求或識(shí)別關(guān)系而存在,其功能也就僅限于此。
??? 智能應(yīng)用程序?qū)@取數(shù)據(jù)挖掘的輸出,將其作為輸入應(yīng)用到整個(gè)流程。使用數(shù)據(jù)挖掘模型的應(yīng)用程序的一個(gè)例子就是用于接受個(gè)人信息的數(shù)據(jù)輸入表單。應(yīng)用程序的用戶(hù)可以輸入大量數(shù)據(jù),如出生日期、性別、教育程度、收入水平、職業(yè),等等。屬性的某些組合并不合乎邏輯;例如,七歲的小孩的職業(yè)是醫(yī)生且其有高中文憑,這就表示有人在隨便填入數(shù)據(jù)或者表明此人不具有處理數(shù)據(jù)輸入表單的能力。大部分應(yīng)用程序會(huì)通過(guò)實(shí)現(xiàn)復(fù)雜而層層嵌套的邏輯來(lái)處理此類(lèi)問(wèn)題,但實(shí)際上,要確定所有此類(lèi)數(shù)據(jù)組合是否有效,幾乎是不可能的。
??? 為了解決此問(wèn)題,企業(yè)可以使用數(shù)據(jù)挖掘來(lái)查詢(xún)現(xiàn)有的數(shù)據(jù),據(jù)此構(gòu)建有效數(shù)據(jù)組合的規(guī)則。每個(gè)組合都給予一個(gè)可靠程度計(jì)分。組織然后就可以構(gòu)建數(shù)據(jù)輸入程序,使用數(shù)據(jù)挖掘模型進(jìn)行實(shí)時(shí)數(shù)據(jù)輸入驗(yàn)證。該模型將根據(jù)現(xiàn)有數(shù)據(jù)總體給輸入計(jì)分,并返回輸入的可靠程度。應(yīng)用程序然后可以根據(jù)預(yù)先確定的可靠程度閾值來(lái)決定是否接受輸入。
??? 此例說(shuō)明了使用可以實(shí)時(shí)運(yùn)行的數(shù)據(jù)挖掘引擎的好處:可以編寫(xiě)能利用數(shù)據(jù)挖掘的強(qiáng)大功能的應(yīng)用程序。數(shù)據(jù)挖掘并非最終結(jié)果,它成為了整個(gè)過(guò)程的一部分,在集成、分析和報(bào)告的每個(gè)階段都起到一定的作用。
??? 數(shù)據(jù)挖掘可以用在數(shù)據(jù)集成過(guò)程的前端,以驗(yàn)證輸入,也可以在分析階段使用數(shù)據(jù)挖掘。數(shù)據(jù)挖掘提供了分組或簇化值的功能,例如,可以根據(jù)關(guān)鍵字將類(lèi)似的消費(fèi)者或文檔歸入同一個(gè)組中。然后可以將這些簇送回到數(shù)據(jù)倉(cāng)庫(kù),從而可以使用這些分組執(zhí)行分析。一旦知道了分組情況并將其送回到分析循環(huán)中,分析人員就可以使用它們來(lái)采用以前不可能的方式查看數(shù)據(jù)。
??? 智能應(yīng)用程序的一個(gè)主要目標(biāo)就是使得每個(gè)人都可以使用數(shù)據(jù)挖掘模型,而不再是分析人員的專(zhuān)利。過(guò)去,數(shù)據(jù)挖掘一直是具有統(tǒng)計(jì)學(xué)或操作研究背景的專(zhuān)家的領(lǐng)域。為支持此類(lèi)用戶(hù)而構(gòu)建了很多數(shù)據(jù)挖掘工具,但這些工具并不能方便地與其他應(yīng)用程序集成。因此,在數(shù)據(jù)挖掘產(chǎn)品本身之外使用數(shù)據(jù)挖掘信息的能力非常受限制。不過(guò),通過(guò)使用跨整個(gè)過(guò)程且將其模型和結(jié)果對(duì)其他應(yīng)用程序開(kāi)放的工具,企業(yè)可以創(chuàng)建能在任何階段使用數(shù)據(jù)挖掘模型的智能應(yīng)用程序。
??? 平臺(tái)采用集中的服務(wù)器存儲(chǔ)數(shù)據(jù)挖掘模型和結(jié)果,這是平臺(tái)有利于創(chuàng)建智能應(yīng)用程序的另一方面。這些模型通常具有高度的專(zhuān)用性,且非常機(jī)密。將其存儲(chǔ)在服務(wù)器上,可以防止其分散到組織外部。所帶來(lái)的額外的好處就是,通過(guò)為模型提供共享位置,公司可以為每個(gè)模型保持單一版本,而不會(huì)在每個(gè)分析人員的桌面上存在多個(gè)變體。具有“事實(shí)的單一版本”是數(shù)據(jù)倉(cāng)庫(kù)的目標(biāo)之一,此概念也可以擴(kuò)展到數(shù)據(jù)挖掘,因此創(chuàng)建的模型也具有單一版本,并針對(duì)特定業(yè)務(wù)進(jìn)行了優(yōu)化。
SQL Server 2005 數(shù)據(jù)挖掘功能的優(yōu)勢(shì)
??? SQL Server 2005 數(shù)據(jù)挖掘功能具有優(yōu)于傳統(tǒng)數(shù)據(jù)挖掘應(yīng)用程序的眾多優(yōu)勢(shì)。正如前面所討論的,SQL Server 2005 數(shù)據(jù)挖掘功能與所有 SQL Server 產(chǎn)品實(shí)現(xiàn)了集成,包括 SQL Server、SQL Server Integration Services 和 Analysis Services。SQL Server 數(shù)據(jù)挖掘工具不是公司運(yùn)行以生成輸出(稍后將獨(dú)立于分析過(guò)程的其他部分對(duì)其進(jìn)行分析)的單個(gè)應(yīng)用程序。數(shù)據(jù)挖掘功能嵌入到整個(gè)過(guò)程中,可以實(shí)時(shí)運(yùn)行,且結(jié)果可以發(fā)送回集成、分析或報(bào)告過(guò)程。不過(guò),如果這些功能難于使用,則沒(méi)有什么實(shí)際意義。很幸運(yùn)的是,Microsoft 特別關(guān)注工具的易用性。
易于使用
??? 通過(guò) SQL Server 2005,Microsoft 努力將數(shù)據(jù)挖掘從博士們的實(shí)驗(yàn)室中搬出來(lái),讓負(fù)責(zé)設(shè)置和運(yùn)行數(shù)據(jù)模型的開(kāi)發(fā)人員和數(shù)據(jù)庫(kù)管理員 (DBA)、任何分析人員、決策者或可以使用模型輸出的其他用戶(hù)也可以使用數(shù)據(jù)挖掘,而不需要具有任何專(zhuān)門(mén)知識(shí)。
??? 例如,一家使用 SQL Server 2005 早期版本的公司希望創(chuàng)建一個(gè)交叉銷(xiāo)售應(yīng)用程序。交叉銷(xiāo)售會(huì)根據(jù)人們的購(gòu)買(mǎi)模式和當(dāng)前購(gòu)買(mǎi)的產(chǎn)品向其推薦產(chǎn)品。例如,某個(gè)消費(fèi)者購(gòu)買(mǎi)了特定女影星主演的三部電影,則該顧客可能對(duì)同類(lèi)電影中該女影星主演的電影更感興趣。另一方面,對(duì)科幻小說(shuō)和恐怖電影感興趣的消費(fèi)者可能不會(huì)對(duì)愛(ài)情影片的交叉促銷(xiāo)感興趣。
??? 為了實(shí)現(xiàn)交叉銷(xiāo)售程序,該公司求助于 DBA,而不是分析人員。DBA 使用 SQL Server 2005 新數(shù)據(jù)挖掘功能設(shè)置了一個(gè)預(yù)測(cè)模型,該模型將根據(jù)各種因素(包括歷史銷(xiāo)售數(shù)據(jù)和消費(fèi)者的個(gè)人信息)進(jìn)行建議。這個(gè)已就緒的模型每秒鐘可就此特定的消費(fèi)者產(chǎn)生一百萬(wàn)個(gè)預(yù)測(cè)。最終結(jié)果:實(shí)現(xiàn)新模型后,推薦產(chǎn)品的銷(xiāo)售翻了一番。
簡(jiǎn)單而豐富的 API
??? SQL Server 2005 中的數(shù)據(jù)挖掘功能具有一個(gè)非常強(qiáng)大卻甚為簡(jiǎn)單的 API,這使得創(chuàng)建智能應(yīng)用程序非常簡(jiǎn)單。利用該 API,無(wú)需了解每個(gè)模型的內(nèi)部細(xì)節(jié)及其工作原理,就可從客戶(hù)端應(yīng)用程序調(diào)用預(yù)測(cè)模型。這使得開(kāi)發(fā)人員可以根據(jù)分析的數(shù)據(jù)調(diào)用引擎并選擇能提供最佳結(jié)果的模型。返回的數(shù)據(jù)已被標(biāo)記化,即數(shù)字值在一系列屬性中返回。這使得開(kāi)發(fā)人員可以使用簡(jiǎn)單數(shù)據(jù),而不用面對(duì)新的數(shù)據(jù)格式。
??? 訪問(wèn)數(shù)據(jù)挖掘結(jié)果非常簡(jiǎn)單,通過(guò)使用一種與 SQL 相似的語(yǔ)言即可(稱(chēng)為 Data Mining Extensions to SQL 或 DMX)。其語(yǔ)法設(shè)計(jì)為非常適合已經(jīng)了解 SQL 的人員使用。例如,DMX 查詢(xún)可以與以下所示類(lèi)似。
? SELECT TOP 25 t.CustomerID??
? FROM CustomerChurnModel
? NATURAL PREDICTION JOIN
? OPENQUERY('CustomerDataSource', 'SELECT * FROM Customers')
? ORDER BY PredictProbability([Churned],True) DESC
可伸縮性
??? SQL Server 2005 中最重要的數(shù)據(jù)挖掘功能就是其處理大型數(shù)據(jù)集的能力。在很多數(shù)據(jù)挖掘工具中,分析人員必須創(chuàng)建有效的隨機(jī)數(shù)據(jù)樣本,并對(duì)該隨機(jī)樣本運(yùn)行數(shù)據(jù)挖掘應(yīng)用程序。盡管生成隨機(jī)樣本聽(tīng)起來(lái)非常容易,但統(tǒng)計(jì)學(xué)家可以提出大量的理由,說(shuō)明為什么生成有效且真正具有隨機(jī)性的樣本是非常困難且充滿(mǎn)風(fēng)險(xiǎn)的。
??? SQL Server 2005 允許模型對(duì)整個(gè)數(shù)據(jù)集運(yùn)行,從而消除了采樣方面的挑戰(zhàn)。這意味著分析人員不必創(chuàng)建樣本集,算法將在所有數(shù)據(jù)上有效,從而能提供最為準(zhǔn)確的結(jié)果。
SQL Server 2005 數(shù)據(jù)挖掘算法
SQL Server 2005 中可以使用很多算法(見(jiàn)下表)。
| 模型 | 描述 |
| 決策樹(shù) | 決策樹(shù)算法將基于培訓(xùn)集中的值計(jì)算輸出的幾率。例如,20-30 歲年齡組中每年收入超過(guò) 60,000 美元,且有自己的房子的人比沒(méi)有自己房子的 15-19 歲年齡組的人更可能需要?jiǎng)e人提供整理草坪的服務(wù)。以年齡、收入和是否有房子等信息為基礎(chǔ),決策樹(shù)算法可以根據(jù)歷史數(shù)據(jù)計(jì)算某個(gè)人需要整理草坪的服務(wù)的幾率。 |
| 關(guān)聯(lián)規(guī)則 | 關(guān)聯(lián)規(guī)則算法將幫助識(shí)別各種元素之間的關(guān)系。例如,在交叉銷(xiāo)售解決方案中就使用了該算法,因?yàn)樗鼤?huì)記錄各個(gè)項(xiàng)之間的關(guān)系,可以用于預(yù)測(cè)購(gòu)買(mǎi)某個(gè)產(chǎn)品的人也會(huì)有興趣購(gòu)買(mǎi)何種產(chǎn)品。關(guān)聯(lián)規(guī)則算法可以處理異常大的目錄,經(jīng)過(guò)了包含超過(guò)五十萬(wàn)種商品的目錄的測(cè)試。 |
| Na?ve Bayes | Na?ve Bayes 算法用于清楚地顯示針對(duì)不同數(shù)據(jù)元素特定變量中的差異。例如,數(shù)據(jù)庫(kù)中每個(gè)消費(fèi)者的 Household Income(家庭收入)變量都會(huì)不同,可以作為預(yù)測(cè)未來(lái)購(gòu)買(mǎi)活動(dòng)的參數(shù)使用。此模型在顯示特定組間的差異方面尤為出色,如那些流失的消費(fèi)者和那些未流失的消費(fèi)者。 |
| 順序簇化 | 順序簇化算法用于根據(jù)以前時(shí)間的順序分組或簇化數(shù)據(jù)。例如,Web 應(yīng)用程序的用戶(hù)經(jīng)常按照各種路徑瀏覽網(wǎng)站。此算法可以根據(jù)瀏覽站點(diǎn)的頁(yè)面順序?qū)τ脩?hù)進(jìn)行分組,以幫助分析消費(fèi)者并確定是否某個(gè)路徑比其他路徑具有更高的收益。此算法還可以用于進(jìn)行預(yù)測(cè),例如預(yù)測(cè)用戶(hù)可能訪問(wèn)的下一個(gè)頁(yè)面。請(qǐng)注意,順序簇化算法的預(yù)測(cè)能力是許多其他數(shù)據(jù)挖掘供應(yīng)商所無(wú)法提供的功能。 |
| 時(shí)間序列 | 時(shí)間序列算法用于分析和預(yù)測(cè)基于時(shí)間的數(shù)據(jù)。銷(xiāo)售額是最常見(jiàn)的使用時(shí)間序列算法進(jìn)行分析和預(yù)測(cè)的數(shù)據(jù)。此算法將發(fā)現(xiàn)多個(gè)數(shù)據(jù)序列所反映出來(lái)的模式,以便企業(yè)確定不同的元素對(duì)所分析序列的影響。 |
| 神經(jīng)網(wǎng)絡(luò) | 神經(jīng)網(wǎng)絡(luò)是人工智能的核心。它們旨在發(fā)現(xiàn)數(shù)據(jù)中其他算法沒(méi)有發(fā)現(xiàn)的關(guān)系。神經(jīng)網(wǎng)絡(luò)算法一般比其他算法更慢,但它可以發(fā)現(xiàn)各種并不直觀的關(guān)系。 |
| 文本挖掘 | 文本挖掘算法出現(xiàn)在 SQL Server Integration Services 中,用于分析非結(jié)構(gòu)化的文本數(shù)據(jù)。利用此算法,各個(gè)公司可以對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,如消費(fèi)者滿(mǎn)意度調(diào)查中的“comments”(注釋)節(jié)。 |
可擴(kuò)展性
??? SQL Server 2005 包括了大量可以立即使用的算法,而 SQL Server 2005 所使用的模型允許任何供應(yīng)商向數(shù)據(jù)挖掘引擎添加新模型。這些模型將與 SQL Server 2005 提供的模型處于同等位置。第三方的算法還可以享有其他功能所帶來(lái)的優(yōu)勢(shì):可以使用 DMX 對(duì)其進(jìn)行調(diào)用,且易于集成到集成、分析和報(bào)告過(guò)程的任何部分中。
SQL Server 2005 Data Mining 與端到端商業(yè)智能
數(shù)據(jù)集成
??? 集成階段包括從異構(gòu)源捕獲數(shù)據(jù)、傳輸數(shù)據(jù)和將其加載到一個(gè)或多個(gè)源中。傳統(tǒng)數(shù)據(jù)挖掘工具在集成階段幾乎沒(méi)有任何作用,因?yàn)檎窃谶@個(gè)階段捕獲數(shù)據(jù),將其準(zhǔn)備用于進(jìn)行挖掘。盡管這個(gè)聽(tīng)起來(lái)像先有雞還是先有蛋的問(wèn)題,Microsoft 對(duì)于此階段的處理方法相當(dāng)直接:捕獲數(shù)據(jù),合并數(shù)據(jù),挖掘數(shù)據(jù),然后將數(shù)據(jù)挖掘的結(jié)果應(yīng)用到當(dāng)前和所有將來(lái)的數(shù)據(jù)。而且,數(shù)據(jù)挖掘算法可以幫助各個(gè)公司發(fā)現(xiàn)已經(jīng)存在于數(shù)據(jù)中的多余數(shù)據(jù),或者在傳統(tǒng)的提取、轉(zhuǎn)換和加載 (ETL) 過(guò)程中生成的多余數(shù)據(jù)。
??? 在集成階段,如果可以接受插補(bǔ)值,則也可以接受模型所提供的缺失值。這些值可能來(lái)自前一段時(shí)間,也可以預(yù)測(cè)未來(lái)的活動(dòng)。Microsoft 數(shù)據(jù)挖掘工具可以從集成階段動(dòng)態(tài)生成數(shù)字,而不是僅在集成完成后才能提供,這一點(diǎn)頗具優(yōu)勢(shì)。
數(shù)據(jù)挖掘工具與 SQL Server Integration Services 實(shí)現(xiàn)了集成。這意味著在數(shù)據(jù)移動(dòng)和轉(zhuǎn)換階段,可以根據(jù)數(shù)據(jù)挖掘模型的預(yù)測(cè)輸出分析和修改數(shù)據(jù)。例如,可以動(dòng)態(tài)地分析文檔或文本字段,并根據(jù)文檔內(nèi)的關(guān)鍵字放入恰當(dāng)?shù)拇鎯?chǔ)桶中。
數(shù)據(jù)分析
??? 典型的數(shù)據(jù)挖掘工具將在構(gòu)建了數(shù)據(jù)倉(cāng)庫(kù)后生成結(jié)果,而這些結(jié)果獨(dú)立于在數(shù)據(jù)倉(cāng)庫(kù)上完成的其他分析單獨(dú)進(jìn)行分析。將生成預(yù)測(cè)或標(biāo)識(shí)關(guān)系,但數(shù)據(jù)挖掘模型的結(jié)果通常獨(dú)立于數(shù)據(jù)倉(cāng)庫(kù)中使用的數(shù)據(jù)。
??? Microsoft 工具與整個(gè)過(guò)程實(shí)現(xiàn)了集成。正如可在 SQL Server Integration Services 中使用數(shù)據(jù)挖掘一樣,在 Analysis Services和 SQL Server 中也可以看到數(shù)據(jù)挖掘帶來(lái)的好處。不管公司選擇使用關(guān)系數(shù)據(jù)還是 OLAP 數(shù)據(jù),數(shù)據(jù)挖掘在分析階段帶來(lái)的優(yōu)勢(shì)都十分明顯。得益于通用數(shù)據(jù)模型 (UDM),才能以透明的方式對(duì)關(guān)系數(shù)據(jù)和 OLAP 數(shù)據(jù)進(jìn)行分析,而數(shù)據(jù)挖掘則對(duì)此分析起到了促進(jìn)作用。
??? 當(dāng)分析特定數(shù)據(jù)元素時(shí),如產(chǎn)品之間的關(guān)系如何以及如何根據(jù)購(gòu)買(mǎi)模式和網(wǎng)站瀏覽模式對(duì)消費(fèi)者進(jìn)行分組,各種數(shù)據(jù)挖掘模型可以確定如何將這些客戶(hù)或產(chǎn)品劃分為對(duì)分析有意義的組群。當(dāng)把這些組發(fā)送回分析過(guò)程時(shí),數(shù)據(jù)挖掘引擎允許分析人員和用戶(hù)根據(jù)這些簇進(jìn)行劃分和細(xì)化。
報(bào)告
??? 一旦建模完成,創(chuàng)建了正確的模型,數(shù)據(jù)挖掘的重點(diǎn)就從分析轉(zhuǎn)到了結(jié)果上,而且更重要的是通過(guò)將結(jié)果在正確的時(shí)間送到正確的人手中,以將這些結(jié)果應(yīng)用到工作中。SQL Server 2005 中實(shí)現(xiàn)了數(shù)據(jù)挖掘和報(bào)告的集成,可以通過(guò)簡(jiǎn)單靈活且可伸縮的方式向組織中的任何人提供預(yù)測(cè)結(jié)果。
??? 通過(guò)充分利用 SQL Server 2005 Reporting Services,預(yù)測(cè)模型的結(jié)果通過(guò)將報(bào)告嵌入 Microsoft SharePoint? Services,可以輕松地部署到打印報(bào)告、Microsoft Office 文檔或內(nèi)部網(wǎng)中。例如,一個(gè)部門(mén)可以方便地看到產(chǎn)品銷(xiāo)售的智能預(yù)測(cè),或?qū)⒆羁赡苜?gòu)買(mǎi)某個(gè)產(chǎn)品的消費(fèi)者列表分發(fā)到呼叫中心。他們甚至可以看到顯示消費(fèi)者購(gòu)買(mǎi)或不購(gòu)買(mǎi)產(chǎn)品的十大原因,從而合理地分配銷(xiāo)售人力。Microsoft 通過(guò)以易于理解的方式向用戶(hù)報(bào)告、提供有意義的數(shù)據(jù),可以輕松地使用數(shù)據(jù)挖掘的智能和強(qiáng)大功能。
使用數(shù)據(jù)挖掘可以解決的問(wèn)題
??? 談到數(shù)據(jù)挖掘可以解決的業(yè)務(wù)問(wèn)題時(shí),很多人都會(huì)想到購(gòu)物籃分析或發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系,這些在以前都已經(jīng)廣為人知了。實(shí)際上,很多問(wèn)題都可以通過(guò)數(shù)據(jù)挖掘得到解決,但要處理這些問(wèn)題,重要的是要認(rèn)識(shí)到數(shù)據(jù)挖掘可以適用于集成、分析和報(bào)告過(guò)程的任意階段。
問(wèn)題 1:消費(fèi)者將購(gòu)買(mǎi)什么產(chǎn)品?哪些產(chǎn)品會(huì)一起銷(xiāo)售?
??? 最廣為人知的數(shù)據(jù)挖掘應(yīng)用就是傳統(tǒng)的購(gòu)物籃分析,在此過(guò)程中將研究各個(gè)產(chǎn)品間的關(guān)系。各個(gè)公司(特別是零售行業(yè)的公司)非常關(guān)心哪些產(chǎn)品會(huì)一起銷(xiāo)售。知道了這個(gè)問(wèn)題,公司就可以進(jìn)行促銷(xiāo),開(kāi)展交叉銷(xiāo)售。各個(gè)公司都在努力識(shí)別產(chǎn)品間可能不太明顯的關(guān)系,如啤酒與尿布銷(xiāo)售密切相關(guān)的經(jīng)典例子,這個(gè)現(xiàn)象的原因在于,很多被太太派到商店購(gòu)買(mǎi)尿布的男士也會(huì)順便在商店中購(gòu)買(mǎi)啤酒。
??? 數(shù)據(jù)挖掘可以幫助公司檢查所有的產(chǎn)品,以確定其他產(chǎn)品與某個(gè)產(chǎn)品一起銷(xiāo)售的幾率。例如,如果瓶裝銷(xiāo)售花生醬,哪些產(chǎn)品可能與其一起銷(xiāo)售?具體來(lái)說(shuō),就是每種產(chǎn)品組合銷(xiāo)售的幾率是多少?購(gòu)買(mǎi)花生醬的人購(gòu)買(mǎi)面包或薄脆餅干的幾率高嗎?果凍呢?這些可能非常明顯,但購(gòu)物籃分析應(yīng)該根據(jù)花生醬對(duì)所有項(xiàng)進(jìn)行排序,從而使公司可以確定如何進(jìn)行營(yíng)銷(xiāo)和進(jìn)行產(chǎn)品投放決策。
??? 通過(guò)使用 SQL Server Data Mining,各個(gè)公司可以分析關(guān)系數(shù)據(jù)倉(cāng)庫(kù)或 OLAP 數(shù)據(jù)集中的數(shù)據(jù),以發(fā)現(xiàn)最常見(jiàn)的產(chǎn)品組合。Microsoft Association Rules 算法將確定一起出現(xiàn)的項(xiàng),并派生指示相互關(guān)系的規(guī)則。而且,除了進(jìn)行簡(jiǎn)單的分析之外,公司還可以應(yīng)用使用 SQL Server Data Mining 創(chuàng)建的模型,以生成實(shí)時(shí)產(chǎn)品建議,從而在銷(xiāo)售點(diǎn)提供優(yōu)惠,或在在線購(gòu)物籃中增加相關(guān)產(chǎn)品的銷(xiāo)售。
問(wèn)題 2:標(biāo)識(shí)將流失的消費(fèi)者
??? 企業(yè)花費(fèi)了大量的時(shí)間、精力和金錢(qián)來(lái)吸引消費(fèi)者。隨著獲得新顧客的成本增加,留住消費(fèi)者成了各個(gè)公司的一個(gè)主要問(wèn)題。在某些行業(yè)(如電信行業(yè)),客戶(hù)經(jīng)常會(huì)流失,或經(jīng)常不停地更換運(yùn)營(yíng)商,注冊(cè)以獲得優(yōu)惠或特價(jià),然后又會(huì)很快轉(zhuǎn)向另一個(gè)運(yùn)營(yíng)商以獲得其優(yōu)惠。
??? 通過(guò)標(biāo)識(shí)那些可能會(huì)流失的消費(fèi)者,公司可以更好地決定是否接受這些消費(fèi)者,或制定相關(guān)策略以減少流失,從而提高顧客保有情況。數(shù)據(jù)挖掘通過(guò)分析已流失的消費(fèi)者和未流失的消費(fèi)者,并標(biāo)識(shí)可以幫助預(yù)測(cè)新用戶(hù)行為的特征,從而可以幫助標(biāo)識(shí)可能要流失的消費(fèi)者。
??? SQL Server Data Mining 包含多種算法,可以根據(jù)歷史數(shù)據(jù)執(zhí)行流失性分析。這些算法當(dāng)中的每一種都提供了每個(gè)消費(fèi)者是離開(kāi)還是留下的概率或可能性。SQL Server Data Mining 提供了若干個(gè)簡(jiǎn)單的工具,可以方便地確定對(duì)于特定的情況,哪種算法和設(shè)置能夠生成最為準(zhǔn)確的模型,從而保證組織將獲得最好的結(jié)果。一旦公司選擇了最佳模型,就可以使用 DMX 語(yǔ)言和 SQL Server Reporting Services、通過(guò) Web 報(bào)告或 SharePoint 門(mén)戶(hù)來(lái)提供最可能流失的客戶(hù)的列表,從而將此模型投入實(shí)際工作中。
問(wèn)題 3:市場(chǎng)狀況如何,將會(huì)如何發(fā)展?
??? 預(yù)測(cè)未來(lái)的銷(xiāo)售不僅僅是預(yù)測(cè)未來(lái)的收入;很多企業(yè)使用預(yù)測(cè)的銷(xiāo)售量確定人員雇傭、原材料訂購(gòu)和供應(yīng)并計(jì)劃營(yíng)銷(xiāo)活動(dòng)。那些非常強(qiáng)調(diào)未來(lái)銷(xiāo)售量預(yù)測(cè)或其他市場(chǎng)活動(dòng)預(yù)測(cè)的公司長(zhǎng)期以來(lái)都使用各種統(tǒng)計(jì)方法進(jìn)行趨勢(shì)分析。利用某些模型,還可以對(duì)特定經(jīng)濟(jì)因素進(jìn)行預(yù)測(cè)。這些模型中的大多數(shù)無(wú)法創(chuàng)建考慮了其他任意數(shù)據(jù)序列影響的預(yù)測(cè)。例如,它們?cè)陬A(yù)測(cè)庫(kù)存水平時(shí)不會(huì)考慮產(chǎn)品銷(xiāo)售情況。
??? SQL Server Data Mining 中的 Time Series 算法將在考慮業(yè)務(wù)周期的自然周期性的同時(shí)跨多個(gè)數(shù)據(jù)序列研究期間的關(guān)系。公司不僅能預(yù)測(cè)單個(gè)商品的結(jié)果,還可以了解商品銷(xiāo)售與其他因素如何相關(guān),或者銷(xiāo)售模式如何隨時(shí)間更改和發(fā)展。?
問(wèn)題 4:分析網(wǎng)站
??? 網(wǎng)站目前已成為很多企業(yè)不可或缺的一部分。網(wǎng)站扮演著主要營(yíng)銷(xiāo)工具的角色,讓公司能夠全天候地面對(duì)全球的訪問(wèn)者。監(jiān)視正常運(yùn)行時(shí)間、可伸縮性和響應(yīng)能力都非常關(guān)鍵,但其他有一些測(cè)量值比較難以獲取,但卻能為了解消費(fèi)者的習(xí)慣提供很大的幫助。此類(lèi)問(wèn)題不是簡(jiǎn)單的用戶(hù)通常瀏覽網(wǎng)站的路徑,而還要涉及到如何對(duì)這些用戶(hù)進(jìn)行分組和分析。例如,從主頁(yè)開(kāi)始,然后瀏覽產(chǎn)品和聯(lián)系人頁(yè)面的網(wǎng)站訪問(wèn)者與通過(guò)不同網(wǎng)站進(jìn)入產(chǎn)品頁(yè)面,然后訪問(wèn)服務(wù)頁(yè)面的訪問(wèn)者就不一樣。
??? 數(shù)據(jù)挖掘使您不僅能夠根據(jù)其在網(wǎng)站瀏覽的路徑對(duì)網(wǎng)站訪問(wèn)者進(jìn)行分組,還能夠根據(jù)這些分組對(duì)數(shù)據(jù)進(jìn)行分析。例如,可以按照用戶(hù)組分析銷(xiāo)售情況。可以在用戶(hù)組、訂購(gòu)的產(chǎn)品和網(wǎng)站導(dǎo)航間建立關(guān)系。根據(jù)用戶(hù)的進(jìn)入位置和其從中進(jìn)入的網(wǎng)頁(yè),可以對(duì)各種營(yíng)銷(xiāo)活動(dòng)的效果進(jìn)行分析,并用于幫助預(yù)測(cè)未來(lái)工作的結(jié)果。
??? SQL Server Data Mining 提供的 Microsoft Sequence Clustering 算法允許公司根據(jù)用戶(hù)使用公司網(wǎng)站的情況(而不只是他們?cè)L問(wèn)哪些頁(yè)面)對(duì)用戶(hù)進(jìn)行劃分。然后可以將此劃分操作的結(jié)果導(dǎo)入到 Analysis Services 數(shù)據(jù)集中,以進(jìn)行趨勢(shì)分析和歷史分析。然后可以使用 Microsoft Time Series 算法預(yù)測(cè)這些組的銷(xiāo)售情況或來(lái)自這些組的流量,從而提供寶貴的營(yíng)銷(xiāo)和操作信息,以幫助確定如何組織公司的網(wǎng)站內(nèi)容,以盡可能提高價(jià)值和效率。
問(wèn)題 5:確定營(yíng)銷(xiāo)活動(dòng)是否成功
??? 一些企業(yè)花費(fèi)了大量的資金開(kāi)展?fàn)I銷(xiāo)活動(dòng),但很少投入資金進(jìn)行深入的用戶(hù)調(diào)查和聚焦組研究,以確定營(yíng)銷(xiāo)活動(dòng)的效果。大部分企業(yè)直接通過(guò)將活動(dòng)期間的銷(xiāo)售情況與之前一段時(shí)間的銷(xiāo)售情況進(jìn)行對(duì)比分析,以猜測(cè)特定活動(dòng)的效果,但這樣做忽略了大量的其他問(wèn)題,如公司推出的新產(chǎn)品的影響。
??? 通過(guò)使用數(shù)據(jù)挖掘,各個(gè)公司可以在考慮了當(dāng)前產(chǎn)品投放情況、無(wú)活動(dòng)情況下的預(yù)計(jì)銷(xiāo)售情況、消費(fèi)者信息統(tǒng)計(jì)方面發(fā)生的變化等等的同時(shí),分析營(yíng)銷(xiāo)活動(dòng)的影響。企業(yè)還可以預(yù)測(cè)未來(lái)營(yíng)銷(xiāo)活動(dòng)的成功與否,并據(jù)此調(diào)整其資金投入。
??? SQL Server Data Mining 提供了各種工具,可以幫助公司確定其營(yíng)銷(xiāo)活動(dòng)的目標(biāo)和對(duì)其工作進(jìn)行優(yōu)化,以獲得最大的效益。通過(guò)使用 Microsoft Windows? Clustering 算法,企業(yè)可以確定其消費(fèi)群的差異與相似之處,并相應(yīng)地調(diào)整其營(yíng)銷(xiāo)戰(zhàn)略。通過(guò)使用 Microsoft Decision Trees 和其他算法,可以預(yù)測(cè)最可能響應(yīng)某個(gè)活動(dòng)的消費(fèi)者,使得公司可以從其營(yíng)銷(xiāo)投入獲得最大的回報(bào)。通過(guò) SQL Server Integration Services,各個(gè)公司可以快速方便地將這些模型投入生產(chǎn),生成郵件列表,這些列表專(zhuān)為其最大的客戶(hù)群而設(shè)計(jì),包含了專(zhuān)門(mén)針對(duì)這些客戶(hù)而定制的營(yíng)銷(xiāo)信息。
問(wèn)題 6:劣質(zhì)數(shù)據(jù)
??? 沒(méi)有哪個(gè)組織具有完全干凈的數(shù)據(jù)。構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集市可能是發(fā)現(xiàn)劣質(zhì)數(shù)據(jù)的最有效辦法,不過(guò),這并非開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的原意。數(shù)據(jù)倉(cāng)庫(kù)發(fā)現(xiàn)各種問(wèn)題,如空值或值缺失、無(wú)效日期、格式錯(cuò)誤的日期、可接受范圍之外的數(shù)據(jù)以及不一致數(shù)據(jù)(如某個(gè)訂單的貨物在下訂單之前就已經(jīng)發(fā)貨了)。
??? 談到處理數(shù)據(jù)質(zhì)量時(shí),提取、轉(zhuǎn)換和加載 (ETL) 過(guò)程最有發(fā)言權(quán)。正是在這個(gè)過(guò)程中(特別是轉(zhuǎn)換部分),應(yīng)當(dāng)對(duì)數(shù)據(jù)進(jìn)行清理。不過(guò),在此階段清理數(shù)據(jù)并不會(huì)防止劣質(zhì)數(shù)據(jù)在將來(lái)進(jìn)入其中。必須修改數(shù)據(jù)輸入應(yīng)用程序,以限制數(shù)據(jù)輸入和防止源處出現(xiàn)錯(cuò)誤。這是減少創(chuàng)建 ETL 過(guò)程所需的工作所帶來(lái)的額外好處。
??? 人們經(jīng)常將數(shù)據(jù)挖掘看作最終的結(jié)果,但數(shù)據(jù)挖掘技術(shù)是幫助在數(shù)據(jù)輸入應(yīng)用程序驗(yàn)證數(shù)據(jù)輸入的一個(gè)很棒的方法。通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行挖掘,應(yīng)用程序可以使用可靠程度來(lái)確定該數(shù)據(jù)是否健全。這意味著數(shù)據(jù)輸入應(yīng)用程序不會(huì)受到試圖驗(yàn)證輸入的復(fù)雜決策樹(shù)的重壓。例如,如果某人聲稱(chēng)其年齡為十四歲,具有博士學(xué)位,其工作為收款員,則此數(shù)據(jù)的可靠程度很低,應(yīng)該在輸入級(jí)將其拒絕。能夠使用最終結(jié)果的數(shù)據(jù)挖掘在前端驗(yàn)證數(shù)據(jù)輸入是一個(gè)強(qiáng)大的功能,可以在第一時(shí)間將劣質(zhì)數(shù)據(jù)排除在應(yīng)用程序之外。
??? SQL Server Data Mining 允許各個(gè)公司在劣質(zhì)數(shù)據(jù)影響輸入系統(tǒng)之前將其識(shí)別出來(lái),避免降低總體質(zhì)量和分析能力。不管各個(gè)公司需要在輸入點(diǎn)使用 DMX 和 .NET 編程實(shí)時(shí)驗(yàn)證數(shù)據(jù),還是要在使用 SQL Server Integration Services 加載數(shù)據(jù)倉(cāng)庫(kù)時(shí)將數(shù)據(jù)管線中多余的數(shù)據(jù)篩選掉,SQL Server Data Mining 均可提供在劣質(zhì)數(shù)據(jù)影響組織的收益前對(duì)數(shù)據(jù)進(jìn)行清理的能力。
問(wèn)題 7:文本分析
??? 很多應(yīng)用程序允許輸入無(wú)格式文本,而不管是通過(guò)網(wǎng)頁(yè)還是標(biāo)準(zhǔn) Windows 應(yīng)用程序輸入。存儲(chǔ)此數(shù)據(jù)非常簡(jiǎn)單,但對(duì)其執(zhí)行分析要困難很多。雖然有全文索引引擎,但這些工具通常會(huì)為了進(jìn)行搜索而對(duì)文本進(jìn)行索引;它們不會(huì)對(duì)數(shù)據(jù)進(jìn)行分析,以發(fā)現(xiàn)趨勢(shì)或根據(jù)內(nèi)容對(duì)文檔分類(lèi)。
??? 分析無(wú)格式文本(或文本挖掘)將獲取文本字段或文檔中的詞,然后提取出關(guān)鍵詞。這允許文檔或注釋被簇化或分類(lèi)。然后可以使用這些文檔的簇進(jìn)行數(shù)據(jù)分析,就像分析可以使用的時(shí)間和產(chǎn)品信息一樣。例如,可以基于一類(lèi)將產(chǎn)品安全作為主要組成內(nèi)容的文檔執(zhí)行分析,或者,也可以根據(jù)消費(fèi)者在無(wú)格式文本字段中列出的愛(ài)好對(duì)記錄進(jìn)行分組。正是具有了這個(gè)在文檔和其他形式的無(wú)格式文本中查找共同主題的能力,才能夠根據(jù)這些文檔的簇進(jìn)行數(shù)據(jù)分析。
??? SQL Server Data Mining 給企業(yè)帶來(lái)了強(qiáng)大的功能,可以將其所獲得的大量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化信息,以供進(jìn)行分析時(shí)使用。在 SQL Server Integration Services 中對(duì)文本數(shù)據(jù)進(jìn)行了轉(zhuǎn)換后,組織可以將結(jié)果加載到 Analysis Services 數(shù)據(jù)集、挖掘模型甚至 SQL Server Reporting Services 報(bào)告中,以仔細(xì)研究消費(fèi)者關(guān)心的具體問(wèn)題。
結(jié)束語(yǔ)
??? Microsoft 的數(shù)據(jù)挖掘方法具有革命性。Microsoft 沒(méi)有創(chuàng)建用于生成組或預(yù)測(cè)未來(lái)結(jié)果的獨(dú)立工具,而是創(chuàng)建了一個(gè)平臺(tái),該平臺(tái)跨越了處理數(shù)據(jù)的整個(gè)過(guò)程(即集成、分析和報(bào)告)。
??? 這意味著數(shù)據(jù)挖掘模型的輸出可以立即應(yīng)用回?cái)?shù)據(jù)收集、轉(zhuǎn)換和分析過(guò)程中。可以檢測(cè)現(xiàn)有數(shù)據(jù)集中的不規(guī)則數(shù)據(jù),而且可以根據(jù)現(xiàn)有數(shù)據(jù)實(shí)時(shí)地驗(yàn)證新數(shù)據(jù)輸入。這樣就使開(kāi)發(fā)人員不必在應(yīng)用程序代碼中創(chuàng)建復(fù)雜的決策樹(shù),以驗(yàn)證多個(gè)數(shù)據(jù)值的復(fù)雜輸入。
??? 而且,模型輸出還可以立即應(yīng)用到分析階段。如果數(shù)據(jù)挖掘模型根據(jù)購(gòu)買(mǎi)模式或?qū)Ш骄W(wǎng)站的模式將消費(fèi)者分為若干組,這些組將發(fā)送到分析循環(huán)中,以便使用這些組執(zhí)行分析,就像這些組開(kāi)始時(shí)就已內(nèi)置到數(shù)據(jù)倉(cāng)庫(kù)中一樣。分析人員和其他有相關(guān)知識(shí)的員工可以通過(guò)這些分組對(duì)數(shù)據(jù)進(jìn)行細(xì)分,以發(fā)現(xiàn)某個(gè)特定的組帶來(lái)的收益是否更大。
??? Microsoft 還構(gòu)建了一個(gè)安全平臺(tái),在其中,挖掘模型及其輸出均集中存儲(chǔ)在一個(gè)中央位置。模型將不再存儲(chǔ)在難于控制的各個(gè)獨(dú)立計(jì)算機(jī)上。此外,具有一個(gè)集中的模型可以確保所有分析人員和用戶(hù)均使用相同的模型。
?
附:此文由http://www.cnblogs.com/waxdoll/archive/2005/08/27/224388.html轉(zhuǎn)載而來(lái)
并根據(jù)文中提示是出自http://blog.csdn.net/mssqlserver2005/archive/2005/08/26/466098.aspx(CSDN)
可惜我沒(méi)有找到
轉(zhuǎn)載于:https://www.cnblogs.com/aspnetx/archive/2006/08/27/487829.html
與50位技術(shù)專(zhuān)家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的[转载]SQL Server 2005 Data Mining简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 周末之个人杂想
- 下一篇: 设置socket.Receive()的等