CRISP-DM
CRISP-DM (cross-industry standard process for data mining), 即為"跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程". 此KDD過程模型于1999年歐盟機(jī)構(gòu)聯(lián)合起草. 通過近幾年的發(fā)展,CRISP-DM 模型在各種KDD過程模型中占據(jù)領(lǐng)先位置,采用量達(dá)到近60%.(數(shù)據(jù)引自Cios and Kurgan于2005年合著的論文trands in data mining and knowledge discovery中 )
CRISP-DM 模型為一個(gè)KDD工程提供了一個(gè)完整的過程描述.該模型將一個(gè)KDD工程分為6個(gè)不同的,但順序并非完全不變的階段.
?
在第一個(gè)階段我們必須從商業(yè)的角度上面了解項(xiàng)目的要求和最終目的是什么. 并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來.
主要工作包括:確定商業(yè)目標(biāo),發(fā)現(xiàn)影響結(jié)果的重要因素,從商業(yè)角度描繪客戶的首要目標(biāo),評(píng)估形勢(shì),查找所有的資源,局限,設(shè)想以及在確定數(shù)據(jù)分析目標(biāo)和項(xiàng)目方案時(shí)考慮到的各種其他的因素,包括風(fēng)險(xiǎn)和意外,相關(guān)術(shù)語,成本和收益等等,接下來確定數(shù)據(jù)挖掘的目標(biāo),制定項(xiàng)目計(jì)劃。
數(shù)據(jù)理解階段開始于數(shù)據(jù)的收集工作。接下來就是熟悉數(shù)據(jù)的工作,具體如:檢測(cè)數(shù)據(jù)的量,對(duì)數(shù)據(jù)有初步的理解,探測(cè)數(shù)據(jù)中比較有趣的數(shù)據(jù)子集,進(jìn)而形成對(duì)潛在信息的假設(shè)。收集原始數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行裝載,描繪數(shù)據(jù),并且探索數(shù)據(jù)特征,進(jìn)行簡(jiǎn)單的特征統(tǒng)計(jì),檢驗(yàn)數(shù)據(jù)的質(zhì)量,包括數(shù)據(jù)的完整性,正確性,缺失值的填補(bǔ)等。
數(shù)據(jù)準(zhǔn)備階段涵蓋了從原始粗糙數(shù)據(jù)中構(gòu)建最終數(shù)據(jù)集(將作為建模工具的分析對(duì)象)的全部工作。數(shù)據(jù)準(zhǔn)備工作有可能被實(shí)施多次,而且其實(shí)施順序并不是預(yù)先規(guī)定好的。這一階段的任務(wù)主要包括:制表,記錄,數(shù)據(jù)變量的選擇和轉(zhuǎn)換,以及為適應(yīng)建模工具而進(jìn)行的數(shù)據(jù)清理等等。根據(jù)與挖掘目標(biāo)的相關(guān)性,數(shù)據(jù)質(zhì)量以及技術(shù)限制,選擇作為分析使用的數(shù)據(jù),并進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行清理轉(zhuǎn)換,構(gòu)造衍生變量,整合數(shù)據(jù),并根據(jù)工具的要求,格式化數(shù)據(jù)。
在這一階段,各種各樣的建模方法將被加以選擇和使用,通過建造,評(píng)估模型將其參數(shù)將被校準(zhǔn)為最為理想的值。比較典型的是,對(duì)于同一個(gè)數(shù)據(jù)挖掘的問題類型,可以有多種方法選擇使用。如果有多重技術(shù)要使用,那么在這一任務(wù)中,對(duì)于每一個(gè)要使用的技術(shù)要分別對(duì)待。一些建模方法對(duì)數(shù)據(jù)的形式有具體的要求,因此,在這一階段,重新回到數(shù)據(jù)準(zhǔn)備階段執(zhí)行某些任務(wù)有時(shí)是非常必要的。
從數(shù)據(jù)分析的角度考慮,在這一階段中,已經(jīng)建立了一個(gè)或多個(gè)高質(zhì)量的模型。但在進(jìn)行最終的模型部署之前,更加徹底的評(píng)估模型,回顧在構(gòu)建模型過程中所執(zhí)行的每一個(gè)步驟,是非常重要的,這樣可以確保這些模型是否達(dá)到了企業(yè)的目標(biāo)。一個(gè)關(guān)鍵的評(píng)價(jià)指標(biāo)就是看,是否仍然有一些重要的企業(yè)問題還沒有被充分地加以注意和考慮。在這一階段結(jié)束之時(shí),有關(guān)數(shù)據(jù)挖掘結(jié)果的使用應(yīng)達(dá)成一致的決定。
部署,即將其發(fā)現(xiàn)的結(jié)果以及過程組織成為可讀文本形式.模型的創(chuàng)建并不是項(xiàng)目的最終目的。盡管建模是為了增加更多有關(guān)于數(shù)據(jù)的信息,但這些信息仍然需要以一種客戶能夠使用的方式被組織和呈現(xiàn)。這經(jīng)常涉及到一個(gè)組織在處理某些決策過程中,如在決定有關(guān)網(wǎng)頁的實(shí)時(shí)人員或者營銷數(shù)據(jù)庫的重復(fù)得分時(shí),擁有一個(gè)“活”的模型。根據(jù)需求的不同,部署階段可以是僅僅像寫一份報(bào)告那樣簡(jiǎn)單,也可以像在企業(yè)中進(jìn)行可重復(fù)的數(shù)據(jù)挖掘程序那樣復(fù)雜。在許多案例中,往往是客戶而不是數(shù)據(jù)分析師來執(zhí)行部署階段。然而,盡管數(shù)據(jù)分析師不需要處理部署階段的工作,對(duì)于客戶而言,預(yù)先了解需要執(zhí)行的活動(dòng)從而正確的使用已構(gòu)建的模型是非常重要的。
事實(shí)上,就方法學(xué)而言,CRISP-DM并不是什么新觀念,本質(zhì)來看就是在分析應(yīng)用中提出問題、分析問題和解決問題的過程。而可貴之處在于其提綱挈領(lǐng)的特性,非常適合工程管理,適合大規(guī)模定制,以至CRISP-DM如今已經(jīng)成為事實(shí)上的行業(yè)標(biāo)準(zhǔn),“調(diào)查顯示,50%以上的數(shù)據(jù)挖掘工具采用的都是CRISP-DM的數(shù)據(jù)挖掘流程"。
轉(zhuǎn)載于:https://www.cnblogs.com/timlong/p/9849228.html
總結(jié)
- 上一篇: 唠叨走势类型
- 下一篇: Windows下UEFI环境的搭建