SAS数据挖掘方法论 ─ SEMMA
Explore ─數(shù)據(jù)特征探索、分析和予處理
Modify? ─問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇
Model?? ─模型的研發(fā)、知識(shí)的發(fā)現(xiàn)
Assess? ─模型和知識(shí)的綜合解釋和評(píng)價(jià)?
?
Sample──數(shù)據(jù)取樣
??? 當(dāng)進(jìn)行數(shù)據(jù)挖掘時(shí),首先要從企業(yè)大量數(shù)據(jù)中取出一個(gè)與你要探索問題相關(guān)的樣板數(shù)據(jù)子集,而不是動(dòng)用全部企業(yè)數(shù)據(jù)。這就象在對(duì)開采出來礦石首先要進(jìn)行選礦一樣。通過數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且能通過數(shù)據(jù)的篩選,使你想要它反映的規(guī)律性更加凸現(xiàn)出來。
通過數(shù)據(jù)取樣,要把好數(shù)據(jù)的質(zhì)量關(guān)。在任何時(shí)候都不要忽視數(shù)據(jù)的質(zhì)量,即使你是從一個(gè)數(shù)據(jù)倉庫中進(jìn)行數(shù)據(jù)取樣,也不要忘記檢查其質(zhì)量如何。因?yàn)橥ㄟ^數(shù)據(jù)挖掘是要探索企業(yè)運(yùn)作的規(guī)律性的,原始數(shù)據(jù)有誤,還談什么從中探索規(guī)律性。若你真的從中還探索出來了什么“規(guī)律性”,再依此去指導(dǎo)工作,則很可能是在進(jìn)行誤導(dǎo)。若你是從正在運(yùn)行著的系統(tǒng)中進(jìn)行數(shù)據(jù)取樣,則更要注意數(shù)據(jù)的完整性和有效性。再次提醒你在任何時(shí)候都不要忽視數(shù)據(jù)的質(zhì)量,慎之又慎!
從巨大的企業(yè)數(shù)據(jù)母體中取出哪些數(shù)據(jù)作為樣本數(shù)據(jù)呢?這要依你所要達(dá)到的目標(biāo)來區(qū)分采用不同的辦法:如果你是要進(jìn)行過程的觀察、控制,這時(shí)你可進(jìn)行隨機(jī)取樣,然后根據(jù)樣本數(shù)據(jù)對(duì)企業(yè)或其中某個(gè)過程的狀況作出估計(jì)。SAS不僅支持這一取樣過程,而且可對(duì)所取出的樣本數(shù)據(jù)進(jìn)行各種例行的檢驗(yàn)。若你想通過數(shù)據(jù)挖掘得出企業(yè)或其某個(gè)過程的全面規(guī)律性時(shí),必須獲得在足夠廣泛范圍變化的數(shù)據(jù),以使其有代表性。你還應(yīng)當(dāng)從實(shí)驗(yàn)設(shè)計(jì)的要求來考察所取樣數(shù)據(jù)的代表性。唯此,才能通過此后的分析研究得出反映本質(zhì)規(guī)律性的結(jié)果。利用它支持你進(jìn)行決策才是真正有效的,并能使企業(yè)進(jìn)一步獲得技術(shù)、經(jīng)濟(jì)效益。
?
Explore──數(shù)據(jù)特征探索、分析和予處理
前面所敘述的數(shù)據(jù)取樣,多少是帶著人們對(duì)如何達(dá)到數(shù)據(jù)挖掘目的的先驗(yàn)的認(rèn)識(shí)進(jìn)行操作的。當(dāng)我們拿到了一個(gè)樣本數(shù)據(jù)集后,它是否達(dá)到我們?cè)瓉碓O(shè)想的要求;其中有沒有什么明顯的規(guī)律和趨勢(shì);有沒有出現(xiàn)你所從未設(shè)想過的數(shù)據(jù)狀態(tài);因素之間有什么相關(guān)性;它們可區(qū)分成怎樣一些類別……這都是要首先探索的內(nèi)容。
進(jìn)行數(shù)據(jù)特征的探索、分析,最好是能進(jìn)行可視化的操作。SAS有:SAS/INSIGHT和SAS/SPECTRAVIEW兩個(gè)產(chǎn)品給你提供了可視化數(shù)據(jù)操作的最強(qiáng)有力的工具、方法和圖形。它們不僅能做各種不同類型統(tǒng)計(jì)分析顯示,而且可做多維、動(dòng)態(tài)、甚至旋轉(zhuǎn)的顯示。
這里的數(shù)據(jù)探索,就是我們通常所進(jìn)行的深入調(diào)查的過程。你最終要達(dá)到的目的可能是要搞清多因素相互影響的,十分復(fù)雜的關(guān)系。但是,這種復(fù)雜的關(guān)系不可能一下子建立起來。一開始,可以先觀察眾多因素之間的相關(guān)性;再按其相關(guān)的程度,以了解它們之間相互作用的情況。這些探索、分析,并沒有一成不變操作規(guī)律性;相反,是要有耐心的反復(fù)的試探,仔細(xì)的觀察。在此過程中,你原來的專業(yè)技術(shù)知識(shí)是非常有用的,它會(huì)幫助你進(jìn)行有效的觀察。但是,你也要注意,不要讓你的專業(yè)知識(shí)束縛了你對(duì)數(shù)據(jù)特征觀察的敏銳性。可能實(shí)際存在著你的先驗(yàn)知識(shí)認(rèn)為不存在的關(guān)系。假如你的數(shù)據(jù)是真實(shí)可靠的話,那末你絕對(duì)不要輕易地否定數(shù)據(jù)呈現(xiàn)給你的新關(guān)系。很可能這里就是發(fā)現(xiàn)的新知識(shí)!有了它,也許會(huì)導(dǎo)引你在此后的分析中,得出比你原有的認(rèn)識(shí)更加符合實(shí)際的規(guī)律性知識(shí)。假如在你的操作中出現(xiàn)了這種情況,應(yīng)當(dāng)說,你的數(shù)據(jù)挖掘已挖到了有效的礦脈。
在這里要提醒你的是要有耐心,做幾種分析,就發(fā)現(xiàn)重大成果是不大可能的。所幸的是SAS向你提供了強(qiáng)有力的工具,它可跟隨你的思維,可視化、快速的作出反應(yīng)。免除了數(shù)學(xué)的復(fù)雜運(yùn)算過程和編制結(jié)果展現(xiàn)程序的煩惱和對(duì)你思維的干擾。這就使你數(shù)據(jù)分析過程集聚于你業(yè)務(wù)領(lǐng)域的問題,并使你的思維保持了一個(gè)集中的較高級(jí)的活動(dòng)狀態(tài),從而加速了你的思維過程,提高了你的思維能力。
?
Modify──問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇
通過上述兩個(gè)步驟的操作,你對(duì)數(shù)據(jù)的狀態(tài)和趨勢(shì)可能有了進(jìn)一步的了解。對(duì)你原來要解決的問題可能會(huì)有了進(jìn)一步的明確;這時(shí)要盡可能對(duì)問題解決的要求能進(jìn)一步的量化。問題越明確,越能進(jìn)一步量化,問題就向它的解決更前進(jìn)了一步。這是十分重要的。因?yàn)樵瓉淼膯栴}很可能是諸如質(zhì)量不好、生產(chǎn)率低等模糊的問題,沒有問題的進(jìn)一步明確,你簡直就無法進(jìn)行有效的數(shù)據(jù)挖掘操作。
在問題進(jìn)一步明確化的基礎(chǔ)上,你就可以按照問題的具體要求來審視你的數(shù)據(jù)集了,看它是否適應(yīng)你的問題的需要。Gartner group在評(píng)論當(dāng)前一些數(shù)據(jù)挖掘產(chǎn)品時(shí)特別強(qiáng)調(diào)指出:在數(shù)據(jù)挖掘的各個(gè)階段中,數(shù)據(jù)挖掘的產(chǎn)品都要使所使用的數(shù)據(jù)和所將建立模型處于十分易于調(diào)整、修改和變動(dòng)的狀態(tài),這才能保證數(shù)據(jù)挖掘有效的進(jìn)行。
針對(duì)問題的需要可能要對(duì)數(shù)據(jù)進(jìn)行增刪;也可能按照你對(duì)整個(gè)數(shù)據(jù)挖掘過程的新認(rèn)識(shí),要組合或者生成一些新的變量,以體現(xiàn)對(duì)狀態(tài)的有效的描述。SAS對(duì)數(shù)據(jù)強(qiáng)有力的存取、管理和操作的能力保證了對(duì)數(shù)據(jù)的調(diào)整、修改和變動(dòng)的可能性。若使用了SAS的數(shù)據(jù)倉庫產(chǎn)品技術(shù)時(shí)就更進(jìn)一步保證了有效、方便的進(jìn)行這些操作。
在問題進(jìn)一步明確;數(shù)據(jù)結(jié)構(gòu)和內(nèi)容進(jìn)一步調(diào)整的基礎(chǔ)上,下一步數(shù)據(jù)挖掘應(yīng)采用的技術(shù)手段就更加清晰、明確了。
?
Model──模型的研發(fā)、知識(shí)的發(fā)現(xiàn)
這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié)。雖然數(shù)據(jù)挖掘模型化工作涉及了非常廣闊的技術(shù)領(lǐng)域,但對(duì)SAS研究所來說并不是一件新鮮事。自從SAS問世以來,就一直是統(tǒng)計(jì)模型市場領(lǐng)域的領(lǐng)頭羊,而且年年提供新產(chǎn)品,并以這些產(chǎn)品體現(xiàn)業(yè)界技術(shù)的最新發(fā)展。
按照SAS提出的SEMMA方法論走到這一步時(shí),你對(duì)應(yīng)采用的技術(shù)已有了較明確的方向;你的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容也有了充分的適應(yīng)性。SAS在這時(shí)也向你提供了充分的可選擇的技術(shù)手段:回歸分析方法等廣泛的數(shù)理統(tǒng)計(jì)方法;關(guān)聯(lián)分析方法;分類及聚類分析方法;人工神經(jīng)元網(wǎng)絡(luò);決策樹……等。
在你的數(shù)據(jù)挖掘中使用哪一種方法,用SAS軟件包中什么方法來實(shí)現(xiàn),這主要取決于你的數(shù)據(jù)集的特征和你要實(shí)現(xiàn)的目標(biāo)。實(shí)際上這種選擇也不一定是唯一的。好在SAS軟件運(yùn)行效率十分高,你不妨多試幾種方法,從實(shí)踐中選出最適合于你的方法。
?
Assess──模型和知識(shí)的綜合解釋和評(píng)價(jià)
從上述過程中將會(huì)得出一系列的分析結(jié)果、模式或模型。同一個(gè)數(shù)據(jù)源可以利用多種數(shù)據(jù)分析方法和模型進(jìn)行分析,ASSESS 的目的之一就是從這些模型中自動(dòng)找出一個(gè)最好的模型出來,另外就是要對(duì)模型進(jìn)行針對(duì)業(yè)務(wù)的解釋和應(yīng)用。
若能從模型中得出一個(gè)直接的結(jié)論當(dāng)然很好。但更多的時(shí)候會(huì)得出對(duì)目標(biāo)問題多側(cè)面的描述。這時(shí)就要能很好的綜合它們的影響規(guī)律性提供合理的決策支持信息。所謂合理,實(shí)際上往往是要你在所付出的代價(jià)和達(dá)到預(yù)期目標(biāo)的可靠性的平衡上作出選擇。假如在你的數(shù)據(jù)挖掘過程中,就預(yù)見到最后要進(jìn)行這樣的選擇的話,那末你最好把這些平衡的指標(biāo)盡可能的量化,以利你綜合抉擇。
你提供的決策支持信息適用性如何,這顯然是十分重要的問題。除了在數(shù)據(jù)處理過程中SAS軟件提供給你的許多檢驗(yàn)參數(shù)外,評(píng)價(jià)的辦法之一是直接使用你原來建立模型的樣板數(shù)據(jù)來進(jìn)行檢驗(yàn)。假如這一關(guān)就通不過的話,那末你的決策支持信息的價(jià)值就不太大了。一般來說,在這一步應(yīng)得到較好的評(píng)價(jià)。這說明你確實(shí)從這批數(shù)據(jù)樣本中挖掘出了符合實(shí)際的規(guī)律性。
另一種辦法是另外找一批數(shù)據(jù),已知這些數(shù)據(jù)是反映客觀實(shí)際的規(guī)律性的。這次的檢驗(yàn)效果可能會(huì)比前一種差。差多少是要注意的。若是差到你所不能容忍程度,那就要考慮第一次構(gòu)建的樣本數(shù)據(jù)是否具有充分的代表性;或是模型本身不夠完善。這時(shí)候可能要對(duì)前面的工作進(jìn)行反思了。若這一步也得到了肯定的結(jié)果時(shí),那你的數(shù)據(jù)挖掘應(yīng)得到很好的評(píng)價(jià)了。
總結(jié)
以上是生活随笔為你收集整理的SAS数据挖掘方法论 ─ SEMMA的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 实现基于虚拟用户的邮件系统架构
- 下一篇: GNU make manual 翻译(七