数据挖掘方法论与工程化思考
數(shù)據(jù)挖掘方法論與工程化思考
百家號(hào)?08-11?23:41數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程
CRISP-DM (cross-industry standard process for data mining), 即為"跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程"。此KDD過(guò)程模型于1999年歐盟機(jī)構(gòu)聯(lián)合起草。通過(guò)近幾年的發(fā)展,CRISP-DM 模型在各種KDD過(guò)程模型中占據(jù)領(lǐng)先位置,2014年統(tǒng)計(jì)表明,采用量達(dá)到43%。
通常來(lái)說(shuō),在各類(lèi)相關(guān)方法論調(diào)研中,排在CRISP-DM后面的是SAS SEMMA。SEMMA代表建模的五個(gè)步驟,分別是samle,explore,modify,model和assess。SEMMA更偏重于數(shù)據(jù)挖掘建模過(guò)程,與SAS的EM工具進(jìn)行整合實(shí)現(xiàn),其模型管理部署部分體現(xiàn)在另外的工具套件中。
相比之下,CRISP-DM通用性更強(qiáng),在大數(shù)據(jù)背景下的適應(yīng)性也比較好;基于此我們制定了企業(yè)級(jí)的數(shù)據(jù)挖掘管理辦法,源于CRISP-DM方法論并進(jìn)行針對(duì)性細(xì)化,對(duì)數(shù)據(jù)挖掘建模的流程機(jī)制進(jìn)行了規(guī)范化。其實(shí)CRISP-DM和SEMMA并沒(méi)有太多的分歧,具體選擇哪項(xiàng)方法跟人員和工具有關(guān)。CRISP-DM反映了數(shù)據(jù)挖掘中的自然迭代規(guī)律,在實(shí)際工作中可以從其中某一點(diǎn)切入,整體呈現(xiàn)螺旋優(yōu)化的過(guò)程,其對(duì)應(yīng)的六個(gè)階段分別如下:
1. 商業(yè)理解(business understanding),從商業(yè)的角度上面了解項(xiàng)目的要求和最終目的是什么. 并將這些目的與數(shù)據(jù)挖掘的定義以及結(jié)果結(jié)合起來(lái).
2. 數(shù)據(jù)理解(data understanding),開(kāi)始于數(shù)據(jù)的收集工作。接下來(lái)就是熟悉數(shù)據(jù)的工作;收集原始數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行裝載,描繪數(shù)據(jù),并且探索數(shù)據(jù)特征,進(jìn)行簡(jiǎn)單的特征統(tǒng)計(jì),檢驗(yàn)數(shù)據(jù)的質(zhì)量。
3. 數(shù)據(jù)準(zhǔn)備(data preparation),涵蓋了從原始粗糙數(shù)據(jù)中構(gòu)建最終數(shù)據(jù)集(將作為建模工具的分析對(duì)象)的全部工作。
4. 建模(modeling),各種各樣的建模方法將被加以選擇和使用,通過(guò)建造,評(píng)估模型將其參數(shù)將被校準(zhǔn)為最為理想的值。
5. 評(píng)估(evaluation),在這一階段中已經(jīng)建立了一個(gè)或多個(gè)高質(zhì)量的模型。但在進(jìn)行最終的模型部署之前,更加徹底的評(píng)估模型。回顧在構(gòu)建模型過(guò)程中所執(zhí)行的每一個(gè)步驟,是非常重要的,這樣可以確保這些模型是否達(dá)到了企業(yè)的目標(biāo)。是否仍然有一些重要的企業(yè)問(wèn)題還沒(méi)有被充分地加以注意和考慮。在這一階段結(jié)束之時(shí),有關(guān)數(shù)據(jù)挖掘結(jié)果的使用應(yīng)達(dá)成一致的決定。
6. 部署(deployment),即將其發(fā)現(xiàn)的結(jié)果以及過(guò)程組織成為可讀文本形式.模型的創(chuàng)建并不是項(xiàng)目的最終目的。
數(shù)據(jù)挖掘的工程化
現(xiàn)階段大數(shù)據(jù)、人工智能技術(shù)日新月異,對(duì)于我們來(lái)說(shuō)首先要積極探索銀行應(yīng)用場(chǎng)景。在人工智能領(lǐng)域,現(xiàn)階段業(yè)界對(duì)于技術(shù)和數(shù)據(jù)的討論比較多,但在傳統(tǒng)行業(yè)的應(yīng)用場(chǎng)景方面其實(shí)還差多很多。這其實(shí)依賴于整體數(shù)據(jù)應(yīng)用水平的提升,伴隨數(shù)據(jù)挖掘從點(diǎn)到面的工程化鋪開(kāi),人工智能的應(yīng)用場(chǎng)景自然就會(huì)孵化出來(lái)。
對(duì)傳統(tǒng)企業(yè)來(lái)說(shuō),通常數(shù)據(jù)挖掘領(lǐng)域在若干點(diǎn)上都會(huì)有所進(jìn)展,但在企業(yè)層面整體鋪開(kāi)還有很大的發(fā)展空間。企業(yè)數(shù)字化轉(zhuǎn)型的過(guò)程,其實(shí)就是業(yè)務(wù)從電子化到數(shù)字化的過(guò)程,智能化模型的應(yīng)用深度和廣度是一個(gè)重要的衡量標(biāo)準(zhǔn)。
數(shù)據(jù)挖掘在流程機(jī)制建立中要實(shí)現(xiàn)模型工廠化管理,同時(shí)過(guò)程中加強(qiáng)知識(shí)技能的共享、傳導(dǎo)。模型開(kāi)發(fā)對(duì)應(yīng)的是實(shí)驗(yàn)室機(jī)制,數(shù)據(jù)科學(xué)家發(fā)揮應(yīng)有的作用。模型部署則是工廠化概念,需要嚴(yán)格的驗(yàn)證測(cè)試過(guò)程。模型管理在整體上發(fā)揮監(jiān)督指導(dǎo)作用,負(fù)責(zé)數(shù)據(jù)挖掘全生命周期的管理。
驗(yàn)證測(cè)試十步法
模型管理包括的內(nèi)容很多,模型從開(kāi)發(fā)到部署過(guò)程中需要一套嚴(yán)格的驗(yàn)證測(cè)試辦法,具體分為十個(gè)步驟。這些步驟基本覆蓋從模型開(kāi)發(fā)到模型部署的全過(guò)程,適合于數(shù)據(jù)挖掘工作的監(jiān)督管理或者第三方評(píng)測(cè)。分別描述每個(gè)步驟的檢查要求,以及具體的步驟方法。
一、原始數(shù)據(jù)采集
檢查原始數(shù)據(jù)提取過(guò)程(數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、外部數(shù)據(jù)等),注意查看是否按要求進(jìn)行數(shù)據(jù)脫敏,以及是否進(jìn)行數(shù)據(jù)質(zhì)量檢查。
1) 使用提供的數(shù)據(jù)提取方法,重新進(jìn)行數(shù)據(jù)提取;
2) 抽樣檢查字段正確性和完整性;
3) 抽樣查看字段中是否有敏感信息;
4) 統(tǒng)計(jì)數(shù)據(jù)總量及缺失量。
二、數(shù)據(jù)整合邏輯
檢查數(shù)據(jù)處理及整合的基本思路,數(shù)據(jù)處理方法和流程(數(shù)據(jù)關(guān)聯(lián)、鏈接)的正確性和完整性,及處理結(jié)果的正確性。
1)檢查數(shù)據(jù)預(yù)處理思路和處理方法是否正確;2)檢查數(shù)據(jù)處理流程(數(shù)據(jù)關(guān)聯(lián)、鏈接)和整合過(guò)程是否正確且完整;3)抽樣檢查數(shù)據(jù)處理結(jié)果,并與原數(shù)據(jù)進(jìn)行對(duì)比,或設(shè)置檢查點(diǎn)進(jìn)行中間步驟的檢查;4)結(jié)合模型訓(xùn)練及預(yù)測(cè)結(jié)果,對(duì)數(shù)據(jù)處理邏輯進(jìn)行完善。
三、特征工程檢查
檢查數(shù)據(jù)特征加工處理結(jié)果的正確性和穩(wěn)定性。
1)檢查特征提取方法是否正確且可以表達(dá)業(yè)務(wù)含義;2)結(jié)合模型訓(xùn)練及測(cè)試結(jié)果,完善特征提取邏輯。
四、模型算法及參數(shù)選擇
根據(jù)業(yè)務(wù)需求分析算法合理性,對(duì)比不同參數(shù)模型結(jié)果,確定算法及參數(shù)選擇的合理性;
1)根據(jù)業(yè)務(wù)需求及數(shù)據(jù)特點(diǎn)選擇合適算法,使用多種算法進(jìn)行對(duì)比,得到適合業(yè)務(wù)需求的算法;2)參數(shù)選擇同理,對(duì)比多種參數(shù)選擇結(jié)果,選最佳結(jié)果參數(shù)結(jié)果。
五、數(shù)據(jù)集分配策略
檢查采用交叉驗(yàn)證方式建立模型過(guò)程中數(shù)據(jù)集拆分策略及模型結(jié)果,對(duì)比不同分配策略下模型的泛化性。
1)檢查數(shù)據(jù)集是否滿足生產(chǎn)環(huán)境數(shù)據(jù)應(yīng)用需求(如時(shí)序要求,數(shù)據(jù)量級(jí)限制等);2)檢查交叉驗(yàn)證過(guò)程中,數(shù)據(jù)集訓(xùn)練和測(cè)試分配策略;3)對(duì)比多種分配策略,根據(jù)訓(xùn)練和預(yù)測(cè)結(jié)果,選擇恰當(dāng)分配比,使得模型有良好的準(zhǔn)確性、穩(wěn)定性和泛化性。
六、模型訓(xùn)練效率
1)檢查模型建立所使用的工具,及模型建立過(guò)程的耗時(shí);
2)檢查模型開(kāi)發(fā)平臺(tái)或工具包在訓(xùn)練過(guò)程中的可靠性,以及模型訓(xùn)練和測(cè)試耗時(shí);
3)檢查模型訓(xùn)練和測(cè)試的流程化支持能力。
七、模型評(píng)價(jià)方案
檢查模型評(píng)價(jià)方案及評(píng)價(jià)指標(biāo)的合理性
1) 使用多種評(píng)價(jià)指標(biāo)分析模型訓(xùn)練效果,針對(duì)不同類(lèi)型模型選擇適當(dāng)評(píng)價(jià)指標(biāo);
2) 分類(lèi)模型選擇AUC、Precision、Recall和F1-score;
3) 回歸模型選擇Rmse、r2等;
4) 聚類(lèi)模型選擇聚合度等。
八、模型結(jié)果檢查
檢查模型評(píng)價(jià)結(jié)果的正確性,結(jié)果可再現(xiàn)及穩(wěn)定性;
1)選擇適當(dāng)?shù)脑u(píng)價(jià)指標(biāo),由評(píng)價(jià)指標(biāo)結(jié)果判斷模型結(jié)果優(yōu)劣;2)多次重復(fù)建模過(guò)程,檢查結(jié)果可再現(xiàn)性及穩(wěn)定性。
九、流程化部署能力
檢查模型部署后,生產(chǎn)環(huán)境下數(shù)據(jù)預(yù)測(cè)過(guò)程的流程化性能,及調(diào)度腳本的正確和可維護(hù)性;
1) 模型部署后,使用調(diào)度腳本控制數(shù)據(jù)預(yù)測(cè)的流程化過(guò)程;
2) 查看控制腳本的正確性和完整性,以及靈活控制整個(gè)流程變化的能力。
十、運(yùn)行數(shù)據(jù)加載效率
模型在日常運(yùn)行過(guò)程中,檢查批處理的預(yù)測(cè)輸入數(shù)據(jù)采集、加工及預(yù)測(cè)過(guò)程的處理效率;
1)確定數(shù)據(jù)處理用到的軟硬件運(yùn)行環(huán)境,了解其運(yùn)算效率;2)進(jìn)行完整的數(shù)據(jù)批處理過(guò)程(數(shù)據(jù)采集、加工及預(yù)測(cè))并記錄耗時(shí),檢查是否有耗時(shí)較長(zhǎng)的步驟,并尋求可改進(jìn)的方法(編碼改進(jìn),軟件選擇,設(shè)備更改)。
Be the Change
與傳統(tǒng)IT技能有所區(qū)別,在數(shù)據(jù)挖掘領(lǐng)域工作能夠沉淀下來(lái)的并不完全是技術(shù),更多的是對(duì)數(shù)據(jù)資產(chǎn)的理解與認(rèn)知。如何最大化數(shù)據(jù)資產(chǎn)價(jià)值,如何通過(guò)數(shù)據(jù)產(chǎn)品完成價(jià)值傳導(dǎo),這些關(guān)鍵問(wèn)題決定了創(chuàng)新是數(shù)據(jù)挖掘領(lǐng)域的核心能力。技術(shù)日新月異,昨天的知識(shí)到了今天可能就是錯(cuò)誤的,所以需要持續(xù)更新知識(shí);先把自己武裝起來(lái),才有機(jī)會(huì)做些實(shí)事。
另外,數(shù)據(jù)挖掘的工作涉及人員、角色眾多,需要建立良好的協(xié)會(huì)關(guān)系。單打獨(dú)斗能做一兩個(gè)模型,但是落地應(yīng)用就需要多方參與,以共贏為基調(diào)才有可能推進(jìn)模型在業(yè)務(wù)流程中的實(shí)際應(yīng)用。至于數(shù)據(jù)挖掘建模從點(diǎn)到面的推廣,就需要建立完善的模型試驗(yàn)室和模型工廠工作機(jī)制,也就是要真正實(shí)現(xiàn)數(shù)據(jù)挖掘的工程化。這是目前傳統(tǒng)企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型過(guò)程中需要重點(diǎn)考慮的問(wèn)題,過(guò)程中涉及人員、工具、文化等影響因素。
總結(jié)
以上是生活随笔為你收集整理的数据挖掘方法论与工程化思考的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如何通过牛顿方法解决Logistic回归
- 下一篇: AI影响将远超互联网 不在乎与AT市值差