关联分析——关联规则应用及案例
數(shù)據(jù)挖掘最早使用的方法是關(guān)聯(lián)分析,主要應(yīng)用于零售業(yè)。其中最有名的是售貨 籃分析,幫助售貨商制定銷售策略。數(shù)據(jù)挖掘是從海量的數(shù)據(jù)里尋找有價(jià)值的信息和數(shù)據(jù)。數(shù)據(jù)挖掘中常用的算法有:關(guān)聯(lián)規(guī)則分析法(解決事件之間的關(guān)聯(lián)問(wèn)題)、決策樹分類法(對(duì)數(shù)據(jù) 和信息進(jìn)行歸納和分類)、遺傳算法(基于生物進(jìn)化論及分子遺傳學(xué)理論提出 的)、神經(jīng)網(wǎng)絡(luò)算法(模擬人的神經(jīng)元功能)等。 隨著信息時(shí)代的到來(lái),數(shù)據(jù)挖掘在金融、醫(yī)療、通信等方面得到了廣泛的應(yīng)用。
關(guān)聯(lián)規(guī)則挖掘是一種基于規(guī)則的機(jī)器學(xué)習(xí)算法,該算法可以在大數(shù)據(jù)庫(kù)中發(fā)現(xiàn)感興趣的關(guān)系。它的目的是利用一些度量指標(biāo)來(lái)分辨數(shù)據(jù)庫(kù)中存在的強(qiáng)規(guī)則。也即是說(shuō)關(guān)聯(lián)規(guī)則挖掘是用于知識(shí)發(fā)現(xiàn),而非預(yù)測(cè),所以是屬于無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法。
關(guān)聯(lián)規(guī)則挖掘可以讓我們從數(shù)據(jù)集中發(fā)現(xiàn)項(xiàng)與項(xiàng)(item與item)之間的關(guān)系,它在我們的生活中有很多應(yīng)用場(chǎng)景,“購(gòu)物籃分析”就是一個(gè)常見的場(chǎng)景,這個(gè)場(chǎng)景可以從消費(fèi)者交易記錄中發(fā)掘商品與商品之間的關(guān)聯(lián)關(guān)系,進(jìn)而通過(guò)商品捆綁銷售或者相關(guān)推薦的方式帶來(lái)更多的銷售量。
在我查詢資料的過(guò)程中,大多數(shù)文章全都在講關(guān)聯(lián)規(guī)則概念、基本原理、算法、指標(biāo)等等,說(shuō)直白點(diǎn)都是從學(xué)術(shù)文章抄出來(lái)的,沒有真正的說(shuō)明關(guān)聯(lián)規(guī)則在現(xiàn)實(shí)場(chǎng)景中的應(yīng)用的意義和作用,也沒有介紹行業(yè)中能夠挖掘關(guān)聯(lián)分析的軟件。
l 應(yīng)用場(chǎng)景及案例
(1) 購(gòu)物籃分析
著名的“啤酒尿布”案例,通過(guò)分析歷史用戶的支付訂單記錄,挖掘出比如中年男人會(huì)同時(shí)購(gòu)買啤酒和尿布兩種商品,后續(xù)可以在商品陳列、打折促銷組合、交叉營(yíng)銷發(fā)送優(yōu)惠券等場(chǎng)景中應(yīng)用。
?
(2) 穿衣搭配推薦
穿衣搭配是服飾鞋包導(dǎo)購(gòu)中非常重要的課題,基于搭配專家和達(dá)人生成的搭配組合數(shù)據(jù),百萬(wàn)級(jí)別的商品的文本和圖像數(shù)據(jù),以及用戶的行為數(shù)據(jù)。期待能從以上行為、文本和圖像數(shù)據(jù)中挖掘穿衣搭配模型,為用戶提供個(gè)性化、優(yōu)質(zhì)的、專業(yè)的穿衣搭配方案,預(yù)測(cè)給定商品的搭配商品集合。
2. 社會(huì)民生
(1) 情緒指標(biāo)的關(guān)聯(lián)關(guān)系挖掘和預(yù)測(cè)
生豬是畜牧業(yè)的第一大產(chǎn)業(yè),其價(jià)格波動(dòng)的社會(huì)反響非常敏感。生豬價(jià)格變動(dòng)的主要原因在于受市場(chǎng)供求關(guān)系的影響。然而專家和媒體對(duì)于生豬市場(chǎng)前景的判斷、疫情的報(bào)道,是否會(huì)對(duì)養(yǎng)殖戶和消費(fèi)者的情緒有所影響?情緒上的變化是否會(huì)對(duì)這些人群的行為產(chǎn)生一定影響,從而影響生豬市場(chǎng)的供求關(guān)系?互聯(lián)網(wǎng)作為網(wǎng)民發(fā)聲的第?平臺(tái),在網(wǎng)民情緒的捕捉上具有天然的優(yōu)勢(shì)。可以基于海量提供的數(shù)據(jù),挖掘出互聯(lián)網(wǎng)情緒指標(biāo)與生豬價(jià)格之間的關(guān)聯(lián)關(guān)系,從而形成基于互聯(lián)網(wǎng)數(shù)據(jù)的生豬價(jià)格預(yù)測(cè)模型,挖掘互聯(lián)網(wǎng)情緒指標(biāo)與生豬價(jià)格之間的關(guān)聯(lián)關(guān)系和預(yù)測(cè)。
(2) 氣象關(guān)聯(lián)分析
在社會(huì)經(jīng)濟(jì)生活中,不少行業(yè),如農(nóng)業(yè)、交通業(yè)、建筑業(yè)、旅游業(yè)、銷售業(yè)、保險(xiǎn)業(yè)等,無(wú)一例外與天氣的變化息息相關(guān)。隨著各行各業(yè)對(duì)氣象信息的需求越來(lái)越大,社會(huì)各方對(duì)氣象數(shù)據(jù)服務(wù)的個(gè)性化和精細(xì)化要求也在不斷提升,如何開發(fā)氣象數(shù)據(jù)在不同領(lǐng)域的應(yīng)用,更好的支持大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新,服務(wù)民計(jì)民生,是氣象大數(shù)據(jù)面臨的迫切需求。
為了更深入地挖掘氣象資源的價(jià)值,可以基于多年積累的地面歷史氣象數(shù)據(jù),及氣象數(shù)據(jù)與其他各行各業(yè)數(shù)據(jù)的有效結(jié)合,挖掘氣象要素之間、以及氣象與其它事物之間的相互關(guān)系。
(1) 交通事故成因分析
隨著時(shí)代發(fā)展,便捷交通對(duì)社會(huì)產(chǎn)?巨大貢獻(xiàn)的同時(shí),各類交通事故也嚴(yán)重地影響了人們生命財(cái)產(chǎn)安全和社會(huì)經(jīng)濟(jì)發(fā)展。為了更深人挖掘交通事故的潛在誘因,帶動(dòng)公眾關(guān)注交通安全,貴陽(yáng)市交通管理局開放了交通事故數(shù)據(jù)及多維度參考數(shù)據(jù),希望通過(guò)對(duì)事故類型、事故人員、事故車輛、事故天氣、駕照信息、駕駛?員犯罪記錄數(shù)據(jù)以及其他和交通事故有關(guān)的數(shù)據(jù)進(jìn)行深度挖掘,形成交通事故成因分析方案。
3. 金融行業(yè)
(1) 銀行客戶交叉銷售分析
某商業(yè)銀行試圖通過(guò)對(duì)個(gè)人客戶購(gòu)買本銀行金融產(chǎn)品的數(shù)據(jù)進(jìn)行分析,從而發(fā)現(xiàn)交叉銷售的機(jī)會(huì)。
(2) 銀行營(yíng)銷方案推薦
關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在金融行業(yè)企業(yè)中,它可以成功預(yù)測(cè)銀行客戶需求。?旦獲得了這些信息,銀行就可以改善自身營(yíng)銷。如各銀行在自己的ATM機(jī)上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫(kù)中顯示,某個(gè)高信用限額的客戶更換了地址,這個(gè)客戶很有可能新近購(gòu)買了?棟更大的住宅,因此會(huì)有可能需要更高信用限額,更高端的新信用卡,或者需要?個(gè)住房改善貸款,這些產(chǎn)品都可以通過(guò)信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù)據(jù)庫(kù)可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會(huì)對(duì)什么產(chǎn)品感興趣。
4. 文娛體育
(1) 影視演員組合
通過(guò)對(duì)歷史影視作品的收視、票房數(shù)據(jù)進(jìn)行挖掘,可以了解哪些演員一起合作的概率更高,而哪些演員一起合作,可以有更高票房或收視效果,從而在新的影視作品中作為參考
(2) 球員最優(yōu)組合
與影視作品的導(dǎo)、編、演組合類似,棒球、足球、籃球、曲棍球等團(tuán)體性體育運(yùn)動(dòng),也涉及團(tuán)體成員基于歷史數(shù)據(jù)的最優(yōu)組合挖掘;而且在體育行業(yè),還可以應(yīng)用于比賽前的準(zhǔn)備工作項(xiàng)目、比賽場(chǎng)地等因素,對(duì)比賽結(jié)果的影響挖掘
l 關(guān)聯(lián)分析工具
1.關(guān)河因果
這是一款基于關(guān)聯(lián)規(guī)則做因果分析的數(shù)據(jù)分析軟件,雖然是以因果分析為導(dǎo)向,不過(guò)在這個(gè)產(chǎn)品的框架中也包含了關(guān)聯(lián)分析的內(nèi)容,以及挖掘關(guān)聯(lián)規(guī)則的技術(shù)?;趫D計(jì)算進(jìn)行關(guān)聯(lián)規(guī)則的深度發(fā)現(xiàn),通過(guò)精準(zhǔn)的規(guī)則進(jìn)行因果分析。能夠?qū)Υ笠?guī)模圖數(shù)據(jù)進(jìn)行規(guī)則的自動(dòng)發(fā)現(xiàn)。
?
2.豌豆DM
豌豆是一款可進(jìn)行關(guān)聯(lián)挖掘平臺(tái), 它可對(duì)接入數(shù)據(jù)進(jìn)行可視化數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模,并基于龐大的數(shù)據(jù)算法進(jìn)行圖形化數(shù)據(jù)探索,幫助用戶深度分析數(shù)據(jù)的規(guī)律, 挖掘數(shù)據(jù)的價(jià)值。
?
3、WEKA
WEKA 的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),同時(shí) weka 也是新西蘭的一種鳥名,而 WEKA 的主要開發(fā)者也來(lái)自新西蘭。WEKA 作為一個(gè)公開的數(shù)據(jù)挖掘工作平臺(tái),集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看 weka 的接口文檔。
總結(jié)
以上是生活随笔為你收集整理的关联分析——关联规则应用及案例的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Ubuntu系统下OpenCV使用实例(
- 下一篇: 如何评估企业人力资源价值--人力资源产出