日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘实验报告-关联规则算法实验

發(fā)布時間:2025/3/15 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据挖掘实验报告-关联规则算法实验 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要

計算機技術(shù)和通信技術(shù)的迅猛發(fā)展將人類社會帶入到了信息時代。在最近十幾年里,數(shù)據(jù)庫中存儲的數(shù)據(jù)急劇增大。例如,NASA軌道衛(wèi)星上的地球觀測系統(tǒng)EOS每小時會向地面發(fā)回50GB的圖像數(shù)據(jù);世界上最大的數(shù)據(jù)倉庫之一,美國零售商系統(tǒng)Wal-Mart每天會產(chǎn)生2億左右的交易數(shù)據(jù);人類基因組數(shù)據(jù)庫項目已經(jīng)搜集了數(shù)以GB計的人類基因編碼數(shù)據(jù);大型天文望遠鏡每年會產(chǎn)生不少于10TB的數(shù)據(jù),等等。大量的信息在給人們提供方便的同時也帶來了一系列問題,由于信息量過大,超出人們掌握、理解信息的能力,因而給正確運用信息帶來了困難。

數(shù)據(jù)挖掘和知識發(fā)現(xiàn)是一個涉及多學(xué)科的研究領(lǐng)域。數(shù)據(jù)庫技術(shù)、人工智能、機器學(xué)習(xí)、統(tǒng)計學(xué)、粗糙集、模糊集、神經(jīng)網(wǎng)絡(luò)、模式識別、知識庫系統(tǒng)、高性能計算、數(shù)據(jù)可視化等均與數(shù)據(jù)挖掘相關(guān)。

近年來,KDD(即與數(shù)據(jù)庫的知識發(fā)現(xiàn))研究領(lǐng)域已經(jīng)成為熱點,其中關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法尤為引人注目。關(guān)聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。

IBM公司Almaden研究中心的R.Agrawal首先提出關(guān)聯(lián)規(guī)則模型,并給出求解算法AIS。隨后又出現(xiàn)了SETM和Apriori等算法。Apriori是關(guān)聯(lián)規(guī)則模型中的經(jīng)典算法。

關(guān)鍵詞:數(shù)據(jù)挖掘 知識發(fā)現(xiàn) Apriori算法 FP算法

一、問題重述

1.1相關(guān)信息

Apriori算法在發(fā)現(xiàn)關(guān)聯(lián)規(guī)則領(lǐng)域具有很大影響力。算法命名源于算法使用了頻繁項集性質(zhì)的先驗(prior)知識。在具體實驗時,Apriori算法將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程分為兩個步驟:第一步通過迭代,檢索出事務(wù)數(shù)據(jù)庫中的所有頻繁項集,即支持度不低于用戶設(shè)定的閾值的項集;第二步利用頻繁項集構(gòu)造出滿足用戶最小信任度的規(guī)則。其中,挖掘或識別出所有頻繁項集是該算法的核心,占整個計算量的大部分。

在對深度優(yōu)先數(shù)據(jù)挖掘算法的研究工作中,Han等人沒有采用潛在頻繁項集的方法求解頻繁項集,而是提出了稱為頻率模式增長(FP_growth)的算法。該算法通過掃描數(shù)據(jù)庫創(chuàng)建FP_tree的根節(jié)點并標(biāo)示為null,對數(shù)據(jù)庫D中的每一個事務(wù)Tran,按L中的次序?qū)ran中的頻繁項排序,設(shè)Tran中排序后的頻繁項列表[p|P],這里p是第一個元素,P是保留列表。接著調(diào)用函數(shù)insert_tree([p|P],T),如果樹T有一個子節(jié)點N且N.item_name=p.item_name,就將N節(jié)點計數(shù)加1;否則就創(chuàng)建一個新節(jié)點N,設(shè)計數(shù)為1,它的父節(jié)點連接到T,節(jié)點連接到同名的節(jié)點連接結(jié)構(gòu)上。如果P是非空的,就遞歸調(diào)用insert_tree(P,N)。由于壓縮了數(shù)據(jù)庫內(nèi)容,并且在將頻繁項寫入FP_tree結(jié)構(gòu)時,保留了項集間的相連信息。求解頻繁項集的問題,就轉(zhuǎn)化為遞歸地找出最短頻繁模式并連接其后綴構(gòu)成長頻繁模式的問題。[1]

1.2問題重述

近年來,KDD(即與數(shù)據(jù)庫的知識發(fā)現(xiàn))研究領(lǐng)域已經(jīng)成為熱點,其中關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法尤為引人注目。關(guān)聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。

IBM公司Almaden研究中心的R.Agrawal首先提出關(guān)聯(lián)規(guī)則模型,并給出求解算法AIS。隨后又出現(xiàn)了SETM和Apriori等算法。Apriori是關(guān)聯(lián)規(guī)則模型中的經(jīng)典算法。[1]

1、分析Apriori算法與FP算法的優(yōu)缺點

2、分別使用兩種算法找出頻繁項集

3、挖掘出所有的強關(guān)聯(lián)規(guī)則

4、實驗數(shù)據(jù)如下表:

二、模型求解


2頻繁項集的強關(guān)聯(lián)

Confidence(A=>B)=P(B|A)=P(AB)/P(A)=3/4=0.75

Confidence(B=>A)=P(A|B)=P(AB)/P(B)=3/3=1

Confidence(A=>C)=P(C|A)=P(AC)/P(A)=4/4=1

Confidence(C=>A)=P(C|A)=P(AC)/P(C)=4/4=1

Confidencd(B=>C)=P(C|B)=P(BC)/P(B)=3/3=1

Confidence(C=>B)=P(B|C)=P(BC)/P(C)=3/4=0.75

在滿足minconf = 80%的前提下,結(jié)果為:B=>AA=>CC=>A;B=>C

3頻繁項集的強關(guān)聯(lián)

Confidencd(AB=>C)=P(ABC)/P(AB)=3/3=1

Confidencd(AC=>B)=P(ABC)/P(AC)=3/4=0.75

Confidence(BC=>A)=P(ABC)/P(BC)=3/3=1

在滿足minconf = 80%的前提下,結(jié)果為:AB=>C;BC=>A

利用FP一樹算法求頻繁項集

Procedure FP_growth(Tree,a)

(1) ifTree包含一個單一路徑P then

(2) ??for each 路徑P中節(jié)點組合(記為β)

(3) ????生成模式β∪α,擁有支持度為β節(jié)點中的最小支持度

(4) Else for each樹的頭列表節(jié)點αi{

(5) ???生成模式β=αi∪β且support=ai.support

(6) ???構(gòu)成β的條件模式基和β的條件FP_Treeβ

(7) ???IfTreeβ≠фthen

(8) ?????Call FP_growth(Treeβ,β);}[1]

FP-Tree算法使用頻繁模式增長方法,第一次掃描與Apriori相同,它導(dǎo)出頻繁項(1-項集)的集合,并得到它們的支持度計數(shù)(頻繁性)。設(shè)最小支持度計數(shù)為2.頻繁項的集合按支持度計數(shù)的遞減序排序。結(jié)果集或表記作L,這樣,我們有L={A:4,C:4,B:3}。

圖為存放壓縮的頻繁模式信息的FP_tree:

三、模型評價

Apriori算法時間消耗的主要癥結(jié)反映在兩個方面,一是由于對海量數(shù)據(jù)庫的多趟掃描,另一個是用JOIN產(chǎn)生潛在頻繁項集。

FP-Tree結(jié)構(gòu)在完備性方面,它不會打破交易中的任何模式,而且包含了挖掘序列模式所需的全部信息;在緊密性方面,它不剔除不相關(guān)信息,不包含非頻繁項,按支持度降序排列,支持度高的項在FP-Tree中共享的機會也高。

性能研究顯示FP-growth比Apriori快一個數(shù)量級,這是由于FP-growth不生成候選集,不用候選集測試,而且使用緊縮的數(shù)據(jù)結(jié)構(gòu),避免重復(fù)數(shù)據(jù)庫掃描。[1]

四、參考文獻

[1] 李雄飛 李軍,《數(shù)據(jù)挖掘與知識發(fā)現(xiàn)》,北京:高等教育出版社,2003。

總結(jié)

以上是生活随笔為你收集整理的数据挖掘实验报告-关联规则算法实验的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。