粗糙集理论介绍(概念入门)
?
面對日益增長的數(shù)據(jù)庫,人們將如何從這些浩瀚的數(shù)據(jù)中找出有用的知識(shí)?我們?nèi)绾螌⑺鶎W(xué)到的知識(shí)去粗取精?什么是對事物的粗線條描述什么是細(xì)線條描述???
??? 粗糙集合論回答了上面的這些問題。要想了解粗糙集合論的思想,我們先要了解一下什么叫做知識(shí)?假設(shè)有8個(gè)積木構(gòu)成了一個(gè)集合A,我們記:A={x1,x2,x3,x4,x5,x6,x7,x8},每個(gè)積木塊都有顏色屬性,按照顏色的不同,我們能夠把這堆積木分成R1={紅,黃,蘭}三個(gè)大類,那么所有紅顏色的積木構(gòu)成集合X1={x1,x2,x6},黃顏色的積木構(gòu)成集合X2={x3,x4},蘭顏色的積木是:X3={x5,x7,x8}。按照顏色這個(gè)屬性我們就把積木集合A進(jìn)行了一個(gè)劃分(所謂A的劃分就是指對于A中的任意一個(gè)元素必然屬于且僅屬于一個(gè)分類),那么我們就說顏色屬性就是一種知識(shí)。在這個(gè)例子中我們不難看到,一種對集合A的劃分就對應(yīng)著關(guān)于A中元素的一個(gè)知識(shí),假如還有其他的屬性,比如還有形狀R2={三角,方塊,圓形},大小R3={大,中,小},這樣加上R1屬性對A構(gòu)成的劃分分別為:
?
A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}}???? (顏色分類)
A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}}????? (形狀分類)
A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}}????? (大小分類)
?
???? 上面這些所有的分類合在一起就形成了一個(gè)基本的知識(shí)庫。那么這個(gè)基本知識(shí)庫能表示什么概念呢?除了紅的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}這樣的概念以外還可以表達(dá)例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},蘭色的小的圓形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},蘭色的或者中的積木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而類似這樣的概念可以通過求交運(yùn)算得到,比如X1與Y1的交就表示紅色的三角。所有的這些能夠用交、并表示的概念以及加上上面的三個(gè)基本知識(shí)(A/R1,A/R2.A/R3)一起就構(gòu)成了一個(gè)知識(shí)系統(tǒng)記為R=R1∩R2∩R3,它所決定的所有知識(shí)是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。
?
??? 下面考慮近似這個(gè)概念。假設(shè)給定了一個(gè)A上的子集合X={x2,x5,x7},那么用我們的知識(shí)庫中的知識(shí)應(yīng)該怎樣描述它呢?紅色的三角?****的大圓?都不是,無論是單屬性知識(shí)還是由幾個(gè)知識(shí)進(jìn)行交、并運(yùn)算合成的知識(shí),都不能得到這個(gè)新的集合X,于是 我們只好用我們已有的知識(shí)去近似它。也就是在所有的現(xiàn)有知識(shí)里面找出跟他最像的兩個(gè)一個(gè)作為下近似,一個(gè)作為上近似。于是我們選擇了“蘭色的大方塊或者蘭色的小圓形”這個(gè)概念:{x5,x7}作為X的下近似。選擇“三角形或者蘭色的”{x1,x2,x5,x7,x8}作為它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知識(shí)庫中的集合中求并得到的,而上近似則是將那些包含X的知識(shí)庫中的集合求并得到的。一般的,我們可以用下面的圖來表示上、下近似的概念。
這其中曲線圍的區(qū)域是X的區(qū)域,藍(lán)色的內(nèi)部方框是內(nèi)部參考消息,是下近似 ,綠的是邊界加上藍(lán)色的部分就是上近似集。其中各個(gè)小方塊可以被看成是論域上的知識(shí)系統(tǒng)所構(gòu)成的所有劃分。
?
??? 整個(gè)粗集理論的核心就是上面說的有關(guān)知識(shí)、集合的劃分、近似集合等等概念。下面我們討論一下關(guān)于粗糙集在數(shù)據(jù)庫中數(shù)據(jù)挖掘的應(yīng)用問題。考慮一個(gè)數(shù)據(jù)庫中的二維表如下:
元素 顏色 形狀 大小 穩(wěn)定性
x1 紅 三角 大 穩(wěn)定
x2 紅 三角 大 穩(wěn)定
x3 黃 圓 小 不穩(wěn)定
x4 黃 圓 小 不穩(wěn)定
x5 蘭 方塊 大 穩(wěn)定
x6 紅 圓 中 不穩(wěn)定
x7 蘭 圓 小 不穩(wěn)定
x8 蘭 方塊 中 不穩(wěn)定
??? 可以看出,這個(gè)表就是上面的那個(gè)例子的二維表格體現(xiàn),而最后一列是我們的決策屬性,也就是說評價(jià)什么樣的積木穩(wěn)定。這個(gè)表中的每一行表示了類似這樣的信息:紅色的大三角積木穩(wěn)定,****的小圓形不穩(wěn)定等等。我們可以把所有的記錄看成是論域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一個(gè)列表示一個(gè)屬性構(gòu)成了對論域的元素上的一個(gè)劃分,在劃分的每一個(gè)類中都具有相同的屬性。而屬性可以分成兩大類,一類叫做條件屬性:顏色、形狀、大小都是,另一類叫做決策屬性:最后一列的是否穩(wěn)定?下面我們考慮,對于決策屬性來說是否所有的條件屬性都是有用的呢?考慮所有決策屬性是“穩(wěn)定”的集合{x1,x2,x5},它在知識(shí)系統(tǒng)A/R中的上下近似都是{x1,x2,x5}本身,“不穩(wěn)定”的集合{x3,x4,x6,x7,x8},在知識(shí)系統(tǒng)A/R中的上下近似也都是{x3,x4,x6,x7,x8}它本身。說明該知識(shí)庫能夠?qū)@個(gè)概念進(jìn)行很好的描述。下面考慮是否所有的基本知識(shí):顏色、形狀、大小都是必要的?如果我們把這個(gè)集合在知識(shí)系統(tǒng)中去掉顏色這個(gè)基本知識(shí),那么知識(shí)系統(tǒng)變成A/(R-R1)={{x1,x2},{x3,x4,x7},{x5},{x6},{x8}}以及這些子集的并集。如果用這個(gè)新的知識(shí)系統(tǒng)表達(dá)“穩(wěn)定”概念得到上下近似仍舊都是:{x1,x2,x5},“不穩(wěn)定”概念的上下近似也還是{x3,x4,x6,x7,x8},由此看出去掉顏色屬性我們表達(dá)穩(wěn)定性的知識(shí)不會(huì)有變化,所以說顏色屬性是多余的可以刪除。如果再考慮是否能去掉大小屬性呢?這個(gè)時(shí)候知識(shí)系統(tǒng)就變?yōu)?#xff1a;
A/(R-R1-R3)=A/R2={{x1,x2},{x5,x8},{x3,x4,x6,x7}}。同樣考慮“穩(wěn)定”在知識(shí)系統(tǒng)A/R2中的上下近似分別為:{x1,x2}和{x1,x2,x5,x8},已經(jīng)和原來知識(shí)系統(tǒng)中的上下近似不一樣了,同樣考慮“不穩(wěn)定”的近似表示也變化了,所以刪除屬性“大小”是對知識(shí)表示有影響的故而不能去掉。同樣的討論對于“形狀”屬性也一樣,它是不能去掉的。最后我們得到化簡后的知識(shí)庫R2,R3,從而能得到下面的決策規(guī)則:大三角->穩(wěn)定,大方塊->穩(wěn)定,小圓->不穩(wěn)定,中圓->不穩(wěn)定,中方塊->不穩(wěn)定,利用粗集的理論還可以對這些規(guī)則進(jìn)一步化簡得到:大->穩(wěn)定,圓->不穩(wěn)定,中方塊->不穩(wěn)定。這就是上面這個(gè)數(shù)據(jù)表所包含的真正有用的知識(shí),而這些知識(shí)都是從數(shù)據(jù)庫有粗糙集方法自動(dòng)學(xué)習(xí)得到的。因此,粗糙集是數(shù)據(jù)庫中數(shù)據(jù)挖掘的有效方法。
??? 從上面這個(gè)例子中我們不難看出,實(shí)際上我們只要把這個(gè)數(shù)據(jù)庫輸入進(jìn)粗糙集運(yùn)算系統(tǒng),而不用提供任何先驗(yàn)的知識(shí),粗糙集算法就能自動(dòng)學(xué)習(xí)出知識(shí)來,這正是它能夠廣泛應(yīng)用的根源所在。而在模糊集、可拓集等集合論中我們還要事先給定隸屬函數(shù)。
進(jìn)入網(wǎng)絡(luò)信息時(shí)代,隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,使得各個(gè)行業(yè)領(lǐng)域的信息急劇增加,如何從大量的、雜亂無章的數(shù)據(jù)中發(fā)現(xiàn)潛在的、有價(jià)值的、簡潔的知識(shí)呢?數(shù)據(jù)挖掘(Data Mining)和知識(shí)發(fā)現(xiàn)(KDD)技術(shù)應(yīng)運(yùn)而生。
粗糙集理論作為一種數(shù)據(jù)分析處理理論,在1982年由波蘭科學(xué)家Z.Pawlak創(chuàng)立。最開始由于語言的問題,該理論創(chuàng)立之初只有東歐國家的一些學(xué)者研究和應(yīng)用它,后來才受到國際上數(shù)學(xué)界和計(jì)算機(jī)界的重視。1991年,Pawlak出版了《粗糙集—關(guān)于數(shù)據(jù)推理的理論》這本專著,從此粗糙集理論及其應(yīng)用的研究進(jìn)入了一個(gè)新的階段,1992年關(guān)于粗糙集理論的第一屆國際學(xué)術(shù)會(huì)議在波蘭召開。1995年ACM將粗糙集理論列為新興的計(jì)算機(jī)科學(xué)的研究課題。
粗糙集理論作為一種處理不精確(imprecise)、不一致(inconsistent)、不完整(incomplete)等各種不完備的信息有效的工具,一方面得益于他的數(shù)學(xué)基礎(chǔ)成熟、不需要先驗(yàn)知識(shí);另一方面在于它的易用性。由于粗糙集理論創(chuàng)建的目的和研究的出發(fā)點(diǎn)就是直接對數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律,因此是一種天然的數(shù)據(jù)挖掘或者知識(shí)發(fā)現(xiàn)方法,它與基于概率論的數(shù)據(jù)挖掘方法、基于模糊理論的數(shù)據(jù)挖掘方法和基于證據(jù)理論的數(shù)據(jù)挖掘方法等其他處理不確定性問題理論的方法相比較,最顯著的區(qū)別是它不需要提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)知識(shí),而且與處理其他不確定性問題的理論有很強(qiáng)的互補(bǔ)性(特別是模糊理論)。
目前,粗糙集理論的研究方向主要是三個(gè)方面:
理論上,①利用抽象代數(shù)來研究粗糙集代數(shù)空間這種特殊的代數(shù)結(jié)構(gòu)。②利用拓?fù)鋵W(xué)描述粗糙空間。③還有就是研究粗糙集理論和其他軟計(jì)算方法或者人工智能的方法相接合,例如和模糊理論、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、遺傳算法等。④針對經(jīng)典粗糙集理論框架的局限性,拓寬粗糙集理論的框架,將建立在等價(jià)關(guān)系的經(jīng)典粗糙集理論拓展到相似關(guān)系甚至一般關(guān)系上的粗糙集理論。
應(yīng)用上,粗糙集理論在許多領(lǐng)域得到了應(yīng)用,①臨床醫(yī)療診斷;②電力系統(tǒng)和其他工業(yè)過程故障診斷;③預(yù)測與控制;④模式識(shí)別與分類;⑤機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘; ⑥圖像處理;⑦其他。
算法上,一方面研究了粗糙集理論屬性約簡算法和規(guī)則提取啟發(fā)式算法,例如基于屬性重要性、基于信息度量的啟發(fā)式算法,另一方面研究和其他智能算法的結(jié)合,比如:和神經(jīng)網(wǎng)絡(luò)的結(jié)合,利用粗糙集理論進(jìn)行數(shù)據(jù)預(yù)處理,以提高神經(jīng)網(wǎng)絡(luò)收斂速度;和支持向量機(jī)SVM結(jié)合;和遺傳算法結(jié)合;特別是和模糊理論結(jié)合,取得許多豐碩的成果,粗糙理論理論和模糊理論雖然兩者都是描述集合的不確定性的理論,但是模糊理論側(cè)重的是描述集合內(nèi)部元素的不確定性,而粗糙集理論側(cè)重描述的是集合之間的不確定性,兩者互不矛盾,互補(bǔ)性很強(qiáng),是當(dāng)前國內(nèi)外研究的一個(gè)熱點(diǎn)之一。
?
總結(jié)
以上是生活随笔為你收集整理的粗糙集理论介绍(概念入门)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据挖掘实验报告-关联规则算法实验
- 下一篇: 如何保存QQ聊天记录