数据挖掘近年来的研究方向、方法总结
數(shù)據(jù)挖掘近年來的研究方向、方法總結(jié)
一、研究方向
數(shù)據(jù)挖掘作為一個跨學(xué)科主題,它是用人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫交叉的方法在相對較大型的數(shù)據(jù)集中發(fā)現(xiàn)模式的計(jì)算過程。其目標(biāo)是從數(shù)據(jù)集中提取信息并將其轉(zhuǎn)換成可理解的結(jié)構(gòu),以進(jìn)一步分析使用。對其的研究大致可分如下4類:
(1)基礎(chǔ)理論研究方向
數(shù)據(jù)挖掘是一門交叉學(xué)科,因此涉及的基礎(chǔ)理論也是多學(xué)科的基礎(chǔ)。其包含的基礎(chǔ)理論研究涉及到規(guī)則和模式挖掘、分類、聚類、話題學(xué)習(xí)、時間空間數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)方法,監(jiān)督、非監(jiān)督、半監(jiān)督等方面,同時這些也是人工智能領(lǐng)域的相關(guān)研究。基礎(chǔ)理論的研究一直都有人在做。
(2)網(wǎng)絡(luò)、圖的挖掘方向
當(dāng)下,數(shù)據(jù)的類型有很多種,如一維信號、時序數(shù)據(jù)、二維圖像數(shù)據(jù)、三維視頻、多光譜、高光譜數(shù)據(jù)等,但在現(xiàn)實(shí)生活中,其實(shí)有很多很多不規(guī)則的數(shù)據(jù)結(jié)構(gòu),典型的就是圖結(jié)構(gòu),或稱拓?fù)浣Y(jié)構(gòu),如社交網(wǎng)絡(luò)、化學(xué)分子結(jié)構(gòu)、知識圖譜等,它是與其他維數(shù)據(jù)不同的一種數(shù)據(jù)結(jié)構(gòu)。圖結(jié)構(gòu)的數(shù)據(jù)已經(jīng)成為日常中一種非常常見的數(shù)據(jù)了,各行各業(yè)都能產(chǎn)生圖結(jié)構(gòu)的數(shù)據(jù),而對這些數(shù)據(jù)進(jìn)行分析處理就必須要用到數(shù)據(jù)挖掘技術(shù),對網(wǎng)絡(luò)、圖結(jié)構(gòu)的數(shù)據(jù)處理分析也就成為的數(shù)據(jù)挖掘的研究熱點(diǎn)問題。
具體研究方向有:圖模式挖掘、社區(qū)發(fā)現(xiàn)、網(wǎng)絡(luò)聚類系數(shù)估計(jì)、網(wǎng)絡(luò)關(guān)系挖掘、網(wǎng)絡(luò)用戶行為分析、網(wǎng)絡(luò)信息傳播、社交網(wǎng)絡(luò)應(yīng)用,社交推薦(信息、好友等)等
(3)大數(shù)據(jù)挖掘方向
多模態(tài)數(shù)據(jù)挖掘、算法的并行、分布式擴(kuò)展、多源異構(gòu)數(shù)據(jù)融合挖掘、數(shù)據(jù)挖掘與多庫系統(tǒng)的集成、數(shù)據(jù)挖掘過程可視化、復(fù)雜數(shù)據(jù)分析建模方法等。
從數(shù)據(jù)挖掘的對象來說,數(shù)據(jù)挖掘后期多會偏向多模態(tài)數(shù)據(jù)挖掘。因?yàn)榫彤?dāng)前來看大部分的數(shù)據(jù)挖掘都是針對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘的,但大數(shù)據(jù)時代背景下,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)主流,如果從這些非結(jié)構(gòu)化數(shù)據(jù)中挖掘出隱藏信息,將是未來大數(shù)據(jù)領(lǐng)域研究和實(shí)踐的重點(diǎn)。
現(xiàn)今大數(shù)據(jù)挖掘與傳統(tǒng)算法的本質(zhì)區(qū)別在于算法的可擴(kuò)展性。換句話說,現(xiàn)在研究的算法在不僅僅能處理小規(guī)模數(shù)據(jù)集,當(dāng)數(shù)據(jù)增加時也具有較大范圍內(nèi)的適合。算法的擴(kuò)展理解為兩個方面:scale out-縱向擴(kuò)展以及scale up-橫向擴(kuò)展。(1)縱向擴(kuò)展最要在算法底層、良好的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)或者并行設(shè)計(jì)方面。(2)橫向擴(kuò)展主要指算法的分布式技術(shù)實(shí)現(xiàn)(自己編寫分布式算法或者基于現(xiàn)有分布式框架實(shí)現(xiàn))。這里所說的“大數(shù)據(jù)”,在不同的挖掘領(lǐng)域(文本、圖結(jié)構(gòu)、機(jī)器學(xué)習(xí)、圖像)所對應(yīng)的數(shù)據(jù)量是不同的。對文本來說,幾百萬個樣本可能就是“大數(shù)據(jù)”;對機(jī)器學(xué)習(xí)來說,千萬個樣本,幾十維、幾百維(MB/GB)就是“大數(shù)據(jù)”;對大規(guī)模圖挖掘來說,千萬級節(jié)點(diǎn)、億級邊(GB),也是“大數(shù)據(jù)”;對圖像數(shù)據(jù),百萬級圖像(TB)完全可以稱得上“大數(shù)據(jù)”。
要做算法的可擴(kuò)展性一般是要用到并行技術(shù)、分布式編程技術(shù)的,但算法如果做到了極致,單臺計(jì)算機(jī)也能處理“大數(shù)據(jù)”問題,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC。 文章僅僅在一臺計(jì)算機(jī)上利用線程并行(多核)實(shí)現(xiàn)了計(jì)算機(jī)集群完成的工作。有些文章是用MATLAB來完成的實(shí)驗(yàn)、有些文章是利用hadoop集群來完成實(shí)驗(yàn)、有些是利用C/JAVA語言編寫分布式程序?qū)崿F(xiàn)、有些是利用多核CPU的多線程并行實(shí)現(xiàn)。可見,算法的實(shí)現(xiàn)方式不重要,重要的是算法具有scalability。多源數(shù)據(jù)融合以及挖掘分析也可以稱得上大數(shù)據(jù)挖掘,可能不見得數(shù)據(jù)集有非常大,但是通過多種數(shù)據(jù)的融合發(fā)現(xiàn)了之前完成不了的事情、或者之前完成效果不好的事情。比如: heterogeneous hashing 文章用了兩個異構(gòu)數(shù)據(jù)集(text、image)進(jìn)行relation-aware分析。特別是微軟亞洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data,這篇文章就是融合了5個數(shù)據(jù)集(氣象數(shù)據(jù)、空氣質(zhì)量數(shù)據(jù)、POI數(shù)據(jù)、路網(wǎng)數(shù)據(jù)、軌跡數(shù)據(jù)),利用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行了融合分析,得到了較好的效果并進(jìn)行了商業(yè)應(yīng)用。
(4)數(shù)據(jù)挖掘應(yīng)用方向
作為一門交叉學(xué)科,數(shù)據(jù)挖掘技術(shù)在工程應(yīng)用方面具有非常高的潛力,只要能產(chǎn)生數(shù)據(jù),那么就可以進(jìn)行數(shù)據(jù)挖掘知識發(fā)現(xiàn)。尤其在醫(yī)療、教育、金融等領(lǐng)域的應(yīng)用前景非常廣闊。信息技術(shù)正在以突飛猛進(jìn)的速度向前進(jìn)步,包括新傳感器采集技術(shù)、移動互聯(lián)網(wǎng)技術(shù)、社交網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,將帶來大量的創(chuàng)新性應(yīng)用。大數(shù)據(jù)是新時代的石油,通過研發(fā)分析各種多元結(jié)構(gòu)化數(shù)據(jù)的高效技術(shù),提高數(shù)據(jù)產(chǎn)品的易用性,讓數(shù)據(jù)分析實(shí)現(xiàn)“開箱即用”,其蘊(yùn)藏的巨大能量將使數(shù)據(jù)成為政府和企業(yè)建立核心競爭力的關(guān)鍵途徑,甚至能夠顛覆很多傳統(tǒng)行業(yè)的運(yùn)作方式,帶領(lǐng)我們進(jìn)入信息革命的新時代。綜上,數(shù)據(jù)挖掘能夠在醫(yī)療、教育、金融、企業(yè)管理、工業(yè)制造等多個行業(yè)發(fā)揮重要作用。
二、研究方法
數(shù)據(jù)挖掘的方法有關(guān)聯(lián)規(guī)則法、聚類分析、決策樹法、模糊集法、粗糙集法、神經(jīng)網(wǎng)絡(luò)法和遺傳算法等。
常用經(jīng)典算法有:
(1)決策樹:Cart、ID3、C4.5
(2)聚類算法:K-Means,EM
(3)關(guān)聯(lián)分析:Apriori、FP-Growth
(4)支持向量機(jī):SVM
(1)關(guān)聯(lián)規(guī)則法:
關(guān)聯(lián)規(guī)則法旨在確定不同事物之間的關(guān)聯(lián)性。RAgrawal等人首次提出了關(guān)聯(lián)規(guī)則挖掘問題,并給出Apriori算法的核心思想:首先找出重復(fù)出現(xiàn)次數(shù)至少達(dá)到預(yù)定意義閾值的所有關(guān)聯(lián)項(xiàng)集合,然后根據(jù)該集合生成關(guān)聯(lián)規(guī)則。該算法提出了最小支持度和最小可信度兩個閾值概念。假設(shè)有兩個事件α和β,支持度為二者同時出現(xiàn)的概率,置信度指事件α發(fā)生時,事件β同時出現(xiàn)的概率,即在α出現(xiàn)的條件下,β也出現(xiàn)的條件概率。而最小支持度和最小置信度則沒有固定的計(jì)算公式,需要根據(jù)訓(xùn)練數(shù)據(jù)和具體的數(shù)據(jù)場景來確定。
(2)決策樹法:
決策樹是根據(jù)變量的目標(biāo)效用構(gòu)建的樹形流程圖,通過固化的規(guī)則對數(shù)據(jù)進(jìn)行分類。早在1986年,JRQuinlan就提出了基于決策樹的ID3算法,此后在ID3算法的基礎(chǔ)上又提出了性能更好的C4.5算法。決策樹法的構(gòu)建過程簡單且易于理解,決策過程可見、高效而迅速。但是決策樹法無法妥善處理存在組合變量的規(guī)律挖掘過程。決策樹算法非常適合基于非數(shù)值型數(shù)據(jù)的數(shù)據(jù)挖掘過程,且對大數(shù)據(jù)進(jìn)行集中處理的效率很高。
(3)模糊集法:
現(xiàn)實(shí)中的很多問題可能無法用具體的數(shù)學(xué)公式進(jìn)行描述,此時可以使用模糊集來描述這些模糊問題,模糊集由論域和隸屬函數(shù)構(gòu)成,使用隸屬度來描述模事物的屬性。所描述的問題越復(fù)雜,精確描述該問題的難度就越大,問題的模糊性就越強(qiáng)。對于數(shù)據(jù)掘過程中定義模糊不清的問題,采取基于模糊集合理論的數(shù)學(xué)工具判斷其模糊程度,商定解決模糊問題的策略,對模糊問題中存在的模式進(jìn)行識別并最終進(jìn)行模糊聚類分析。
(4)粗糙集法:
粗糙集法也稱為粗糙集理論,是波蘭數(shù)學(xué)家ZPawlak于20世紀(jì)80年代初提出的,也是一種處理含義不明、無法精準(zhǔn)描述問題的數(shù)學(xué)方法。粗糙集法的處理過程可以不基于先驗(yàn)知識,支持自動歸納出問題的潛在規(guī)律,但是對于連續(xù)的屬性值無法直接處理,需要對屬性進(jìn)行離散化預(yù)處理。如何對連續(xù)屬性進(jìn)行恰當(dāng)?shù)碾x散化處理是粗糙集研究中的重點(diǎn),該理論主要應(yīng)用于近似推理、數(shù)字邏輯分析、構(gòu)建預(yù)測模型等問題。
(5)神經(jīng)網(wǎng)絡(luò)法:
神經(jīng)網(wǎng)絡(luò)算法通過模擬生物大腦內(nèi)的神經(jīng)系統(tǒng),設(shè)計(jì)算法模擬神經(jīng)元的結(jié)構(gòu)和功能,構(gòu)造訓(xùn)練模型,使用大量數(shù)據(jù)來訓(xùn)練模型,并將模型中的每一個連接作為基本處理單元,實(shí)現(xiàn)特征挖掘、分類、聚類等各種基本功能。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程和人腦類似,主要通過修改中間神經(jīng)層的權(quán)值來不斷完善和優(yōu)化訓(xùn)練模型,獲得符合預(yù)期擬合效果的模型。神經(jīng)網(wǎng)絡(luò)算法的抗噪音和異常值干擾性能非常好,適合非線性學(xué)習(xí),具有自動聯(lián)想功能,能夠在復(fù)雜場景中得到精準(zhǔn)的預(yù)測結(jié)果,但是不適合處理高維變量,且訓(xùn)練過程屬于黑盒模型,不能觀察中間的學(xué)習(xí)過程,輸出結(jié)果不易于理解,且訓(xùn)練模型效果對數(shù)據(jù)規(guī)模依賴較大,學(xué)習(xí)時間也較長。
(6)遺傳算法:
遺傳算法借鑒了生物進(jìn)化規(guī)則,通過模擬自然選擇過程和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,構(gòu)造復(fù)制、交叉、變異三種算子完成求解過程。遺傳算法的優(yōu)勢是可以處理各種類型的數(shù)據(jù),并且支持對數(shù)據(jù)的并行處理;缺點(diǎn)是算法訓(xùn)練過程中需要調(diào)整的參數(shù)太多,需要花費(fèi)大量的時間,數(shù)據(jù)和算法的編碼過程也比較復(fù)雜,需要的數(shù)據(jù)量也很大,相應(yīng)的計(jì)算量也比較大。遺傳算法經(jīng)常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò)模型,也經(jīng)常用于解決其他方法難以解決的問題。
三、總結(jié)
數(shù)據(jù)挖掘過程往往涉及用戶的隱私問題,例如:私營公司老板可以通過訪問應(yīng)聘職工的就診記錄來篩除有糖尿病或者嚴(yán)重心臟病的人,從而節(jié)省保險支出。但是,此類行為會導(dǎo)致倫理道德以及法律問題。正確使用數(shù)據(jù)挖掘可以為社會產(chǎn)生非常大的價值,但也可能出現(xiàn)濫用醫(yī)療數(shù)據(jù)庫的風(fēng)險。例如,根據(jù)患者的醫(yī)療數(shù)據(jù)可以分析藥物與副作用的關(guān)系。這種關(guān)系可能是非常偶然的情況,且可能會出現(xiàn)誤判的情況。基于各種算法,數(shù)據(jù)挖掘方法可以獲得用其他方法不可能發(fā)現(xiàn)的潛在信息,但同樣面臨著各種安全風(fēng)險,必須進(jìn)行規(guī)范。
數(shù)據(jù)挖掘的研究重點(diǎn)在于數(shù)據(jù)挖掘算法的選擇和數(shù)據(jù)處理方法對模型效果的影響。模型效果包括有效性和正確性兩個方面,在挖掘商業(yè)數(shù)據(jù)的過程中,除了需要考慮正確性和有效性,還需考慮數(shù)據(jù)的安全性。
隨著信息時代的大爆發(fā),各種數(shù)據(jù)資源迅猛增加,然而數(shù)據(jù)的增加與數(shù)據(jù)分析的滯后差值也越來越大,而大多數(shù)研究者希望通過科學(xué)手段挖掘數(shù)據(jù)深層價值,所以數(shù)據(jù)挖掘變成了解決數(shù)據(jù)分析問題的主流技術(shù),它彌補(bǔ)了傳統(tǒng)分析方法的不足,有針對性地對數(shù)據(jù)進(jìn)行科學(xué)化處理。只有將數(shù)據(jù)隱藏的有效知識信息及時發(fā)現(xiàn),才能進(jìn)一步服務(wù)于人類發(fā)展,數(shù)據(jù)資源才能真正被利用起來,也才意味著大數(shù)據(jù)時代的真正到來。
參考文獻(xiàn)
[1]楊小娟.數(shù)據(jù)挖掘國內(nèi)研究綜述[J].電腦編程技巧與維護(hù),2020(08):115-117.DOI:10.16184/j.cnki.comprg.2020.08.041.
[2]杜治涵.數(shù)據(jù)挖掘研究[J].信息與電腦(理論版),2021,33(01):169-171.
總結(jié)
以上是生活随笔為你收集整理的数据挖掘近年来的研究方向、方法总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 屏幕广播系统_如何设计系统,而不是屏幕
- 下一篇: Futura:从纳粹主义到月球-甚至更远