當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘近年来的研究方向、方法总结

發(fā)布時間：2023/12/10 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘近年来的研究方向、方法总结小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

數(shù)據(jù)挖掘近年來的研究方向、方法總結(jié)

一、研究方向

數(shù)據(jù)挖掘作為一個跨學(xué)科主題，它是用人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫交叉的方法在相對較大型的數(shù)據(jù)集中發(fā)現(xiàn)模式的計(jì)算過程。其目標(biāo)是從數(shù)據(jù)集中提取信息并將其轉(zhuǎn)換成可理解的結(jié)構(gòu)，以進(jìn)一步分析使用。對其的研究大致可分如下4類：

（1）基礎(chǔ)理論研究方向

數(shù)據(jù)挖掘是一門交叉學(xué)科，因此涉及的基礎(chǔ)理論也是多學(xué)科的基礎(chǔ)。其包含的基礎(chǔ)理論研究涉及到規(guī)則和模式挖掘、分類、聚類、話題學(xué)習(xí)、時間空間數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)方法，監(jiān)督、非監(jiān)督、半監(jiān)督等方面，同時這些也是人工智能領(lǐng)域的相關(guān)研究。基礎(chǔ)理論的研究一直都有人在做。

（2）網(wǎng)絡(luò)、圖的挖掘方向

當(dāng)下，數(shù)據(jù)的類型有很多種，如一維信號、時序數(shù)據(jù)、二維圖像數(shù)據(jù)、三維視頻、多光譜、高光譜數(shù)據(jù)等，但在現(xiàn)實(shí)生活中，其實(shí)有很多很多不規(guī)則的數(shù)據(jù)結(jié)構(gòu)，典型的就是圖結(jié)構(gòu)，或稱拓?fù)浣Y(jié)構(gòu)，如社交網(wǎng)絡(luò)、化學(xué)分子結(jié)構(gòu)、知識圖譜等，它是與其他維數(shù)據(jù)不同的一種數(shù)據(jù)結(jié)構(gòu)。圖結(jié)構(gòu)的數(shù)據(jù)已經(jīng)成為日常中一種非常常見的數(shù)據(jù)了，各行各業(yè)都能產(chǎn)生圖結(jié)構(gòu)的數(shù)據(jù)，而對這些數(shù)據(jù)進(jìn)行分析處理就必須要用到數(shù)據(jù)挖掘技術(shù)，對網(wǎng)絡(luò)、圖結(jié)構(gòu)的數(shù)據(jù)處理分析也就成為的數(shù)據(jù)挖掘的研究熱點(diǎn)問題。

具體研究方向有：圖模式挖掘、社區(qū)發(fā)現(xiàn)、網(wǎng)絡(luò)聚類系數(shù)估計(jì)、網(wǎng)絡(luò)關(guān)系挖掘、網(wǎng)絡(luò)用戶行為分析、網(wǎng)絡(luò)信息傳播、社交網(wǎng)絡(luò)應(yīng)用，社交推薦（信息、好友等）等

（3）大數(shù)據(jù)挖掘方向

多模態(tài)數(shù)據(jù)挖掘、算法的并行、分布式擴(kuò)展、多源異構(gòu)數(shù)據(jù)融合挖掘、數(shù)據(jù)挖掘與多庫系統(tǒng)的集成、數(shù)據(jù)挖掘過程可視化、復(fù)雜數(shù)據(jù)分析建模方法等。

從數(shù)據(jù)挖掘的對象來說，數(shù)據(jù)挖掘后期多會偏向多模態(tài)數(shù)據(jù)挖掘。因?yàn)榫彤?dāng)前來看大部分的數(shù)據(jù)挖掘都是針對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘的，但大數(shù)據(jù)時代背景下，非結(jié)構(gòu)化數(shù)據(jù)占據(jù)主流，如果從這些非結(jié)構(gòu)化數(shù)據(jù)中挖掘出隱藏信息，將是未來大數(shù)據(jù)領(lǐng)域研究和實(shí)踐的重點(diǎn)。

現(xiàn)今大數(shù)據(jù)挖掘與傳統(tǒng)算法的本質(zhì)區(qū)別在于算法的可擴(kuò)展性。換句話說，現(xiàn)在研究的算法在不僅僅能處理小規(guī)模數(shù)據(jù)集，當(dāng)數(shù)據(jù)增加時也具有較大范圍內(nèi)的適合。算法的擴(kuò)展理解為兩個方面：scale out-縱向擴(kuò)展以及scale up-橫向擴(kuò)展。（1）縱向擴(kuò)展最要在算法底層、良好的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)或者并行設(shè)計(jì)方面。（2）橫向擴(kuò)展主要指算法的分布式技術(shù)實(shí)現(xiàn)（自己編寫分布式算法或者基于現(xiàn)有分布式框架實(shí)現(xiàn)）。這里所說的“大數(shù)據(jù)”，在不同的挖掘領(lǐng)域（文本、圖結(jié)構(gòu)、機(jī)器學(xué)習(xí)、圖像）所對應(yīng)的數(shù)據(jù)量是不同的。對文本來說，幾百萬個樣本可能就是“大數(shù)據(jù)”；對機(jī)器學(xué)習(xí)來說，千萬個樣本，幾十維、幾百維（MB/GB）就是“大數(shù)據(jù)”；對大規(guī)模圖挖掘來說，千萬級節(jié)點(diǎn)、億級邊（GB），也是“大數(shù)據(jù)”；對圖像數(shù)據(jù)，百萬級圖像（TB）完全可以稱得上“大數(shù)據(jù)”。

要做算法的可擴(kuò)展性一般是要用到并行技術(shù)、分布式編程技術(shù)的，但算法如果做到了極致，單臺計(jì)算機(jī)也能處理“大數(shù)據(jù)”問題，比如：TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC。文章僅僅在一臺計(jì)算機(jī)上利用線程并行（多核）實(shí)現(xiàn)了計(jì)算機(jī)集群完成的工作。有些文章是用MATLAB來完成的實(shí)驗(yàn)、有些文章是利用hadoop集群來完成實(shí)驗(yàn)、有些是利用C/JAVA語言編寫分布式程序?qū)崿F(xiàn)、有些是利用多核CPU的多線程并行實(shí)現(xiàn)。可見，算法的實(shí)現(xiàn)方式不重要，重要的是算法具有scalability。多源數(shù)據(jù)融合以及挖掘分析也可以稱得上大數(shù)據(jù)挖掘，可能不見得數(shù)據(jù)集有非常大，但是通過多種數(shù)據(jù)的融合發(fā)現(xiàn)了之前完成不了的事情、或者之前完成效果不好的事情。比如： heterogeneous hashing 文章用了兩個異構(gòu)數(shù)據(jù)集（text、image）進(jìn)行relation-aware分析。特別是微軟亞洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data，這篇文章就是融合了5個數(shù)據(jù)集（氣象數(shù)據(jù)、空氣質(zhì)量數(shù)據(jù)、POI數(shù)據(jù)、路網(wǎng)數(shù)據(jù)、軌跡數(shù)據(jù)），利用傳統(tǒng)的數(shù)據(jù)挖掘方法進(jìn)行了融合分析，得到了較好的效果并進(jìn)行了商業(yè)應(yīng)用。

（4）數(shù)據(jù)挖掘應(yīng)用方向

作為一門交叉學(xué)科，數(shù)據(jù)挖掘技術(shù)在工程應(yīng)用方面具有非常高的潛力，只要能產(chǎn)生數(shù)據(jù)，那么就可以進(jìn)行數(shù)據(jù)挖掘知識發(fā)現(xiàn)。尤其在醫(yī)療、教育、金融等領(lǐng)域的應(yīng)用前景非常廣闊。信息技術(shù)正在以突飛猛進(jìn)的速度向前進(jìn)步，包括新傳感器采集技術(shù)、移動互聯(lián)網(wǎng)技術(shù)、社交網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展，將帶來大量的創(chuàng)新性應(yīng)用。大數(shù)據(jù)是新時代的石油，通過研發(fā)分析各種多元結(jié)構(gòu)化數(shù)據(jù)的高效技術(shù)，提高數(shù)據(jù)產(chǎn)品的易用性，讓數(shù)據(jù)分析實(shí)現(xiàn)“開箱即用”，其蘊(yùn)藏的巨大能量將使數(shù)據(jù)成為政府和企業(yè)建立核心競爭力的關(guān)鍵途徑，甚至能夠顛覆很多傳統(tǒng)行業(yè)的運(yùn)作方式，帶領(lǐng)我們進(jìn)入信息革命的新時代。綜上，數(shù)據(jù)挖掘能夠在醫(yī)療、教育、金融、企業(yè)管理、工業(yè)制造等多個行業(yè)發(fā)揮重要作用。

二、研究方法

數(shù)據(jù)挖掘的方法有關(guān)聯(lián)規(guī)則法、聚類分析、決策樹法、模糊集法、粗糙集法、神經(jīng)網(wǎng)絡(luò)法和遺傳算法等。

常用經(jīng)典算法有：

（1）決策樹：Cart、ID3、C4.5

（2）聚類算法：K-Means，EM

（3）關(guān)聯(lián)分析：Apriori、FP-Growth

（4）支持向量機(jī)：SVM

（1）關(guān)聯(lián)規(guī)則法：

關(guān)聯(lián)規(guī)則法旨在確定不同事物之間的關(guān)聯(lián)性。RAgrawal等人首次提出了關(guān)聯(lián)規(guī)則挖掘問題，并給出Apriori算法的核心思想：首先找出重復(fù)出現(xiàn)次數(shù)至少達(dá)到預(yù)定意義閾值的所有關(guān)聯(lián)項(xiàng)集合，然后根據(jù)該集合生成關(guān)聯(lián)規(guī)則。該算法提出了最小支持度和最小可信度兩個閾值概念。假設(shè)有兩個事件α和β，支持度為二者同時出現(xiàn)的概率，置信度指事件α發(fā)生時，事件β同時出現(xiàn)的概率，即在α出現(xiàn)的條件下，β也出現(xiàn)的條件概率。而最小支持度和最小置信度則沒有固定的計(jì)算公式，需要根據(jù)訓(xùn)練數(shù)據(jù)和具體的數(shù)據(jù)場景來確定。

（2）決策樹法：

決策樹是根據(jù)變量的目標(biāo)效用構(gòu)建的樹形流程圖，通過固化的規(guī)則對數(shù)據(jù)進(jìn)行分類。早在1986年，JRQuinlan就提出了基于決策樹的ID3算法，此后在ID3算法的基礎(chǔ)上又提出了性能更好的C4.5算法。決策樹法的構(gòu)建過程簡單且易于理解，決策過程可見、高效而迅速。但是決策樹法無法妥善處理存在組合變量的規(guī)律挖掘過程。決策樹算法非常適合基于非數(shù)值型數(shù)據(jù)的數(shù)據(jù)挖掘過程，且對大數(shù)據(jù)進(jìn)行集中處理的效率很高。

（3）模糊集法：

現(xiàn)實(shí)中的很多問題可能無法用具體的數(shù)學(xué)公式進(jìn)行描述，此時可以使用模糊集來描述這些模糊問題，模糊集由論域和隸屬函數(shù)構(gòu)成，使用隸屬度來描述模事物的屬性。所描述的問題越復(fù)雜，精確描述該問題的難度就越大，問題的模糊性就越強(qiáng)。對于數(shù)據(jù)掘過程中定義模糊不清的問題，采取基于模糊集合理論的數(shù)學(xué)工具判斷其模糊程度，商定解決模糊問題的策略，對模糊問題中存在的模式進(jìn)行識別并最終進(jìn)行模糊聚類分析。

（4）粗糙集法：

粗糙集法也稱為粗糙集理論，是波蘭數(shù)學(xué)家ZPawlak于20世紀(jì)80年代初提出的，也是一種處理含義不明、無法精準(zhǔn)描述問題的數(shù)學(xué)方法。粗糙集法的處理過程可以不基于先驗(yàn)知識，支持自動歸納出問題的潛在規(guī)律，但是對于連續(xù)的屬性值無法直接處理，需要對屬性進(jìn)行離散化預(yù)處理。如何對連續(xù)屬性進(jìn)行恰當(dāng)?shù)碾x散化處理是粗糙集研究中的重點(diǎn)，該理論主要應(yīng)用于近似推理、數(shù)字邏輯分析、構(gòu)建預(yù)測模型等問題。

（5）神經(jīng)網(wǎng)絡(luò)法：

神經(jīng)網(wǎng)絡(luò)算法通過模擬生物大腦內(nèi)的神經(jīng)系統(tǒng)，設(shè)計(jì)算法模擬神經(jīng)元的結(jié)構(gòu)和功能，構(gòu)造訓(xùn)練模型，使用大量數(shù)據(jù)來訓(xùn)練模型，并將模型中的每一個連接作為基本處理單元，實(shí)現(xiàn)特征挖掘、分類、聚類等各種基本功能。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練過程和人腦類似，主要通過修改中間神經(jīng)層的權(quán)值來不斷完善和優(yōu)化訓(xùn)練模型，獲得符合預(yù)期擬合效果的模型。神經(jīng)網(wǎng)絡(luò)算法的抗噪音和異常值干擾性能非常好，適合非線性學(xué)習(xí)，具有自動聯(lián)想功能，能夠在復(fù)雜場景中得到精準(zhǔn)的預(yù)測結(jié)果，但是不適合處理高維變量，且訓(xùn)練過程屬于黑盒模型，不能觀察中間的學(xué)習(xí)過程，輸出結(jié)果不易于理解，且訓(xùn)練模型效果對數(shù)據(jù)規(guī)模依賴較大，學(xué)習(xí)時間也較長。

（6）遺傳算法：

遺傳算法借鑒了生物進(jìn)化規(guī)則，通過模擬自然選擇過程和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象，構(gòu)造復(fù)制、交叉、變異三種算子完成求解過程。遺傳算法的優(yōu)勢是可以處理各種類型的數(shù)據(jù)，并且支持對數(shù)據(jù)的并行處理；缺點(diǎn)是算法訓(xùn)練過程中需要調(diào)整的參數(shù)太多，需要花費(fèi)大量的時間，數(shù)據(jù)和算法的編碼過程也比較復(fù)雜，需要的數(shù)據(jù)量也很大，相應(yīng)的計(jì)算量也比較大。遺傳算法經(jīng)常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò)模型，也經(jīng)常用于解決其他方法難以解決的問題。

三、總結(jié)

數(shù)據(jù)挖掘過程往往涉及用戶的隱私問題，例如：私營公司老板可以通過訪問應(yīng)聘職工的就診記錄來篩除有糖尿病或者嚴(yán)重心臟病的人，從而節(jié)省保險支出。但是，此類行為會導(dǎo)致倫理道德以及法律問題。正確使用數(shù)據(jù)挖掘可以為社會產(chǎn)生非常大的價值，但也可能出現(xiàn)濫用醫(yī)療數(shù)據(jù)庫的風(fēng)險。例如，根據(jù)患者的醫(yī)療數(shù)據(jù)可以分析藥物與副作用的關(guān)系。這種關(guān)系可能是非常偶然的情況，且可能會出現(xiàn)誤判的情況。基于各種算法，數(shù)據(jù)挖掘方法可以獲得用其他方法不可能發(fā)現(xiàn)的潛在信息，但同樣面臨著各種安全風(fēng)險，必須進(jìn)行規(guī)范。

數(shù)據(jù)挖掘的研究重點(diǎn)在于數(shù)據(jù)挖掘算法的選擇和數(shù)據(jù)處理方法對模型效果的影響。模型效果包括有效性和正確性兩個方面，在挖掘商業(yè)數(shù)據(jù)的過程中，除了需要考慮正確性和有效性，還需考慮數(shù)據(jù)的安全性。

隨著信息時代的大爆發(fā)，各種數(shù)據(jù)資源迅猛增加，然而數(shù)據(jù)的增加與數(shù)據(jù)分析的滯后差值也越來越大，而大多數(shù)研究者希望通過科學(xué)手段挖掘數(shù)據(jù)深層價值，所以數(shù)據(jù)挖掘變成了解決數(shù)據(jù)分析問題的主流技術(shù)，它彌補(bǔ)了傳統(tǒng)分析方法的不足，有針對性地對數(shù)據(jù)進(jìn)行科學(xué)化處理。只有將數(shù)據(jù)隱藏的有效知識信息及時發(fā)現(xiàn)，才能進(jìn)一步服務(wù)于人類發(fā)展，數(shù)據(jù)資源才能真正被利用起來，也才意味著大數(shù)據(jù)時代的真正到來。

參考文獻(xiàn)

[1]楊小娟.數(shù)據(jù)挖掘國內(nèi)研究綜述[J].電腦編程技巧與維護(hù),2020(08):115-117.DOI:10.16184/j.cnki.comprg.2020.08.041.

[2]杜治涵.數(shù)據(jù)挖掘研究[J].信息與電腦(理論版),2021,33(01):169-171.

總結(jié)

以上是生活随笔為你收集整理的数据挖掘近年来的研究方向、方法总结的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：屏幕广播系统_如何设计系统，而不是屏幕
下一篇： Futura：从纳粹主义到月球-甚至更远