数据挖掘近年来的研究方向、方法总结
數據挖掘近年來的研究方向、方法總結
一、研究方向
數據挖掘作為一個跨學科主題,它是用人工智能、機器學習、統計學和數據庫交叉的方法在相對較大型的數據集中發現模式的計算過程。其目標是從數據集中提取信息并將其轉換成可理解的結構,以進一步分析使用。對其的研究大致可分如下4類:
(1)基礎理論研究方向
數據挖掘是一門交叉學科,因此涉及的基礎理論也是多學科的基礎。其包含的基礎理論研究涉及到規則和模式挖掘、分類、聚類、話題學習、時間空間數據挖掘、機器學習方法,監督、非監督、半監督等方面,同時這些也是人工智能領域的相關研究?;A理論的研究一直都有人在做。
(2)網絡、圖的挖掘方向
當下,數據的類型有很多種,如一維信號、時序數據、二維圖像數據、三維視頻、多光譜、高光譜數據等,但在現實生活中,其實有很多很多不規則的數據結構,典型的就是圖結構,或稱拓撲結構,如社交網絡、化學分子結構、知識圖譜等,它是與其他維數據不同的一種數據結構。圖結構的數據已經成為日常中一種非常常見的數據了,各行各業都能產生圖結構的數據,而對這些數據進行分析處理就必須要用到數據挖掘技術,對網絡、圖結構的數據處理分析也就成為的數據挖掘的研究熱點問題。
具體研究方向有:圖模式挖掘、社區發現、網絡聚類系數估計、網絡關系挖掘、網絡用戶行為分析、網絡信息傳播、社交網絡應用,社交推薦(信息、好友等)等
(3)大數據挖掘方向
多模態數據挖掘、算法的并行、分布式擴展、多源異構數據融合挖掘、數據挖掘與多庫系統的集成、數據挖掘過程可視化、復雜數據分析建模方法等。
從數據挖掘的對象來說,數據挖掘后期多會偏向多模態數據挖掘。因為就當前來看大部分的數據挖掘都是針對結構化數據進行挖掘的,但大數據時代背景下,非結構化數據占據主流,如果從這些非結構化數據中挖掘出隱藏信息,將是未來大數據領域研究和實踐的重點。
現今大數據挖掘與傳統算法的本質區別在于算法的可擴展性。換句話說,現在研究的算法在不僅僅能處理小規模數據集,當數據增加時也具有較大范圍內的適合。算法的擴展理解為兩個方面:scale out-縱向擴展以及scale up-橫向擴展。(1)縱向擴展最要在算法底層、良好的數據結構設計或者并行設計方面。(2)橫向擴展主要指算法的分布式技術實現(自己編寫分布式算法或者基于現有分布式框架實現)。這里所說的“大數據”,在不同的挖掘領域(文本、圖結構、機器學習、圖像)所對應的數據量是不同的。對文本來說,幾百萬個樣本可能就是“大數據”;對機器學習來說,千萬個樣本,幾十維、幾百維(MB/GB)就是“大數據”;對大規模圖挖掘來說,千萬級節點、億級邊(GB),也是“大數據”;對圖像數據,百萬級圖像(TB)完全可以稱得上“大數據”。
要做算法的可擴展性一般是要用到并行技術、分布式編程技術的,但算法如果做到了極致,單臺計算機也能處理“大數據”問題,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC。 文章僅僅在一臺計算機上利用線程并行(多核)實現了計算機集群完成的工作。有些文章是用MATLAB來完成的實驗、有些文章是利用hadoop集群來完成實驗、有些是利用C/JAVA語言編寫分布式程序實現、有些是利用多核CPU的多線程并行實現??梢?#xff0c;算法的實現方式不重要,重要的是算法具有scalability。多源數據融合以及挖掘分析也可以稱得上大數據挖掘,可能不見得數據集有非常大,但是通過多種數據的融合發現了之前完成不了的事情、或者之前完成效果不好的事情。比如: heterogeneous hashing 文章用了兩個異構數據集(text、image)進行relation-aware分析。特別是微軟亞洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data,這篇文章就是融合了5個數據集(氣象數據、空氣質量數據、POI數據、路網數據、軌跡數據),利用傳統的數據挖掘方法進行了融合分析,得到了較好的效果并進行了商業應用。
(4)數據挖掘應用方向
作為一門交叉學科,數據挖掘技術在工程應用方面具有非常高的潛力,只要能產生數據,那么就可以進行數據挖掘知識發現。尤其在醫療、教育、金融等領域的應用前景非常廣闊。信息技術正在以突飛猛進的速度向前進步,包括新傳感器采集技術、移動互聯網技術、社交網絡技術的蓬勃發展,將帶來大量的創新性應用。大數據是新時代的石油,通過研發分析各種多元結構化數據的高效技術,提高數據產品的易用性,讓數據分析實現“開箱即用”,其蘊藏的巨大能量將使數據成為政府和企業建立核心競爭力的關鍵途徑,甚至能夠顛覆很多傳統行業的運作方式,帶領我們進入信息革命的新時代。綜上,數據挖掘能夠在醫療、教育、金融、企業管理、工業制造等多個行業發揮重要作用。
二、研究方法
數據挖掘的方法有關聯規則法、聚類分析、決策樹法、模糊集法、粗糙集法、神經網絡法和遺傳算法等。
常用經典算法有:
(1)決策樹:Cart、ID3、C4.5
(2)聚類算法:K-Means,EM
(3)關聯分析:Apriori、FP-Growth
(4)支持向量機:SVM
(1)關聯規則法:
關聯規則法旨在確定不同事物之間的關聯性。RAgrawal等人首次提出了關聯規則挖掘問題,并給出Apriori算法的核心思想:首先找出重復出現次數至少達到預定意義閾值的所有關聯項集合,然后根據該集合生成關聯規則。該算法提出了最小支持度和最小可信度兩個閾值概念。假設有兩個事件α和β,支持度為二者同時出現的概率,置信度指事件α發生時,事件β同時出現的概率,即在α出現的條件下,β也出現的條件概率。而最小支持度和最小置信度則沒有固定的計算公式,需要根據訓練數據和具體的數據場景來確定。
(2)決策樹法:
決策樹是根據變量的目標效用構建的樹形流程圖,通過固化的規則對數據進行分類。早在1986年,JRQuinlan就提出了基于決策樹的ID3算法,此后在ID3算法的基礎上又提出了性能更好的C4.5算法。決策樹法的構建過程簡單且易于理解,決策過程可見、高效而迅速。但是決策樹法無法妥善處理存在組合變量的規律挖掘過程。決策樹算法非常適合基于非數值型數據的數據挖掘過程,且對大數據進行集中處理的效率很高。
(3)模糊集法:
現實中的很多問題可能無法用具體的數學公式進行描述,此時可以使用模糊集來描述這些模糊問題,模糊集由論域和隸屬函數構成,使用隸屬度來描述模事物的屬性。所描述的問題越復雜,精確描述該問題的難度就越大,問題的模糊性就越強。對于數據掘過程中定義模糊不清的問題,采取基于模糊集合理論的數學工具判斷其模糊程度,商定解決模糊問題的策略,對模糊問題中存在的模式進行識別并最終進行模糊聚類分析。
(4)粗糙集法:
粗糙集法也稱為粗糙集理論,是波蘭數學家ZPawlak于20世紀80年代初提出的,也是一種處理含義不明、無法精準描述問題的數學方法。粗糙集法的處理過程可以不基于先驗知識,支持自動歸納出問題的潛在規律,但是對于連續的屬性值無法直接處理,需要對屬性進行離散化預處理。如何對連續屬性進行恰當的離散化處理是粗糙集研究中的重點,該理論主要應用于近似推理、數字邏輯分析、構建預測模型等問題。
(5)神經網絡法:
神經網絡算法通過模擬生物大腦內的神經系統,設計算法模擬神經元的結構和功能,構造訓練模型,使用大量數據來訓練模型,并將模型中的每一個連接作為基本處理單元,實現特征挖掘、分類、聚類等各種基本功能。神經網絡的學習訓練過程和人腦類似,主要通過修改中間神經層的權值來不斷完善和優化訓練模型,獲得符合預期擬合效果的模型。神經網絡算法的抗噪音和異常值干擾性能非常好,適合非線性學習,具有自動聯想功能,能夠在復雜場景中得到精準的預測結果,但是不適合處理高維變量,且訓練過程屬于黑盒模型,不能觀察中間的學習過程,輸出結果不易于理解,且訓練模型效果對數據規模依賴較大,學習時間也較長。
(6)遺傳算法:
遺傳算法借鑒了生物進化規則,通過模擬自然選擇過程和遺傳中發生的繁殖、交配和基因突變現象,構造復制、交叉、變異三種算子完成求解過程。遺傳算法的優勢是可以處理各種類型的數據,并且支持對數據的并行處理;缺點是算法訓練過程中需要調整的參數太多,需要花費大量的時間,數據和算法的編碼過程也比較復雜,需要的數據量也很大,相應的計算量也比較大。遺傳算法經常用于優化神經元網絡模型,也經常用于解決其他方法難以解決的問題。
三、總結
數據挖掘過程往往涉及用戶的隱私問題,例如:私營公司老板可以通過訪問應聘職工的就診記錄來篩除有糖尿病或者嚴重心臟病的人,從而節省保險支出。但是,此類行為會導致倫理道德以及法律問題。正確使用數據挖掘可以為社會產生非常大的價值,但也可能出現濫用醫療數據庫的風險。例如,根據患者的醫療數據可以分析藥物與副作用的關系。這種關系可能是非常偶然的情況,且可能會出現誤判的情況?;诟鞣N算法,數據挖掘方法可以獲得用其他方法不可能發現的潛在信息,但同樣面臨著各種安全風險,必須進行規范。
數據挖掘的研究重點在于數據挖掘算法的選擇和數據處理方法對模型效果的影響。模型效果包括有效性和正確性兩個方面,在挖掘商業數據的過程中,除了需要考慮正確性和有效性,還需考慮數據的安全性。
隨著信息時代的大爆發,各種數據資源迅猛增加,然而數據的增加與數據分析的滯后差值也越來越大,而大多數研究者希望通過科學手段挖掘數據深層價值,所以數據挖掘變成了解決數據分析問題的主流技術,它彌補了傳統分析方法的不足,有針對性地對數據進行科學化處理。只有將數據隱藏的有效知識信息及時發現,才能進一步服務于人類發展,數據資源才能真正被利用起來,也才意味著大數據時代的真正到來。
參考文獻
[1]楊小娟.數據挖掘國內研究綜述[J].電腦編程技巧與維護,2020(08):115-117.DOI:10.16184/j.cnki.comprg.2020.08.041.
[2]杜治涵.數據挖掘研究[J].信息與電腦(理論版),2021,33(01):169-171.
總結
以上是生活随笔為你收集整理的数据挖掘近年来的研究方向、方法总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 屏幕广播系统_如何设计系统,而不是屏幕
- 下一篇: Futura:从纳粹主义到月球-甚至更远