當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据挖掘之七种常用的方法

發布時間：2023/12/16 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘之七种常用的方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。

??????? 利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等，它們分別從不同的角度對數據進行挖掘。?

分類

?????? 分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類，其目的是通過分類模型，將數據庫中的數據項映射到某個給定的類別，用于預測數據對象的離散類別。

?????? 分類技術在很多領域都有應用，它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等。

當前的市場營銷中很重要的一個特點是強調客戶細分。客戶類別分析的功能也在于此，采用數據挖掘中的分類技術，可以將客戶分成不同的類別。比如呼叫中心設計時可以分為：呼叫頻繁的客戶、偶然大量呼叫的客戶、穩定呼叫的客戶、其他，幫助呼叫中心尋找出這些不同種類客戶之間的特征，這樣的分類模型可以讓用戶了解不同行為類別客戶的分布特征。

?其他分類應用如文獻檢索和搜索引擎中的自動文本分類技術；安全領域有基于分類技術的入侵檢測等等。

?????? 而主要分類方法有決策樹、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神經網絡等。

回歸分析

?????? 回歸分析，一個統計預測模型，用以描述和評估應變量與一個或多個自變量之間的關系；反映的是事務數據庫中屬性值在時間上的特征，產生一個將數據項映射到一個實值預測變量的函數，發現變量或屬性間的依賴關系。

???????其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。

?????? 回歸分析方法被廣泛地用于解釋市場占有率、銷售額、品牌偏好及市場營銷效果。它可以應用到市場營銷的各個方面，如客戶尋求、保持和預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。

主要表現

(1)?判別自變量是否能解釋因變量的顯著變化----關系是否存在。

(2)?判別自變量能夠在多大程度上解釋因變量----關系的強度。

(3)?判別關系的結構或形式----反映因變量和自變量之間相關的數學表達式。

(4)?預測自變量的值。

(5)?當評價一個特殊變量或一組變量對因變量的貢獻時，對其自變量進行控制。

聚類

?????? 聚類，顧名思義就是按照相似性和差異性，把一組對象劃分成若干類，并且每個類里面對象之間的相似度較高，不同類里面對象之間相似度較低或差異明顯。與分類不同的是聚類不依靠給定的類別對對象進行劃分。?

分析算法分類

（1）劃分方法

（2）層次的方法

（3）基于密度的方法

（4）基于網格的方法

（5）基于模型的方法

?????? 它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。如誰經常光顧商店，誰買什么東西，買多少？按忠誠卡記錄的光臨次數、光臨時間、年齡、職業等等；還有銀行信用卡的黃金客戶，按儲蓄額、刷卡消費金額和誠信度等。?

關聯規則

關聯規則是描述數據庫中數據項之間所存在的關系的規則，可以從一件事情的發生，來推測另外一件事情的發生，即隱藏在數據間的關聯或相互關系，從而更好地了解和掌握事物的發展規律等等。

關聯規則數據挖掘中最經典的案例就是沃爾瑪的啤酒和尿布的故事。在美國，一些年輕的父親下班后經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。于是沃爾瑪將啤酒與尿布一起銷售，**提高了銷售額。

?????? 關聯規則的實際應用包括：交叉銷售、郵購目錄的設計、商品擺放、流失客戶分析、基于購買模式進行客戶區隔等等……

????? 在客戶關系管理中，通過對企業的客戶數據庫里的大量數據進行挖掘，可以從大量的記錄中發現有趣的關聯關系，找出影響市場營銷效果的關鍵因素，為產品定位、定價與定制客戶群，客戶尋求、細分與保持，市場營銷與推銷，營銷風險評估和詐騙預測等決策支持提供參考依據。?

??特征

?????? 特征分析是從數據庫中的一組數據中提取出關于這些數據的特征式，這些特征式表達了該數據集的總體特征。特征選擇的目的在于從海量數據中提取出有用信息，從而提高數據的使用效率。

????? 其中，特征有效性的選擇評價有概率論、數理統計、信息論、IR領域的度量、學**相關的度量等。

????? 如營銷人員通過對客戶流失因素的特征提取，可以得到導致客戶流失的一系列原因和主要特征，利用這些特征可以有效地預防客戶的流失。

變化和偏差分析

?????? 偏差是數據集中的小比例對象。通常，偏差對象被稱為離群點、例外、野點等。偏差分析是一個有趣的數據挖掘任務，其目的是發現與大部分其他對象不同的對象。如分類中的反常實例，模式的例外，觀察結果對期望的偏差等。

?????? 在企業危機管理及其預警中，管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。

?????? 而其成因有數據源于不同的類、自然變異、數據測量或收集誤差等。?

Web頁挖掘

?????? 通過對Web的挖掘，可以利用Web 的海量數據進行分析，收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求信息、客戶等有關的信息，集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息，并根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆，對這些信息進行分析和處理，以便識別、分析、評價和管理危機。

??????Web數據挖掘的研究對象是以半結構化和無結構文檔為中心的Web，這些數據沒有統一的模式，數據的內容和表示互相交織，數據內容基本上沒有語義信息進行描述，僅僅依靠HTML語法對數據進行結構上的描述。?

可完成任務

? （1）網絡流量分配情況、隨時間變化情況分析。

??? （2）網站廣告點擊率、投資收益比分析。

??? （3）用戶從哪里進入網站、跳出網站，進入感興趣的頁的方式等出入口分析。

??? （4）用戶來源分析。

??? （5）訪問站點的用戶的瀏覽器和平臺分析。

??? （6）發現經常被用戶一起訪問的頁面集合，作為優化站點的參照。

??? （7）聚類行為模式相似的用戶，形成智能推薦模式；聚類同一群用戶訪問的頁面，幫助發現站點設計的不合理之處。

??? （8）預測用戶可能訪問的頁面，行為趨勢分析和用戶分類等。

?????? 數據挖掘是一種決策支持過程，它通過高度自動化地分析企業的數據，做出歸納性的推理，從中挖掘出潛在的模式，幫助決策者調整市場策略，減少風險，做出正確的決策，這對于一個企業的發展十分重要。

總結

以上是生活随笔為你收集整理的数据挖掘之七种常用的方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： nodejs开发环境安装-连载【1】-企
下一篇：云计算服务包括哪三种服务？怎么定义？