【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )
文章目錄
- I . 預測建模 與 描述建模
- II . 預測模型 與 函數映射
- III . 預測模型的分類 ( 分類 | 回歸 )
- IV . 預測建模 測試集
- V . 預測建模 擬合過程
- VI . 預測模型結構確定
- VII . 基于分類的判別模型
- VIII . 基于分類的概率模型
- IX . 預測模型的評分函數
- X . 基于回歸的預測模型
I . 預測建模 與 描述建模
1 . 預測建模 :
① 目的 : 根據現有的數據集的 若干 ( 1 個或多個 ) 屬性值 ( 特征值 / 變量 ) , 預測其它屬性值 ;
② 示例 : 分類 ;
2 . 描述建模 :
① 目的 : 根據現有數據集的 屬性值 ( 特征值 / 變量 ) , 對數據樣本進行概括 ;
② 示例 : 聚類 ;
II . 預測模型 與 函數映射
1 . 預測模型 :
① 模型形式 : 使用已知的變量 ( 屬性值 / 特征值 ) 表達 未知變量的函數 ;
② 已知變量 : 當前數據集中的樣本 , 已知的屬性的屬性值 ;
③ 未知變量 : 將要預測的屬性值 , 這個屬性值未知 ;
④ 函數映射 : 預測模型 建模的過程 , 可以看做一個函數映射的建立過程 ;
2 . 預測模型 與 函數映射 :
① 函數映射 : 預測模型的函數映射形式如下
Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)
② 函數形式 : fff 是預測模型 的 函數映射 的 函數形式 ;
③ 未知參數 : θ\thetaθ 代表未知的參數 , 每個已知變量前都有一個未知參數 ;
④ 已知參數 : XXX 表示當前數據集樣本的已知參數 , 又叫輸入變量 , 是矩陣形式的 , 如有 14 個樣本 , 每個樣本有 5 個屬性 , 那么該矩陣是一個 14 行 , 5 列的矩陣 ; 該值的本質是 5 維的 向量 ;
⑤ 預測結果 : YYY 表示預測結果 , 又叫響應變量 ; 該值的本質是 標量 ;
III . 預測模型的分類 ( 分類 | 回歸 )
1 . 預測模型分類 : 預測模型分為兩類 : 分類 和 回歸 ;
Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)
① 分類 : 如果 YYY 值是離散值 , 是范疇型變量 , 那么這個 預測模型 叫做 分類 ; 從向量 XXX 到標量 YYY 映射的過程是 回歸 ;
② 回歸 : 如果 YYY 值是連續值 , 是數值型變量 , 那么這個 預測模型 叫做 回歸 ; 從向量 XXX 到標量 YYY 映射的過程是 分類 ;
2 . 函數逼近 :
① 分類和回歸本質 : 從 PPP 維向量 XXX 到 標量 YYY 的映射 , 可以看做是 函數逼近問題 ;
② PPP 說明 : 是數據集樣本已知屬性的個數 , 如 : 之前 14 個樣本 , 已知 年齡 , 是否是學生 , 收入 , 信用等級 , 4 個屬性 , 此處 P=4P=4P=4 ;
IV . 預測建模 測試集
1 . 預測建模相關數據集 : 預測建模中用到 3 類數據集 , 訓練集 , 測試集 , 新數據 ;
2 . 訓練集 : 訓練集中 , 每個樣本都由一對 (X,Y)(X , Y)(X,Y) 組成 , 其中 XXX 是向量 , 其代表已知的若干屬性值組成的向量 , YYY 代表標量 , 在訓練集中也是已知的 ;
3 . 訓練集數據示例 : 之前 14 個樣本 , 已知 年齡 , 是否是學生 , 收入 , 信用等級 , 4 個屬性值 , 組成向量 XXX , 是否購買商品 , 是 YYY 代表的變量 , 這樣組成了一對 (X,Y)(X, Y)(X,Y) 值 ; 訓練集中有 14 對 (X,Y)(X,Y)(X,Y) 值 ;
4 . 預測建模本質 : 根據 nnn 對訓練集樣本 (X,Y)(X , Y)(X,Y) 擬合出 Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 函數映射模型 ;
5 . Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 模型作用 : 給定 XXX 向量的值 , 和 θ\thetaθ 參數 , 可以預測出 YYY 值 ;
V . 預測建模 擬合過程
預測模型的擬合過程 :
① 預測模型 : Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)
② 擬合過程 : 需要完成兩個工作 , 首先要確定模型 fff 結構 , 然后確定參數 θ\thetaθ 值 ;
③ 模型 fff 確定 : 確定 需要確定模型 fff 結構 , 即函數的格式 , 線性模型 , 還是二次函數 , nnn 次函數 等其它形式 ; 先找到使用的模型 ;
④ 參數 θ\thetaθ 確定 : 這是數據挖掘算法的核心部分 ;
⑤ 評分函數 : 評分函數值達到最大 ( 最小 ) 確定參數 θ\thetaθ 值 ; 如 似然函數 ( 評分函數值越大越好 ) , 誤差平方和 ( 評分函數值越小越好 ) ;
⑥ 優化過程 : 搜索確定參數值 θ\thetaθ 的過程是優化過程 ;
預測模型擬合過程 , 需要確定 模型結構 和 參數 , 確定參數時 , 需要確定 評分函數 , 和 搜索優化算法 ;
VI . 預測模型結構確定
1 . 預測模型結構 : 預測模型結構是 Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 函數映射形式 , 模型建立時 , 不知道該映射的 結構形式 和 參數值 , 首先要確定其函數的結構形式 ;
① 模型基礎 : 預測模型中的 回歸模型 和 分類模型 都基于 數學 和 統計學 建立的 ;
② 模型可互用 : 分類模型結構 也可以用于 回歸模型 , 反之也適用 ;
VII . 基于分類的判別模型
分類模型 分為兩種 , 判別模型 和 概率模型 ;
1 . 判別模型 :
① 輸入向量 : XXX , 是一個向量 ; XXX 是數據集樣本的某些已知屬性值組成的向量 ;
② 響應變量 : YYY , 是一個標量 ; YYY 取值是某個屬性類別的單個取值 ; 假設該屬性類別的屬性的取值可以是 {C1,C2,?,C3}\{C_1 , C_2 , \cdots , C_3\}{C1?,C2?,?,C3?} ;
2 . XXX向量維數為 1 時 :
① 數據集樣本 : 數據集中的樣本已知屬性是 2 個 , 一個是已知的輸入向量 XXX , 一個是未知的 , 需要預測的響應變量 YYY ;
② 判別模型 : 此時模型是二維坐標系中的 分段直線 ; 某個 XXX 1 維向量 ( 1 個數值 ) 對應某個 YYY 值 ;
③ 決策區域 ( 線段 ) : 當 XXX 向量的唯一值 , 位于某兩個數值范圍內 , YYY 取值為 Ci(0≤i≤m)C_i ( 0 \leq i \leq m )Ci?(0≤i≤m) ;
3 . XXX向量維數為 2 時 :
① 數據集樣本 : 數據集中的樣本已知屬性是 3 個 , 一個是已知的輸入向量 XXX ( 有兩個屬性值 ) , 一個是未知的 , 需要預測的響應變量 YYY ;
② 判別模型 : 此時模型是三維空間中的 分段曲面 ; 某個 XXX 2 維向量 ( 2 個數值 ) 對應某個 YYY 值 ;
③ 決策區域 ( 平面 ) : 當 XXX 向量的兩個屬性值 X1X_1X1? 和 X2X_2X2? 構成的點 , 位于某個平面時 , 其 YYY 值取值為 Ci(0≤i≤m)C_i ( 0 \leq i \leq m )Ci?(0≤i≤m) ;
4 . 決策區域 : 未知屬性 的 取值為某個屬性值 CiC_iCi? 的所有區域 , 聯合在一起 , 稱為 CiC_iCi? 取值的決策區域 ;
① 決策預測機制 : 輸入變量 XXX 向量 , 符合 CiC_iCi? 決策區域要求 , 那么最終被預測的屬性值 YYY 標量 , 就會被預測成 CiC_iCi? 值 ;
② 判別模型分類本質 : 在判別模型中的分類任務 , 就是確定各個被預測的取值 CiC_iCi? 的 決策區域 是什么 , 即 這些 決策區域的 邊界是什么 ;
VIII . 基于分類的概率模型
分類模型 分為兩種 , 判別模型 和 概率模型 ;
1 . 概率模型 :
① 未知屬性類別取值 : 未知屬性的每個取值類別為 CiC_iCi? ,
② 參數 : θi\theta_iθi? 是函數參數 , 該參數反應 CiC_iCi? 的類型特征 ;
③ 概率模型函數 : 其函數模型為 分部 或 密度函數 ρ(X∣Ci,θi)\rho ( X | C_i , \theta_i )ρ(X∣Ci?,θi?) ;
2 . θi\theta_iθi? 參數說明 :
① 連續取值 ( XXX 向量中的數值取值 ) : 輸入變量 XXX 向量代表的屬性值的取值是連續的值 ( 如 : 實數 , 自然數 等 ) ;
② 取值分布 ( XXX 向量中的數值取值 ) : 每個已知的屬性值的模型結構都是 多元正態分布 ;
③ θi\theta_iθi? 表示每個屬性類別取值的 均值 和 方差特征 ;
④ 與決策區域對應 : 均值相當于決策區域的中心點位置 , 方差相當于決策區域范圍大小 ;
3 . 舉例說明 :
① 決策區域距離大 : 這些決策區域離得很遠 , 各個取值的均值也很遠 ;
② 決策區域范圍小 : 決策范圍也很小 , 相應的方差也很小 ;
③ 分類容易且準確 : 那么最終可以很好的將數據集進行準確的分類 ;
IX . 預測模型的評分函數
1 . 分類模型 : 常用 誤分類率 作為評分函數 ;
2 . 回歸模型 : 常用 誤差平方和 作為評分函數 ;
X . 基于回歸的預測模型
1 . 基于回歸的預測模型 : 線性回歸模型 , 非線性回歸模型 , 分段線性模型 ;
2 . 線性回歸模型 : 二維空間 直線 , 三維空間 平面 , 四維空間 超平面 ;
① 預測模型結構為 : Y=a0+a1X1+a2X2+?+apXpY = a_0 + a_1X_1 + a_2X_2 + \cdots + a_pX_pY=a0?+a1?X1?+a2?X2?+?+ap?Xp?
② 預測值與實際值分布 : 模型的預測值 , 與實際觀察的值 , 可能存在不一致 , 實際的值可能在模型預測值的周圍分布 ;
3 . 非線性回歸模型 : 預測模型結構為 Y=a0+a1X1+a2X22+?+apXp3Y = a_0 + a_1X_1 + a_2X_2^2 + \cdots + a_pX_p^3Y=a0?+a1?X1?+a2?X22?+?+ap?Xp3?
4 . 分段線性模型 : 將簡單的模型 , 分段組合起來構成復雜的模型 ;
① 局部線性函數 : 輸入向量 XXX 與 相應變量 YYY 是局部的線性函數 ;
② 分段函數 : 該分段線性模型 , 在不同區域內 , 有不同的函數形式 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】决策树 分类 ( 抽取分类规
- 下一篇: 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器