日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )

發布時間:2025/6/17 编程问答 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 ) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

        • I . 預測建模 與 描述建模
        • II . 預測模型 與 函數映射
        • III . 預測模型的分類 ( 分類 | 回歸 )
        • IV . 預測建模 測試集
        • V . 預測建模 擬合過程
        • VI . 預測模型結構確定
        • VII . 基于分類的判別模型
        • VIII . 基于分類的概率模型
        • IX . 預測模型的評分函數
        • X . 基于回歸的預測模型



I . 預測建模 與 描述建模



1 . 預測建模 :


① 目的 : 根據現有的數據集的 若干 ( 1 個或多個 ) 屬性值 ( 特征值 / 變量 ) , 預測其它屬性值 ;

② 示例 : 分類 ;


2 . 描述建模 :


① 目的 : 根據現有數據集的 屬性值 ( 特征值 / 變量 ) , 對數據樣本進行概括 ;

② 示例 : 聚類 ;



II . 預測模型 與 函數映射



1 . 預測模型 :


① 模型形式 : 使用已知的變量 ( 屬性值 / 特征值 ) 表達 未知變量的函數 ;

② 已知變量 : 當前數據集中的樣本 , 已知的屬性的屬性值 ;

③ 未知變量 : 將要預測的屬性值 , 這個屬性值未知 ;

④ 函數映射 : 預測模型 建模的過程 , 可以看做一個函數映射的建立過程 ;


2 . 預測模型 與 函數映射 :


① 函數映射 : 預測模型的函數映射形式如下

Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)

② 函數形式 : fff 是預測模型 的 函數映射 的 函數形式 ;

③ 未知參數 : θ\thetaθ 代表未知的參數 , 每個已知變量前都有一個未知參數 ;

④ 已知參數 : XXX 表示當前數據集樣本的已知參數 , 又叫輸入變量 , 是矩陣形式的 , 如有 14 個樣本 , 每個樣本有 5 個屬性 , 那么該矩陣是一個 14 行 , 5 列的矩陣 ; 該值的本質是 5 維的 向量 ;

⑤ 預測結果 : YYY 表示預測結果 , 又叫響應變量 ; 該值的本質是 標量 ;



III . 預測模型的分類 ( 分類 | 回歸 )



1 . 預測模型分類 : 預測模型分為兩類 : 分類回歸 ;


Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)

① 分類 : 如果 YYY 值是離散值 , 是范疇型變量 , 那么這個 預測模型 叫做 分類 ; 從向量 XXX 到標量 YYY 映射的過程是 回歸 ;

② 回歸 : 如果 YYY 值是連續值 , 是數值型變量 , 那么這個 預測模型 叫做 回歸 ; 從向量 XXX 到標量 YYY 映射的過程是 分類 ;


2 . 函數逼近 :


① 分類和回歸本質 : PPP 維向量 XXX 到 標量 YYY 的映射 , 可以看做是 函數逼近問題 ;

PPP 說明 : 是數據集樣本已知屬性的個數 , 如 : 之前 14 個樣本 , 已知 年齡 , 是否是學生 , 收入 , 信用等級 , 4 個屬性 , 此處 P=4P=4P=4 ;



IV . 預測建模 測試集



1 . 預測建模相關數據集 : 預測建模中用到 3 類數據集 , 訓練集 , 測試集 , 新數據 ;


2 . 訓練集 : 訓練集中 , 每個樣本都由一對 (X,Y)(X , Y)(X,Y) 組成 , 其中 XXX 是向量 , 其代表已知的若干屬性值組成的向量 , YYY 代表標量 , 在訓練集中也是已知的 ;


3 . 訓練集數據示例 : 之前 14 個樣本 , 已知 年齡 , 是否是學生 , 收入 , 信用等級 , 4 個屬性值 , 組成向量 XXX , 是否購買商品 , 是 YYY 代表的變量 , 這樣組成了一對 (X,Y)(X, Y)(X,Y) 值 ; 訓練集中有 14 對 (X,Y)(X,Y)(X,Y) 值 ;


4 . 預測建模本質 : 根據 nnn 對訓練集樣本 (X,Y)(X , Y)(X,Y) 擬合出 Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 函數映射模型 ;


5 . Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 模型作用 : 給定 XXX 向量的值 , 和 θ\thetaθ 參數 , 可以預測出 YYY 值 ;



V . 預測建模 擬合過程



預測模型的擬合過程 :


① 預測模型 : Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ)

② 擬合過程 : 需要完成兩個工作 , 首先要確定模型 fff 結構 , 然后確定參數 θ\thetaθ 值 ;

③ 模型 fff 確定 : 確定 需要確定模型 fff 結構 , 即函數的格式 , 線性模型 , 還是二次函數 , nnn 次函數 等其它形式 ; 先找到使用的模型 ;

④ 參數 θ\thetaθ 確定 : 這是數據挖掘算法的核心部分 ;

⑤ 評分函數 : 評分函數值達到最大 ( 最小 ) 確定參數 θ\thetaθ 值 ; 如 似然函數 ( 評分函數值越大越好 ) , 誤差平方和 ( 評分函數值越小越好 ) ;

⑥ 優化過程 : 搜索確定參數值 θ\thetaθ 的過程是優化過程 ;


預測模型擬合過程 , 需要確定 模型結構參數 , 確定參數時 , 需要確定 評分函數 , 和 搜索優化算法 ;



VI . 預測模型結構確定



1 . 預測模型結構 : 預測模型結構是 Y=f(X;θ)Y=f (X ; \theta)Y=f(X;θ) 函數映射形式 , 模型建立時 , 不知道該映射的 結構形式 和 參數值 , 首先要確定其函數的結構形式 ;


① 模型基礎 : 預測模型中的 回歸模型 和 分類模型 都基于 數學 和 統計學 建立的 ;

② 模型可互用 : 分類模型結構 也可以用于 回歸模型 , 反之也適用 ;



VII . 基于分類的判別模型



分類模型 分為兩種 , 判別模型 和 概率模型 ;


1 . 判別模型 :

① 輸入向量 : XXX , 是一個向量 ; XXX 是數據集樣本的某些已知屬性值組成的向量 ;

② 響應變量 : YYY , 是一個標量 ; YYY 取值是某個屬性類別的單個取值 ; 假設該屬性類別的屬性的取值可以是 {C1,C2,?,C3}\{C_1 , C_2 , \cdots , C_3\}{C1?,C2?,?,C3?} ;


2 . XXX向量維數為 1 時 :


① 數據集樣本 : 數據集中的樣本已知屬性是 2 個 , 一個是已知的輸入向量 XXX , 一個是未知的 , 需要預測的響應變量 YYY ;

② 判別模型 : 此時模型是二維坐標系中的 分段直線 ; 某個 XXX 1 維向量 ( 1 個數值 ) 對應某個 YYY 值 ;

③ 決策區域 ( 線段 ) : XXX 向量的唯一值 , 位于某兩個數值范圍內 , YYY 取值為 Ci(0≤i≤m)C_i ( 0 \leq i \leq m )Ci?(0im) ;


3 . XXX向量維數為 2 時 :


① 數據集樣本 : 數據集中的樣本已知屬性是 3 個 , 一個是已知的輸入向量 XXX ( 有兩個屬性值 ) , 一個是未知的 , 需要預測的響應變量 YYY ;

② 判別模型 : 此時模型是三維空間中的 分段曲面 ; 某個 XXX 2 維向量 ( 2 個數值 ) 對應某個 YYY 值 ;

③ 決策區域 ( 平面 ) : XXX 向量的兩個屬性值 X1X_1X1?X2X_2X2? 構成的點 , 位于某個平面時 , 其 YYY 值取值為 Ci(0≤i≤m)C_i ( 0 \leq i \leq m )Ci?(0im) ;


4 . 決策區域 : 未知屬性 的 取值為某個屬性值 CiC_iCi? 的所有區域 , 聯合在一起 , 稱為 CiC_iCi? 取值的決策區域 ;


① 決策預測機制 : 輸入變量 XXX 向量 , 符合 CiC_iCi? 決策區域要求 , 那么最終被預測的屬性值 YYY 標量 , 就會被預測成 CiC_iCi? 值 ;

② 判別模型分類本質 : 在判別模型中的分類任務 , 就是確定各個被預測的取值 CiC_iCi? 的 決策區域 是什么 , 即 這些 決策區域的 邊界是什么 ;



VIII . 基于分類的概率模型



分類模型 分為兩種 , 判別模型 和 概率模型 ;


1 . 概率模型 :


① 未知屬性類別取值 : 未知屬性的每個取值類別為 CiC_iCi? ,

② 參數 : θi\theta_iθi? 是函數參數 , 該參數反應 CiC_iCi? 的類型特征 ;

③ 概率模型函數 : 其函數模型為 分部 或 密度函數 ρ(X∣Ci,θi)\rho ( X | C_i , \theta_i )ρ(XCi?,θi?) ;


2 . θi\theta_iθi? 參數說明 :


① 連續取值 ( XXX 向量中的數值取值 ) : 輸入變量 XXX 向量代表的屬性值的取值是連續的值 ( 如 : 實數 , 自然數 等 ) ;

② 取值分布 ( XXX 向量中的數值取值 ) : 每個已知的屬性值的模型結構都是 多元正態分布 ;

θi\theta_iθi? 表示每個屬性類別取值的 均值 和 方差特征 ;

④ 與決策區域對應 : 均值相當于決策區域的中心點位置 , 方差相當于決策區域范圍大小 ;


3 . 舉例說明 :


① 決策區域距離大 : 這些決策區域離得很遠 , 各個取值的均值也很遠 ;

② 決策區域范圍小 : 決策范圍也很小 , 相應的方差也很小 ;

③ 分類容易且準確 : 那么最終可以很好的將數據集進行準確的分類 ;



IX . 預測模型的評分函數



1 . 分類模型 : 常用 誤分類率 作為評分函數 ;


2 . 回歸模型 : 常用 誤差平方和 作為評分函數 ;



X . 基于回歸的預測模型



1 . 基于回歸的預測模型 : 線性回歸模型 , 非線性回歸模型 , 分段線性模型 ;


2 . 線性回歸模型 : 二維空間 直線 , 三維空間 平面 , 四維空間 超平面 ;


① 預測模型結構為 : Y=a0+a1X1+a2X2+?+apXpY = a_0 + a_1X_1 + a_2X_2 + \cdots + a_pX_pY=a0?+a1?X1?+a2?X2?+?+ap?Xp?

② 預測值與實際值分布 : 模型的預測值 , 與實際觀察的值 , 可能存在不一致 , 實際的值可能在模型預測值的周圍分布 ;


3 . 非線性回歸模型 : 預測模型結構為 Y=a0+a1X1+a2X22+?+apXp3Y = a_0 + a_1X_1 + a_2X_2^2 + \cdots + a_pX_p^3Y=a0?+a1?X1?+a2?X22?+?+ap?Xp3?


4 . 分段線性模型 : 將簡單的模型 , 分段組合起來構成復雜的模型 ;


① 局部線性函數 : 輸入向量 XXX 與 相應變量 YYY 是局部的線性函數 ;

② 分段函數 : 該分段線性模型 , 在不同區域內 , 有不同的函數形式 ;

總結

以上是生活随笔為你收集整理的【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。