日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 综合教程 >内容正文

综合教程

(六)数据精简之(数据记录精简)

發布時間:2024/1/3 综合教程 32 生活家
生活随笔 收集整理的這篇文章主要介紹了 (六)数据精简之(数据记录精简) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

數據精簡之數據記錄精簡方法

1.數據記錄精簡的需求
  ? 隨著數據表中的數據記錄愈來愈多,有兩個問題會浮現出來
    ? 整個數據挖掘所需的時間將跟著拉長
    ? 所有統計的方法通通失效
2.數據記錄精簡對所獲得的知識影響
  ? 求得之知識可能多少有些誤差
  ? 然而當數據集合中存在無關、偏差的數據記錄時,將數據記錄作適當的精簡,將能獲得更準確有效的知識

3.數據記錄精簡常用方法

(1)統計方法中抽樣(Sampling)的作法
  ? 數據集合中抽取部分的數據記錄樣本來代表整個數據集合母體
    ? 隨機抽樣(Random Sampling):有放回,無放回。

      

    ? 分層抽樣(Stratified Sampling):針對數據集合中同構型高且互不重迭的分層,各自進行隨機抽樣。將各分層的抽樣結果結合成一個樣本。

      

    ? 聚類抽樣(Cluster Sampling):利用聚類技術,將整個數據集合分成數個群集,使得每個群集中的記錄相似度很高,不同群集間的記錄相似度很低隨機由這些群集中選取數個群集形成樣本。

    

    ? 系統抽樣(Systematic Sampling):假設數據集合中的數據記錄筆數為N,而所需之樣本數據記錄筆數為n,則系統抽樣的方式首先隨機由1~N/n之間選取一個數字;假設所選取的數字為k,以k開始,每N/n個間隔 (interval),將相對應的數據記錄選取進樣本之中。

    

    ? 兩階段式抽樣(Two-Phase Sampling)

進行兩個階段的抽樣選取以決定樣本
? 第一階段首先由數據集合中隨機抽樣出一個較大的樣本,接著將第一階段中所得到的樣本當成數據集合,進行第二階段的抽樣
? 兩階段式抽樣可以延伸成多階段式抽樣(Multi-Phase Sampling)

總結

以上是生活随笔為你收集整理的(六)数据精简之(数据记录精简)的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。