日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换

發布時間:2025/5/22 编程问答 20 豆豆
生活随笔 收集整理的這篇文章主要介紹了 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

《數據挖掘:概念與技術(原書第2版)》

2.4 數據集成和變換

數據挖掘經常需要數據集成—合并來自多個數據存儲的數據。數據還可能需要轉換成適于挖掘的形式。本節介紹數據集成和數據變換。

2.4.1 數據集成

??數據分析任務多半涉及數據集成。數據集成合并多個數據源中的數據,存放在一個一致的數據存儲(如數據倉庫)中。這些數據源可能包括多個數據庫、數據立方體或一般文件。

??在數據集成時,有許多問題需要考慮。模式集成和對象匹配可能需要技巧。來自多個信息源的現實世界的等價實體如何才能匹配?這涉及實體識別問題。例如,數據分析者或計算機如何才能確信一個數據庫中的customer_id和另一個數據庫中的cust_number指的是相同的屬性?每個屬性的元數據包括名字、含義、數據類型和屬性的允許取值范圍,以及處理空白、零或null值的空值規則(見2.3節)。這樣的元數據可以用來幫助避免模式集成的錯誤。元數據還可以用來幫助變換數據(例如,pay_type的數據編碼在一個數據庫中可以是“H”和“S”,而在另一個數據庫中是12)。因此,這一步也與前面介紹的數據清理有關。

??冗余是另一個重要問題。一個屬性(如年收入)可能是冗余的,如果它能由另一個或另一組屬性“導出”。屬性或維命名的不一致也可能導致結果數據集中的冗余。

??有些冗余可以被相關分析檢測到。給定兩個屬性,這種分析可以根據可用的數據度量一個屬性能在多大程度上蘊涵另一個。對于數值屬性,通過計算屬性AB之間的相關系數(又稱皮爾遜積矩系數(Pearson?product coefficient,用發明者Karl Pearson的名字命名),我們可以估計這兩個屬性的相關度rA,B。即



??注意,相關并不意味因果關系。也就是說,如果AB是相關的,這并不意味A導致BB導致A。例如,在分析人口統計數據庫時,我們可能發現一個地區的醫院數與汽車盜竊數是相關的。這并不意味一個導致另一個。實際上,二者必然地關聯到第三個屬性—人口。

?

?

??統計檢驗假設AB是獨立的。檢驗基于顯著水平,具有(r1)×(c1)自由度。如果可以拒絕該假設,則我們說AB是統計相關的或關聯的。

??數據語義的異構和結構對數據集成提出了巨大挑戰。由多個數據源小心地集成數據能夠幫助降低和避免結果數據集中的冗余和不一致。這有助于提高其后挖掘過程的準確率和速度。

2.4.2數據變換

??數據變換將數據轉換或統一成適合于挖掘的形式。數據變換可能涉及如下內容:

n?光滑:去掉數據中的噪聲。這種技術包括分箱、回歸和聚類。

n?聚集:對數據進行匯總或聚集。例如,可以聚集日銷售數據,計算月和年銷售量。通常,這一步用來為多粒度數據分析構造數據立方體。

n?數據泛化:使用概念分層,用高層概念替換低層或“原始”數據。例如,分類的屬性,如街道,可以泛化為較高層的概念,如城市或國家。類似地,數值屬性如年齡,可以映射到較高層概念如青年、中年和老年。

n?規范化:將屬性數據按比例縮放,使之落入一個小的特定區間,如-1.01.00.01.0

n?屬性構造(或特征構造):可以構造新的屬性并添加到屬性集中,以幫助挖掘過程。

?

??通過將屬性值按比例縮放,使之落入一個小的特定區間,如0.01.0,對屬性規范化。對于涉及神經網絡或距離度量的分類算法(如最近鄰分類)和聚類,規范化特別有用。如果使用神經網絡后向傳播算法進行分類挖掘(見第6章),對于訓練元組中量度每個屬性的輸入值規范化將有助于加快學習階段的速度。對于基于距離的方法,規范化可以幫助防止具有較大初始值域的屬性(如income)與具有較小初始值域的屬性(如二元屬性)相比權重過大。

?

轉載于:https://www.cnblogs.com/itolssy/archive/2008/08/04/1260392.html

《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美第七页| 欧美一区自拍 | 色涩视频在线观看 | 亚洲综合激情网 | 久久综合丁香 | 91美女片黄在线观看91美女 | 欧美日韩国产亚洲一区 | 欧美啪视频 | 69影院少妇在线观看 | 超碰婷婷 | 久久国产乱子伦免费精品 | 国产精品成人3p一区二区三区 | 蜜桃视频在线观看www | 亚洲一区二区三区精品视频 | 制服丝袜一区 | 国产情侣久久久久aⅴ免费 caoporn成人 | 国产一区二区免费电影 | 手机在线一区二区三区 | 国产精品精品软件视频 | 欧美日韩生活片 | 新天堂av | 成人毛片基地 | 国产午夜福利在线播放 | 人人草在线视频 | 夜夜成人 | 欧美色图亚洲激情 | 狠狠干狠狠爱 | 爱情岛论坛永久入口 | 欧美久久久久久久久中文字幕 | 思思在线视频 | 国产毛片久久久久久久 | 亚洲日本欧美精品 | 羞羞的视频网站 | 337p嫩模大胆色肉噜噜噜 | av小说免费在线观看 | 四虎图库 | 91视频黄| 日本一区二区三区在线看 | 国产一区二区成人 | 亚洲成人麻豆 | 91网站在线免费看 | 色久综合网 | www色网| 中文字幕久久久久 | 久久对白 | 国产女主播在线播放 | 狠狠五月天 | tube国产麻豆| 亚洲美女高潮久久久 | 人人干超碰 | 免费av网址在线观看 | 99热这里只有精品在线观看 | 久久小草| 久久免费视频一区二区 | 久久青草免费视频 | 一区二区免费在线观看视频 | 久草手机在线视频 | 久久性爱视频网站 | 国产精品美女久久久久久久久 | 国产成人av一区二区三区不卡 | 日韩精品一区二区电影 | 免费亚洲一区 | 一二三区av | 国产视频第三页 | 成人看片网站 | av一二三区 | 中文字幕一区二区三区电影 | 亚洲宅男天堂 | 大象传媒成人在线观看 | 天天舔天天操 | 操一操干一干 | 男人和女人做爽爽视频 | 欧美人与性禽动交精品 | 精品国产精品网麻豆系列 | 欧美日韩在线播放视频 | 国产一区二区三区四区五区 | 涩涩爱在线| 国产色在线视频 | 国产精选一区 | 精品视频一区二区三区四区五区 | 一本色道久久hezyo无码 | 久草福利在线视频 | 欧美精彩视频 | 久久婷婷综合国产 | 亚洲最新网址 | 看全黄大色黄大片 | 国产97色在线 | 国产 | 欧美三极片| 91精产国品一二三区在线观看 | 国产av毛片| 日本欧美一本 | 日韩丝袜一区 | 人妖干美女| 国产日韩不卡 | 欧美性猛交xxx乱大交3蜜桃 | av福利在线看 | 日韩岛国片| 亚洲少妇毛片 | 成人h在线观看 |