数据挖掘导论读书笔记1
數(shù)據(jù)預(yù)處理:
1.聚集:將兩個或者多個對象合并成單個對象。
?2.抽樣:一種選擇數(shù)據(jù)對象子集進行分析的常用方法。抽象方法:簡單隨機抽樣?和漸進抽樣
3.維度約:我覺得翻譯的不好,英文明細是降維。降維技術(shù):1.PCA(Principal components Analysis)是一種用于連續(xù)屬性的線性代數(shù)技術(shù),它找出新的屬性,這些屬性是原屬性的線性組合,是相互正交的,并且捕獲了數(shù)據(jù)的最大變差。2.SVD(Singular Value Decomposition)
4.特征子集選擇?a:嵌入方法?b:過濾方法?c:包裝方法
5.特征創(chuàng)建:由原來的屬性創(chuàng)建新的屬性。a.特征提取 b.映射數(shù)據(jù)到新的空間?c.特征構(gòu)造
6.離散化和二元化
? 離散化:將連續(xù)屬性變換成分類屬性
? 二元化:連續(xù)和離散屬性變換成一個或者朵兒二元屬性
7.變量變換:用戶變量的所有值的變換
簡單函數(shù)
規(guī)范化或者標準化
?
相似度和相異性的度量
1.簡單屬性之間的相似度和相異度
標稱的
序數(shù)的
區(qū)間的或者比率的
?
2.數(shù)據(jù)對象之間的相異度
歐幾里得距離
閔克夫斯基距離
3.數(shù)據(jù)對象之間的相似度
余弦相似度
Jaccard相似度
Bregman散度
?
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/9662496.html
總結(jié)
以上是生活随笔為你收集整理的数据挖掘导论读书笔记1的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知识图谱在互联网金融中的应用
- 下一篇: 数据挖掘导论读书笔记2