【数据挖掘笔记三】数据预处理
?
3.數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理技術(shù):
數(shù)據(jù)清理用來清除數(shù)據(jù)中的噪聲,糾正不一致;
數(shù)據(jù)集成將數(shù)據(jù)由多個數(shù)據(jù)源合并成一個一致的數(shù)據(jù)存儲,如數(shù)據(jù)倉庫;
數(shù)據(jù)歸約通過如聚集、刪除冗余特征或聚類來降低數(shù)據(jù)的規(guī)模;
數(shù)據(jù)變換(如規(guī)范化)把數(shù)據(jù)壓縮到較小的區(qū)間,如[0,1],可以提高涉及距離度量的挖掘算法的準(zhǔn)確率和效率。
3.1數(shù)據(jù)預(yù)處理:概述
數(shù)據(jù)質(zhì)量的三要素:準(zhǔn)確性、完整性和一致性。然而,現(xiàn)實(shí)世界的大型數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)都有不正確、不完整、不一致的特點(diǎn),其原因或是由于采集錯誤、或是人為掩蓋缺失、或由于格式不一致、或由于數(shù)據(jù)無法得到等。
影響數(shù)據(jù)質(zhì)量的還有時效性(timeliness)、可信性(believability)、可解釋性(interpretability)。
數(shù)據(jù)處理的主要步驟:
1)數(shù)據(jù)清零(datacleaning),通過填寫缺失的值,光滑噪聲數(shù)據(jù),識別或刪除離群點(diǎn),并解決不一致性來清理數(shù)據(jù)。
2)數(shù)據(jù)集成(dataintegration),集成多個數(shù)據(jù)庫、數(shù)據(jù)立方體或文本。
在為數(shù)據(jù)倉庫準(zhǔn)備數(shù)據(jù)時,數(shù)據(jù)清理和集成作為預(yù)處理步驟進(jìn)行。
3)數(shù)據(jù)歸約(datareduction),得到數(shù)據(jù)集的簡化表示,小得多,但能夠產(chǎn)生同樣或接近的分析結(jié)果,數(shù)據(jù)歸約策略包括維歸約和數(shù)值歸約。
在維歸約中,使用數(shù)據(jù)編碼方案,可得到原始數(shù)據(jù)的簡化或壓縮表示,包括數(shù)據(jù)壓縮技術(shù)小波變換和主成分分析,以及屬性子集選擇和屬性構(gòu)造。
在數(shù)值歸約中,使用參數(shù)模型,如歸回和對數(shù)線性模型,或非參數(shù)模型,如直方圖、聚類、抽樣或數(shù)據(jù)聚集,用較小的表示取代數(shù)據(jù)。
4)數(shù)據(jù)變換(datatransformation),規(guī)劃化、數(shù)據(jù)離散化和概念分層。
現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。這句話中,去掉數(shù)據(jù)兩個字,意思也是一樣的吧。數(shù)據(jù)預(yù)處理就是可以改進(jìn)數(shù)據(jù)質(zhì)量,從而有助于其后挖掘的準(zhǔn)確率和效率。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識發(fā)現(xiàn)過程的重要步驟。檢測數(shù)據(jù)異常,盡早地調(diào)整數(shù)據(jù),并歸約待分析的數(shù)據(jù),將為決策帶來高回報(bào)。
3.2數(shù)據(jù)清理
數(shù)據(jù)清理一般工作是填充缺失的值、光滑噪聲并識別離群點(diǎn)、糾正數(shù)據(jù)中的不一致。
1)缺失值
填充屬性值缺失的方法有:
a、忽略元組:當(dāng)缺少類標(biāo)號時可如此處理。忽略元組,等于該元組的剩余屬性值也拋棄;
b、人工填充缺失值;
c、使用一個全局常量填充缺失值;
d、使用屬性的中心度量(如均值或中位數(shù))填充缺失值;
e、使用與給定元組屬同一類的所有樣本屬性均值或中位數(shù);
f、使用最可能的值填充缺失值:可用回歸、貝葉斯、決策樹等模型來推理歸納確定。
2)噪聲數(shù)據(jù)
噪聲(noise)是被測量的變量的隨機(jī)誤差或方差。數(shù)據(jù)光滑技術(shù):
a、分箱(binning):通過考察數(shù)據(jù)的近鄰(即周圍的值)來光滑有序數(shù)據(jù)值。分箱方法實(shí)現(xiàn)局部光滑,將有序的值分布到桶或箱中,可用箱均值光滑、箱中位數(shù)光滑、箱邊界光滑;
b、回歸(regression):用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。線性回歸和多元線性回歸。
c、離群點(diǎn)分析(outlier analysis):用聚類檢測離群點(diǎn)。聚類將類似的值組織成群或簇,落在簇集合之外的值是離群點(diǎn)。
數(shù)據(jù)光滑方法用于數(shù)據(jù)離散化(一種數(shù)據(jù)變換形式)和數(shù)據(jù)歸約。
3)數(shù)據(jù)清理作為一個過程
缺失值、噪聲和不一致性導(dǎo)致不正確的數(shù)據(jù),在處理缺失值和光滑噪聲技術(shù)上,進(jìn)一步將數(shù)據(jù)清理作為一個過程來看待,就是偏差檢測(discrepancy detection)和數(shù)據(jù)變換(糾正偏差)兩步迭代執(zhí)行。
檢測偏差還要根據(jù)唯一性原則、連續(xù)性原則和空值原則,也依賴功數(shù)據(jù)清洗工具(data scrubbing tool)和數(shù)據(jù)審計(jì)工具(data auditingtool)。
數(shù)據(jù)變換也用數(shù)據(jù)遷移工具(data migration tool)和ETL(Extraction/Transformation/Loading)。
3.3數(shù)據(jù)集成
數(shù)據(jù)集成是合并來自多個數(shù)據(jù)存儲的數(shù)據(jù)。良好的集成有助于減少數(shù)據(jù)集的冗余和不一致,提供后面挖掘過程的準(zhǔn)確性和速度。不過數(shù)據(jù)語義的多樣性和結(jié)構(gòu)對數(shù)據(jù)集成帶來挑戰(zhàn)。
1)實(shí)體識別問題
實(shí)體識別問題指的是在集成時,一個數(shù)據(jù)庫的屬性和另一個數(shù)據(jù)庫的屬性匹配問題。
2)冗余和相關(guān)分析
如果一個屬性能有另一個或另一組屬性所推導(dǎo)出,則該屬性是冗余的。冗余可通過相關(guān)分析檢測到。給定兩個屬性,相關(guān)分析可以度量一個屬性和另一個屬性的蘊(yùn)含關(guān)系。
3)元組重復(fù)
元組重復(fù),要去掉重復(fù)的行。
4)數(shù)據(jù)值沖突的檢測和處理
同一屬性,單位不同可能導(dǎo)致數(shù)據(jù)值的沖突,需要檢測和處理。
3.4數(shù)據(jù)歸約
數(shù)據(jù)歸約(datareduction)技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,小得多,但接近于保持原始數(shù)據(jù)的完整性。
1)數(shù)據(jù)歸約策略概述
維歸約(dimensionalityreduction)減少所考慮的隨機(jī)變量或?qū)傩缘膫€數(shù),方法包括小波變換、主成分分析,把原數(shù)據(jù)變換或投影到較小的空間。屬性子集選擇也是一種維歸約方法,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測或刪除。
數(shù)量歸約(numerosityreduction)用替代的、較小的數(shù)據(jù)表示形式替換原始數(shù)據(jù),包括參數(shù)方法和非參數(shù)方法。參數(shù)方法,使用模型估計(jì)數(shù)據(jù),使得一般只需要存放模型參數(shù),而不是實(shí)際數(shù)據(jù)(離群點(diǎn)可能也要存放),如回歸和對數(shù)-線性模型;非參數(shù)方法包括直方圖、聚類、抽樣和數(shù)據(jù)立方體聚集。
數(shù)據(jù)壓縮(datacompression)使用變換,以便得到原數(shù)據(jù)的歸約或壓縮表示。如果原數(shù)據(jù)能夠從壓縮后的數(shù)據(jù)重構(gòu),而不損失信息,則該數(shù)據(jù)歸約稱為無損的;如果只能近似重構(gòu)原數(shù)據(jù),則該數(shù)據(jù)歸約稱為有損的。
2)小波變換
離散小波變換(DWT)是一種線性信號處理技術(shù),用于數(shù)據(jù)向量X時,將它變換成不同的數(shù)值小波向量X*。兩個向量具有相同的長度,當(dāng)這種技術(shù)用于數(shù)據(jù)歸約時,每個元組看做一個n維數(shù)據(jù)向量,即X=(x1,x2,…,xn),描述n個數(shù)據(jù)庫屬性在元組上的n個測量值。
雖然小波變換后的向量維度不變,但小波變換后僅存放一部分最強(qiáng)的小波系數(shù),就可保留近似的壓縮數(shù)據(jù)。如保留大于用戶設(shè)定閾值的小波系數(shù),而不滿足的置為0,這樣可利用數(shù)據(jù)稀疏特點(diǎn)計(jì)算。小波變換技術(shù)可用于消除噪聲,而不會光滑掉數(shù)據(jù)的主要特征,因此可以有效用于數(shù)據(jù)清理。給定一組系數(shù),使用所用的DWT的逆,可構(gòu)造原數(shù)據(jù)的近似。
DWT和離散傅里葉變換(DFT)有密切關(guān)系。DFT是一種涉及正弦和余弦的信號處理技術(shù)。一般來說,DWT也是一種有損壓縮技術(shù)。對于給定的數(shù)據(jù)向量,如果DWT和DFT保留相同數(shù)目的系數(shù),則DWT將提供原數(shù)據(jù)更準(zhǔn)確的近似。因此,對于相同的近似,DWT所需空間小于DFT。與DFT相較,小波空間局部性相當(dāng)好,有助于保留局部細(xì)節(jié)。只有一種DFT,但有若干族DWT。
DWT一般使用層次金字塔算法(pyramid algorithm),在每次迭代時將數(shù)據(jù)減半,導(dǎo)致計(jì)算速度很快,過程如下:
?? 輸入數(shù)據(jù)向量的長度L(2的整數(shù)冪),可在數(shù)據(jù)向量加0滿足這一條件(L≥n),n是實(shí)際向量維度;
?? 每個變換應(yīng)用兩個函數(shù),一個是數(shù)據(jù)光滑函數(shù),如求和或加權(quán)平均;一個是提取數(shù)據(jù)細(xì)節(jié)特征,如加權(quán)差分;
?? 兩個函數(shù)作用于X中的數(shù)據(jù)點(diǎn)對,即作用于所有的測量對(x2i,x2i+1),生成出兩個L/2長度的數(shù)據(jù)集;
?? 兩個函數(shù)遞歸地作用于前面循環(huán)得到的數(shù)據(jù)集,直到得到的結(jié)果數(shù)據(jù)集的長度為2;
?? 由以上迭代的數(shù)據(jù)集中選擇的值被指定為數(shù)據(jù)變換的小波系數(shù)。
等價地,可以將矩陣乘法用于輸入數(shù)據(jù),以得到小波系數(shù)。所用的矩陣依賴于給定的DWT。矩陣必須使標(biāo)準(zhǔn)正交的,即它們的列是單位向量并相互正交,使得矩陣的逆是它的轉(zhuǎn)置。通過將矩陣分解成幾個稀疏矩陣的乘積,對于長度為n的輸入向量,快速DWT算法的復(fù)雜度為O(n)。
小波變換可用于多維數(shù)據(jù),如數(shù)據(jù)立方體,計(jì)算復(fù)雜性關(guān)于立方體中單元的個數(shù)是線性的。對于稀疏或傾斜數(shù)據(jù)和具有有序?qū)傩缘臄?shù)據(jù),小波變換效果比較耗。小波變換的有損壓縮優(yōu)于JPEG壓縮,也有很多實(shí)際應(yīng)用,如指紋圖像壓縮、計(jì)算機(jī)視覺、時間序列分析和數(shù)據(jù)清理。
3)主成分分析
假設(shè)待歸約的數(shù)據(jù)由用n個屬性或維描述的元組或數(shù)據(jù)向量組成。主成分分析(principalcomponents analysis)PCA(也稱Karhunen-Loeve,K-L方法)搜索k個最能代表數(shù)據(jù)的n維正交向量,其中k≤n。將原數(shù)據(jù)投影到一個小得多的空間上,實(shí)現(xiàn)維歸約。
PCA基本過程如下:
?? 規(guī)范化輸入數(shù)據(jù),使得每個屬性都落入相同的區(qū)間,避免具有較大定義域的屬性不會支配具有較小定義域的屬性;
?? PCA計(jì)算k個標(biāo)準(zhǔn)正交向量,作為規(guī)范化輸入數(shù)據(jù)的基。這些是單位向量,每一個都垂直于其他向量,這些向量稱為主成分,輸入數(shù)據(jù)是主成分的線性組合;
?? 對主成分按重要性或強(qiáng)度降序排列,主成分本質(zhì)上充當(dāng)數(shù)據(jù)的新坐標(biāo)系,提供關(guān)于方差的重要信息,就是說,多坐標(biāo)軸進(jìn)行排序,使得第一個坐標(biāo)軸顯示數(shù)據(jù)的最大方差,第二顯示數(shù)據(jù)的次大方差,如此下去,可識別數(shù)據(jù)中的組群或模式;
?? 主成分根據(jù)重要性降序排列,可以去掉較弱成分(即方差較小的)來歸約數(shù)據(jù),使用最強(qiáng)的主成分,可重構(gòu)元數(shù)據(jù)。
PCA可用于有序或無序的屬性,并且可以處理稀疏和傾斜數(shù)據(jù)。多于二維的多維數(shù)據(jù)可通過將問題歸約為二維來處理。主成分用于多元回歸和聚類分析的輸入。與小波變換相比,PCA能夠更好地處理稀疏數(shù)據(jù),而小波變換更適合高維數(shù)據(jù)。
4)屬性子集選擇
屬性子集選擇通過刪除不相關(guān)或冗余的屬性(或維)來減少數(shù)據(jù)量。屬性子集選擇的目標(biāo)是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性得到的原分布。
找出最佳屬性子集顯然是最重要的。對于n個屬性來說,有2n個可能子集,窮舉搜索不現(xiàn)實(shí)。對于屬性子集選擇,通常使用壓縮搜索空間的啟發(fā)式算法。通過局部最優(yōu)選擇,獲得全局最優(yōu)解,或逼近最優(yōu)解。
評估屬性可通過統(tǒng)計(jì)顯著性檢驗(yàn)來確定,這種檢驗(yàn)假定屬性是相互獨(dú)立的。也通過使用屬性評估度量,如分類決策樹所用的信息增益度量。屬性子集選擇的基本啟發(fā)式方法包括:
?? 逐步向前選擇:由空屬性集作為歸約集開始,確定原屬性集中最好的屬性,并將它添加到歸約集中,在其后的每一次迭代中,將剩下的原屬性集中的最好的屬性添加到該集合中;
?? 逐步向后刪除:由整個屬性集開始,在每一步中,刪除尚在屬性集中最差的屬性;
?? 逐步向前選擇和向后刪除的組合:將逐步向前選擇和逐步向后刪除方法結(jié)合在一起,每一步選擇一個最好的屬性,并在剩余屬性中刪除一個最差的屬性;
?? 決策樹歸納:決策樹算法,如ID3、C4.5和CART,決策樹歸納構(gòu)造一個類似于流程圖的結(jié)構(gòu),其中每個內(nèi)部(非樹葉)結(jié)點(diǎn)表示一個屬性上的測試,每個分枝對應(yīng)于測試的一個結(jié)果;每個外部(樹葉)結(jié)點(diǎn)表示一個類預(yù)測,在每個結(jié)點(diǎn)上,算法選擇最好的屬性,將數(shù)據(jù)劃分為類。
當(dāng)決策樹歸納用于屬性子集選擇時,由給定的數(shù)據(jù)構(gòu)造決策樹,不出現(xiàn)在樹中的所有屬性假定是不相關(guān)的,出現(xiàn)在樹中的屬性形成歸約后的屬性子集。上述方法的結(jié)束條件不同,可以使用一個度量閾值來決定何時停止屬性選擇過程。
在某些情況下,可基于其他屬性創(chuàng)建一些新屬性。屬性構(gòu)造可提高準(zhǔn)確性和對高維數(shù)據(jù)結(jié)構(gòu)的理解。通過組合屬性,屬性構(gòu)造可以發(fā)現(xiàn)關(guān)于數(shù)據(jù)屬性間聯(lián)系的缺失信息,對知識發(fā)現(xiàn)是有用的。
5)回歸和對數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約
回歸和對數(shù)線性模型可以用來近似給定的數(shù)據(jù)。在線性回歸中,對數(shù)據(jù)建模,使之?dāng)M合到一條直線,可用因變量y表示自變量x的線性函數(shù)y=wx+b,假定y的方差是常量。y和x是數(shù)值數(shù)據(jù)庫屬性,回歸系數(shù)w和b分別為直線的斜率和y軸截距?;貧w系數(shù)可用最小二乘法求解,其最小化分離數(shù)據(jù)的實(shí)際直線與該直線的估計(jì)之間的誤差。多元回歸則是線性回歸的擴(kuò)展,允許用兩個或多個自變量的線性函數(shù)對因變量y建模。
對數(shù)線性模型(log-linear model)近似離散的多維概率分布。給定n維元組的集合,可把每個元組看做n維空間的點(diǎn)。對于離散屬性集,可用對數(shù)線性模型,基于維組合的一個較小子集,估計(jì)多維空間中每個點(diǎn)的概率,這使得高維數(shù)據(jù)空間可以由較低維數(shù)據(jù)空間構(gòu)造。因此,對數(shù)線性模型也可用于維歸約(由于較低維空間的點(diǎn)通常比原來的數(shù)據(jù)點(diǎn)占據(jù)的空間要少)和數(shù)據(jù)光滑(因?yàn)榕c較高維空間的估計(jì)相比,較低維空間的聚集估計(jì)受抽樣變化的影響較小)。
回歸和對數(shù)線性模型都可用于稀疏數(shù)據(jù),對處理傾斜數(shù)據(jù),回歸更好,對高維數(shù)據(jù),對數(shù)線性模型表現(xiàn)出更好的伸縮性。
6)直方圖
直方圖使用分箱來近似數(shù)據(jù)分布,是一種流行的數(shù)據(jù)歸約形式。屬性A的直方圖(histogram)將A的數(shù)據(jù)分布劃分為不相交的子集或桶。如果每個桶只代表單個屬性值/頻率對,則該桶稱為單值桶。桶表示給定屬性的一個連續(xù)區(qū)間。
等寬直方圖中,每個桶的寬度區(qū)間是相等的。等頻(等深)直方圖中,每個桶大致包含相同個數(shù)的鄰近數(shù)據(jù)樣本。對于近似稀疏和稠密數(shù)據(jù),以及高傾斜和均勻的數(shù)據(jù),直方圖是有效的。
7)聚類
聚類技術(shù)把數(shù)據(jù)元組看做對象,將對象劃分為群或簇,使得在一個簇中的對象相互相似,而與其他簇中的對象相異。通常,相似性基于距離函數(shù),用對象在空間中的接近程度定義。簇的質(zhì)量用直徑表示,直徑是簇中兩個對象的最大距離。形心距離是簇質(zhì)量的另一種度量,定義為簇中每個對象到簇形中(表示平均對象,或簇空間中的平均點(diǎn))的平均距離。
在數(shù)據(jù)歸約中,用數(shù)據(jù)的簇代表替換實(shí)際數(shù)據(jù),其有效性依賴數(shù)據(jù)的性質(zhì)。對于被污染的數(shù)據(jù),能夠組織成不同的簇的數(shù)據(jù),比較有效。
8)抽樣
抽樣可以作為一種數(shù)據(jù)歸約技術(shù)使用,可用數(shù)據(jù)的小得多的隨機(jī)樣本(子集)表示大型數(shù)據(jù)集。假定大型數(shù)據(jù)集D包含N個元組,常見抽樣方法:
?? s個樣本無放回簡單隨機(jī)抽樣(SRSWOR):從D中抽取s個樣本,而且每次抽取一個樣本,不放回?cái)?shù)據(jù)集D中;
?? s個樣本有放回簡單隨機(jī)抽樣(SRSWR):從D中抽取一個元組后,記錄它,然后放回原處,再參與下一次抽樣;
?? 簇抽樣:如果D中的元組被分組,放入M個互不相交的簇,則可以得到s個簇的簡單隨機(jī)抽樣(SRS),其中s<M。
?? 分層抽樣:D被劃分成不相交的部分,稱為層,通過對每一層的SRS可以得到D的分層抽樣,特別對于數(shù)據(jù)傾斜下有效。
采用抽樣進(jìn)行數(shù)據(jù)歸約的優(yōu)點(diǎn)是,得到樣本的花費(fèi)正比例于樣本集的大小s,而不是數(shù)據(jù)集的大小N。抽樣的復(fù)雜度可能亞線性(sublinear)于數(shù)據(jù)的大小。其他數(shù)據(jù)歸約的技術(shù)至少需要完全掃描D。對于固定的樣本大小,抽樣的復(fù)雜度僅隨數(shù)據(jù)的維數(shù)n線性地增加,而其他技術(shù),如直方圖,復(fù)雜度隨n呈指數(shù)增長。
用于數(shù)據(jù)歸約時,抽樣最常用來估計(jì)聚集查詢的問答。在指定的誤差范圍內(nèi),可以確定(使用中心極限定理)估計(jì)一個給定的函數(shù)所需的樣本大小。樣本的大小s相對于N可能非常小。對于歸約數(shù)據(jù)的逐步求精,抽樣是一種自然選擇。通過簡單地增加樣本大小,這樣的集合可以進(jìn)一步求精。
9)數(shù)據(jù)立方體聚集
數(shù)據(jù)立方體存儲多維聚集信息。每個屬性都可能存在概念分層,允許在多個抽象層進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)立方體提供對預(yù)計(jì)算的匯總數(shù)據(jù)進(jìn)行快速訪問,適合聯(lián)機(jī)數(shù)據(jù)分析和數(shù)據(jù)挖掘。
在最低抽象層創(chuàng)建的立方體稱為基本方體(base cuboid)。最高層抽象的立方體稱為頂點(diǎn)方體(apex cuboid)。
3.5數(shù)據(jù)變換與數(shù)據(jù)離散化
在數(shù)據(jù)預(yù)處理階段,數(shù)據(jù)被變換或統(tǒng)一,使得挖掘過程可能更有效,挖掘的模式更易理解。數(shù)據(jù)變換策略包括:
?? 光滑(smoothing):去掉數(shù)據(jù)中的噪聲,技術(shù)包括分箱、回歸和聚類;
?? 屬性構(gòu)造(或特征構(gòu)造):由給定的屬性構(gòu)造新的屬性并添加到屬性集中;
?? 聚集:對數(shù)據(jù)進(jìn)行匯總或聚集;
?? 規(guī)范化:把屬性數(shù)據(jù)按比例縮放,使之落入一個特定的小區(qū)間;
?? 離散化:數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽替換;
?? 由標(biāo)稱屬性產(chǎn)生概念分層:屬性,如street,可以泛化到較高概念層,如city或country。
離散化技術(shù)可以根據(jù)如何進(jìn)行離散化加以分類,如根據(jù)是否使用類信息,或根據(jù)離散的進(jìn)行方向(自頂向下或自底向上)來分類。如果離散過程使用類信息,則為監(jiān)督的離散化(supervised discretization),否則是非監(jiān)督的(unsupervised)。如果離散化過程首先找出一個或幾個點(diǎn)(稱做分裂點(diǎn)或割點(diǎn))來劃分整個屬性區(qū)間,然后在結(jié)果區(qū)間上遞歸地重復(fù)這一個過程,則成為自頂向下離散化或分裂。自底向上離散化和合并正好相反,將所有的連續(xù)值看做可能的分裂點(diǎn),通過合并鄰域的值形成區(qū)間,然后在結(jié)果區(qū)間遞歸地應(yīng)用這一過程。
1)通過規(guī)范化變換數(shù)據(jù)
所用的度量單位可能影響數(shù)據(jù)分析。為避免對度量單位的依賴性,數(shù)據(jù)應(yīng)該規(guī)劃化或標(biāo)準(zhǔn)化。變換數(shù)據(jù),使之在一個較小的共同區(qū)間,如[-1,1]或[0,1]。
規(guī)范化數(shù)據(jù)試圖賦予所有屬性相等的權(quán)重。對于涉及神經(jīng)網(wǎng)絡(luò)的分類算法或基于距離度量的分類(如最近鄰分類)和聚類,規(guī)范化特別有用。如果使用神經(jīng)網(wǎng)絡(luò)后向傳播算法進(jìn)行分類挖掘,對訓(xùn)練元組中每個屬性的輸入值規(guī)范化將有助于加快學(xué)習(xí)階段的速度。對于基于距離的方法,規(guī)范化可以幫助防止具有較大初始值域的屬性與具有較小初始值域的屬性相比權(quán)重過大。在沒有數(shù)據(jù)的先驗(yàn)知識時,規(guī)范化也有用的。
規(guī)范化方法,有:最小-最大規(guī)范化、z分?jǐn)?shù)規(guī)范化、按小數(shù)定標(biāo)規(guī)范化。令A(yù)是數(shù)值屬性,具有n個觀測值v 1,v 2,…,v n。
2)通過分箱離散化
分箱是一種基于指定的箱個數(shù)的自頂向下的分裂技術(shù)。通過使用等寬或等頻分箱,然后用箱均值或中位數(shù)替換箱中的每個值,可以將屬性值離散化,就想用箱的均值或箱的中位數(shù)光滑一樣。
分箱并不使用類信息,因此是一種非監(jiān)督的離散化技術(shù)。對用戶指定的箱個數(shù)很敏感,也容易受到林群點(diǎn)的影響。
3)通過直方圖分析離散化
像分箱一樣,直方圖分析也是一種非監(jiān)督離散化技術(shù),因?yàn)樗皇褂妙愋畔?。直方圖把屬性A的值劃分成不相交的區(qū)間,稱做桶或箱。
直方圖分析算法可以遞歸地用于每個分區(qū),自動地產(chǎn)生多級概念分層,直到達(dá)到一個預(yù)先設(shè)定的概念層數(shù),過程終止。也可對每一層使用最小區(qū)間長度來控制遞歸過程。最小區(qū)間長度設(shè)定每層每個分區(qū)的最小寬度,或每層每個分區(qū)中值的最少數(shù)目。
4)通過聚類、決策樹和相關(guān)分析離散化
a、聚類分析是一種流行的離散化方法,通過屬性A的值劃分成簇或組,聚類算法可以用來離散化數(shù)值屬性A。聚類考慮A的分布以及數(shù)據(jù)點(diǎn)的鄰近性,因此可以產(chǎn)生高質(zhì)量的離散化結(jié)果。遵循自頂向下的劃分策略或自底向上的合并策略,聚類可以用來產(chǎn)生A的概念分層,其中每個簇形成概念分層的一個結(jié)點(diǎn)。在前一種策略中,每一個初始簇或分區(qū)可以進(jìn)一步分解成若干子簇,形成較低的概念層;在后一種策略中,通過反復(fù)地對鄰近簇進(jìn)行分組,形成較高的概念層。
b、決策樹分類可用于離散化,使用自頂向下劃分方法。離散化決策樹使用類標(biāo)號信息,是監(jiān)督的離散化方法。決策樹分類離散化技術(shù)主要思想是,選擇劃分點(diǎn)使得一個給定的結(jié)果分區(qū)包含盡可能多的同類元組。熵是最常用于確定劃分點(diǎn)的度量。為了離散化數(shù)值屬性A,該方法選擇最小化熵的A的值作為劃分點(diǎn),并遞歸地劃分結(jié)果區(qū)間,得到分層離散化,形成A的概念分層。
5)標(biāo)稱數(shù)據(jù)的概念分層產(chǎn)生
四種標(biāo)稱數(shù)據(jù)概念分層的方法:
a、由用戶或?qū)<以谀J郊夛@示地說明屬性的部分序;
b、通過顯示數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分;
c、說明屬性集但不說明它們的偏序;
d、只說明部分屬性集;
模式和屬性值計(jì)數(shù)信息都可以用來產(chǎn)生標(biāo)稱數(shù)據(jù)的概念分層。使用概念分層變換數(shù)據(jù)使得較高層的知識模式可以被發(fā)現(xiàn)。
總感覺翻譯過來的特別怪。
3.6小結(jié)
1)數(shù)據(jù)質(zhì)量用準(zhǔn)確性、完整性、一致性、時效性、可信性和可解釋性定義。質(zhì)量基于數(shù)據(jù)的應(yīng)用目的評估。
2)數(shù)據(jù)清理例程試圖填補(bǔ)缺失的值,光滑噪聲同時識別離群點(diǎn),并糾正數(shù)據(jù)的不一致性。數(shù)據(jù)清理通常是一個兩步的迭代過程,包括偏差檢測和數(shù)據(jù)變換。
3)數(shù)據(jù)集成將來自多個數(shù)據(jù)源的數(shù)據(jù)整合成一致的數(shù)據(jù)存儲。語義異種性的解決、元數(shù)據(jù)、相關(guān)分析、元組重復(fù)檢測和數(shù)據(jù)沖突檢測都有助于數(shù)據(jù)的順利集成。
4)數(shù)據(jù)歸約得到數(shù)據(jù)的歸約表示,而使得信息內(nèi)容的損失最小化。數(shù)據(jù)歸約方法包括維歸約、數(shù)量歸約和數(shù)據(jù)壓縮。維歸約減少所考慮的隨機(jī)變量或維的個數(shù),方法包括小波變換、主成分分析、屬性子集選擇和屬性構(gòu)造。數(shù)量歸約方法使用參數(shù)或非參數(shù)模型,得到原數(shù)據(jù)的較小表示,參數(shù)模型只存放模型參數(shù),而非實(shí)際數(shù)據(jù),如回歸和對數(shù)線性模型;非參數(shù)方法包括直方圖、聚類、抽樣和數(shù)據(jù)立方體聚集。數(shù)據(jù)壓縮方法使用變換,得到原數(shù)據(jù)的歸約或壓縮表示,如果原數(shù)據(jù)可以由壓縮后的數(shù)據(jù)重構(gòu),而不損失任何信息,則數(shù)據(jù)壓縮是無損的,否則,是有損的。
5)數(shù)據(jù)變換例程將數(shù)據(jù)變換成適于挖掘的形式。如規(guī)范化中,屬性數(shù)據(jù)縮放,使其在較小區(qū)間,也包括數(shù)據(jù)離散化和概念分層技術(shù)。
6)數(shù)據(jù)離散化通過把值映射到區(qū)間或概念標(biāo)號變換數(shù)值數(shù)據(jù)。這種方法可以用來自動地產(chǎn)生數(shù)據(jù)的概念分層,而概念分層允許在多個粒度層進(jìn)行挖掘。離散化技術(shù)包括分箱、直方圖分析、聚類分析、決策樹分析和相關(guān)分析。對于標(biāo)稱數(shù)據(jù),概念分層可以基于模式定義以及每個屬性的不同值個數(shù)產(chǎn)生。
盡管已經(jīng)有很多數(shù)據(jù)預(yù)處理的方法,由于不一致或臟數(shù)據(jù)的數(shù)量巨大,以及問題本身的復(fù)雜性,數(shù)據(jù)預(yù)處理仍然是一個活躍的研究領(lǐng)域。
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘笔记三】数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【正一专栏】内马尔请不要把球迷的爱当做你
- 下一篇: 【正一专栏】欧洲五大联赛猜想(一)德法意