数据挖掘实验——认识数据与进行数据预处理
本實(shí)驗(yàn)的實(shí)驗(yàn)報(bào)告以及相關(guān)數(shù)據(jù)集和處理數(shù)據(jù)所用代碼都放在下面這個(gè)資源鏈接之中
認(rèn)識(shí)數(shù)據(jù)與進(jìn)行數(shù)據(jù)預(yù)處理的實(shí)驗(yàn)
免費(fèi)下載 以供學(xué)習(xí)~
實(shí)驗(yàn)內(nèi)容和目的:
根據(jù)老師給出的代碼進(jìn)行復(fù)現(xiàn)和運(yùn)行,實(shí)現(xiàn)——對(duì)一個(gè)數(shù)據(jù)集進(jìn)行分析,包括歸一化操作、缺失值處理、特征篩選,從而達(dá)到認(rèn)識(shí)數(shù)據(jù)并進(jìn)行數(shù)據(jù)預(yù)處理的目的。
實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析:
1.歸一化處理
在拿到一個(gè)數(shù)據(jù)集之后,我們通常會(huì)對(duì)數(shù)據(jù)集進(jìn)行歸一化處理
【1】首先我們引入需要的包
【2】之后我們?cè)谥骱瘮?shù)中進(jìn)行設(shè)置——
對(duì)數(shù)據(jù)的歸一化操作:
讀取數(shù)據(jù):
對(duì)數(shù)據(jù)進(jìn)行歸一化操作的函數(shù)
【3】主函數(shù) 讀取iris.data數(shù)據(jù)
得到進(jìn)行歸一化處理之后的數(shù)據(jù)集 iris_w.data
【4】利用weka獲取的GUI結(jié)果:
【5】自己編程調(diào)用歸一化函數(shù)的結(jié)果
2.缺失值處理
經(jīng)過第一步的操作 我們已經(jīng)對(duì)數(shù)據(jù)進(jìn)行了初步的預(yù)處理,接下來創(chuàng)建一個(gè)新類實(shí)現(xiàn)對(duì)labor數(shù)據(jù)缺失值的處理。
在這一部分,應(yīng)對(duì)不同的數(shù)據(jù)類型我們采用不同的策略~
對(duì)于數(shù)值型數(shù)據(jù)采用策略一,對(duì)于標(biāo)簽型數(shù)據(jù)采用策略二
接下來進(jìn)行實(shí)現(xiàn):
【1】依舊是先引入所需要的的庫
【2】對(duì)數(shù)值型數(shù)據(jù)和標(biāo)簽型數(shù)據(jù)進(jìn)行一個(gè)劃分
【3】進(jìn)行缺失數(shù)據(jù)的處理時(shí)所用的函數(shù)
分為
策略1——針對(duì)數(shù)值型數(shù)據(jù):
策略2——針對(duì)標(biāo)簽型數(shù)據(jù):
其中l(wèi)aborMissing.txt為內(nèi)容有缺失的文件 內(nèi)容如下:
進(jìn)行缺失值處理之后 獲得laborMissing_handle.txt文件
可以看到,缺失的數(shù)據(jù)都進(jìn)行了補(bǔ)全。
3.特征篩選
【1】引入所需的包~
【2】熟悉的讀取文件操作~
返回所有特征的值spf.values 及 數(shù)據(jù)類別 strs 的label
【3】對(duì)每個(gè)特征計(jì)算信息增益
其中,在離散化的過程中,此處將特征的區(qū)間分為10份,不同離散化得到的結(jié)果是有差別的。
【4】進(jìn)行特征篩選~
這里對(duì)熵進(jìn)行計(jì)算
【5】在主函數(shù)中 讀入數(shù)據(jù)
并且打印出結(jié)果
實(shí)驗(yàn)結(jié)論、心得體會(huì)和改進(jìn)建議:
實(shí)驗(yàn)結(jié)論:
在進(jìn)行數(shù)據(jù)集的分析之前進(jìn)行數(shù)據(jù)預(yù)處理是非常有必要且高效的,了解數(shù)據(jù)的第一步,從了解處理數(shù)據(jù) 了解數(shù)據(jù)預(yù)處理開始~
另外,高效利用python中的各種包可以對(duì)數(shù)據(jù)進(jìn)行各種有效的操作,例如 缺失值補(bǔ)全、特征篩選等。
心得體會(huì):
我們可以通過技術(shù)的手段來將復(fù)雜的數(shù)據(jù)變簡單,這是多么有趣的一件事情~之后還要繼續(xù)努力地學(xué)習(xí)數(shù)據(jù)科學(xué)的知識(shí)與各類處理數(shù)據(jù)的方法。
改進(jìn)建議:
感覺可以在本次實(shí)驗(yàn)中加入更多可視化的元素,讓數(shù)據(jù)可以被我們直觀地看到;或者是有一個(gè)應(yīng)用場景,比如銀行一年的流水,這類的“實(shí)際操作”可以讓我們更有代入感和成就感~
總結(jié)
以上是生活随笔為你收集整理的数据挖掘实验——认识数据与进行数据预处理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 黑马程序员-北漂
- 下一篇: 谷歌抽屉_Google(最终)会杀死导航