日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】数据预处理

發(fā)布時(shí)間:2024/7/5 编程问答 33 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【数据挖掘】数据预处理 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

參考文獻(xiàn):《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》

數(shù)據(jù)清洗

數(shù)據(jù)清洗:刪除數(shù)據(jù)集中無關(guān)數(shù)據(jù),重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),篩選掉與挖掘主題無關(guān)的數(shù)據(jù),處理缺失值和異常值。

  • 缺失值處理:刪除記錄、數(shù)據(jù)插補(bǔ)。
  • 插補(bǔ)方法方法描述
    均值/中位數(shù)/眾數(shù)插補(bǔ)按照屬性值的類型取值
    使用固定值用常量替換
    最近臨插補(bǔ)用缺失樣本最接近的樣本的屬性值
    回歸方法建立擬合模型預(yù)測(cè)缺失的屬性值
    插值法根據(jù)已有數(shù)據(jù)建立插值函數(shù)f(x)計(jì)算f(xi)

    拉格朗日插值法:

    inputfile = '../data/catering_sale.xls' outputfile = '../data/sales.xls' data = pd.read_excel(inputfile) data[(data[u'銷量'] < 400) | (data[u'銷量'] > 5000)] = None def ployinterp_column(index, df, k=5):y = df[list(range(index - k, index)) + list(range(index + 1, index + 1 + k))]y = y[y.notnull()]return lagrange(y.index, list(y))(index) df = data[data[u'銷量'].isnull()] index_list = df[u'銷量'].index for index in index_list:data[[u'銷量']][index] = ployinterp_column(index, data[u'銷量']) data.to_excel(outputfile)
  • 異常值處理:刪除異常記錄,視為缺失值,用均值修正
  • 數(shù)據(jù)集成

    將多個(gè)數(shù)據(jù)源合并在一個(gè)一致的數(shù)據(jù)存儲(chǔ)的過程(冗余屬性識(shí)別、實(shí)體識(shí)別)

    數(shù)據(jù)變換

    對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理,轉(zhuǎn)化為適當(dāng)?shù)男问?br /> (1) 簡(jiǎn)單函數(shù)變化:將不具有正態(tài)分布的數(shù)據(jù)變換成具有正態(tài)分布的數(shù)據(jù)。在時(shí)間序列分析中,簡(jiǎn)單的對(duì)數(shù)變換或者差分運(yùn)算可以將非平穩(wěn)序列轉(zhuǎn)換為平穩(wěn)序列。使用對(duì)數(shù)變換還可以對(duì)數(shù)據(jù)進(jìn)行壓縮。
    (2) 規(guī)范化:也稱歸一化,消除指標(biāo)之間的量綱和取值范圍差異的影響進(jìn)行標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按比例縮放,使其在一個(gè)特定范圍,便于綜合分析。
    最大-最小規(guī)范化:x?=x?minmax?minx^*=\frac{x-min}{max-min}x?=max?minx?min?
    零-均值規(guī)范化:x?=x?xˉσx^*=\frac{x-\bar{x}}{\sigma}x?=σx?xˉ?
    小數(shù)定標(biāo)規(guī)范化:x?=x10kx^*=\frac{x}{10^k}x?=10kx?

    datafile = '../data/normalization_data.xls' data = pd.read_excel(datafile, header=None) print((data - data.min()) / (data.max() - data.min())) #最大-最小 print((data - data.mean()) / data.std()) # 零-均值 print(data / 10**np.ceil(np.log10(data.abs().max()))) #小數(shù)定標(biāo)

    (3) 連續(xù)屬性離散化
    等寬法:將屬性的值域劃分為等寬的區(qū)間。
    等頻法:將相同數(shù)量的記錄放在一個(gè)區(qū)間。
    聚類法:將連續(xù)屬性進(jìn)行聚類,對(duì)聚類得到的簇進(jìn)行處理,需要指定簇的個(gè)數(shù),得到區(qū)間數(shù)。

    datafile = '../data/discretization_data.xls' data = pd.read_excel(datafile) data = data[u'肝氣郁結(jié)證型系數(shù)'].copy() k = 4 # 等寬切分 d1 = pd.cut(data, k, labels=range(k))# 等頻切分 w = [1.0 * i / k for i in range(k + 1)] # percentiles表示特定百分位數(shù),同四分位數(shù) w = data.describe(percentiles=w)[4:4 + k + 1] w[0] = w[0] * (1 - 1e-10) d2 = pd.cut(data, w, labels=range(k))# 使用Kmeans聚類 kmodel = KMeans(n_clusters=k, n_jobs=4) kmodel.fit(data.values.reshape(len(data), 1)) # 輸出聚類中心,并且排序 c = DataFrame(kmodel.cluster_centers_).sort_values(0) # 相鄰兩項(xiàng)求中點(diǎn),作為邊界點(diǎn) w = DataFrame.rolling(c, 2).mean().iloc[1:] # 加上首末邊界點(diǎn) w = [0] + list(w[0]) + [data.max()] d3 = pd.cut(data, w, labels=range(k)) def cluster_plot(d, k):plt.figure(figsize=(8, 3))for j in range(0, k):plt.plot(data[d == j], [j for i in d[d == j]], 'o')plt.ylim(-0.5, k - 0.5)return plt cluster_plot(d1, k).show() cluster_plot(d2, k).show() cluster_plot(d3, k).show()

    (4) 屬性構(gòu)造:從已有屬性集中構(gòu)造出新屬性,加入到現(xiàn)有的屬性集合中。

    inputfile = "../data/electricity_data.xls" outputfile = "../tmp/electricity_data.xls" data = pd.read_excel(inputfile) data[u"線損率"] = (data[u"供入電量"] - data[u"供出電量"]) / data[u"供入電量"] data.to_excel(outputfile, index=False)

    (5) 小波變換:在時(shí)域和頻域具有表征信號(hào)局部特征的能力,通過伸縮和平移

    數(shù)據(jù)規(guī)約

    意義:降低無效、錯(cuò)誤數(shù)據(jù)對(duì)建模的影響,提高建模的準(zhǔn)確性。少量且具有代表性的數(shù)據(jù)將大幅度縮減挖掘所需的時(shí)間。降低儲(chǔ)存數(shù)據(jù)的成本。

    方法描述
    合并屬性舊屬性合并為新屬性
    逐步向前選擇從空屬性集開始添加當(dāng)前最優(yōu)屬性,直到無法選出最優(yōu)屬性或滿足閾值約束
    逐步向后選擇從全屬性集開始刪除最差屬性,直到無法選出最差屬性或滿足閾值約束
    決策樹歸納利用決策樹歸納法學(xué)習(xí)初始數(shù)據(jù),刪除沒有在決策樹上的屬性
    主成分分析用較少的變量解釋原始數(shù)據(jù)中大部分的變量

    數(shù)值規(guī)約

  • 直方圖
  • 聚類
  • 抽樣
  • 參數(shù)回歸
  • 總結(jié)

    以上是生活随笔為你收集整理的【数据挖掘】数据预处理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

    主站蜘蛛池模板: free欧美性69护士呻吟 | 天天摸天天干 | jlzzjizz在线播放观看 | 欧美尹人 | 免费在线中文字幕 | 精品xxxxx| 国产91av在线 | 日批黄色 | 欧美美女一区二区三区 | 国产一级片子 | 国产精品一区二区三 | 成人77777| 欧美日韩精品在线视频 | 高hhhhh| 精品婷婷色一区二区三区蜜桃 | 亚洲av无码专区在线 | av午夜影院 | 久久国产激情视频 | 熟女人妻一区二区三区免费看 | 国产精品久久久久无码av | 无码 制服 丝袜 国产 另类 | 色人天堂 | 国产一区二区久久久 | 国产精品1234区 | 亚洲色图第1页 | 国内偷拍久久 | 玖玖爱资源站 | av每日更新在线观看 | 久久久社区 | 欧美精品在线一区二区三区 | 精品一区二区三区久久久 | 香蕉污视频在线观看 | 一区二区三区视频在线 | 91免费观看入口 | 亚洲午夜毛片 | 绿帽在线| 欧美高清二区 | 韩国av中文字幕 | 亚洲三区在线观看无套内射 | 激情综合网站 | 69成人免费视频 | 色悠悠国产| exo妈妈mv在线播放免费 | 国内特级毛片 | av男人网| 欧美精品一区二区在线播放 | 妞妞影视| 国产大片中文字幕在线观看 | 91在线在线 | 性欧美成人播放77777 | 日本午夜精华 | 日韩午夜小视频 | 爱情岛亚洲品质自拍极速福利网站 | 久艹av| 婷婷.com| 久久91精品国产 | 国产剧情av引诱维修工 | 久久αv | 一级黄色在线播放 | 夜夜夜操| 三级欧美日韩 | 欧美大片在线播放 | 精品无码成人久久久久久免费 | 在线观看www视频 | 国产丰满大乳奶水在线视频 | 欧美日免费| 欧美一级淫片免费视频黄 | 深夜福利在线播放 | 精品99视频 | 中文字幕在线免费看线人 | a中文在线 | 五月天视频网站 | 影音先锋中文字幕第一页 | 337p嫩模大胆色肉噜噜噜 | 日本人妻一区二区三区 | 欧美日韩视频在线观看免费 | 在线观看黄色动漫 | 日韩av在线一区 | 国产免费一区二区视频 | 少妇又色又紧又黄又刺激免费 | 日本黄色电影网址 | а√天堂中文在线资源8 | 欧美成人免费观看 | 黄色一二三区 | 成人av在线网址 | 91九色蝌蚪porny | 日本激情视频在线观看 | av在线中文| 四虎成人在线 | 国产做爰全免费的视频软件 | 欧美精品hd | 麻豆一区二区99久久久久 | 中国免费观看的视频 | 粉嫩欧美一区二区三区 | 美国成人av| 大象传媒成人在线观看 | 91精品视频免费看 | 日韩中文字幕一区二区三区四区 | 99热最新网址 |