日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程语言 > python >内容正文

python

《Python数据分析与挖掘实战》第8章——Apriori关联规则

發(fā)布時(shí)間:2024/3/24 python 35 豆豆
生活随笔 收集整理的這篇文章主要介紹了 《Python数据分析与挖掘实战》第8章——Apriori关联规则 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文是基于《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》的實(shí)戰(zhàn)部分的第八章的數(shù)據(jù)——《中醫(yī)證型關(guān)聯(lián)規(guī)則挖掘》做的分析。

旨在補(bǔ)充原文中的細(xì)節(jié)代碼,并給出文中涉及到的內(nèi)容的完整代碼。

主要有:1)將原始數(shù)據(jù)按照聚類結(jié)果進(jìn)行標(biāo)記類別

1 背景與目標(biāo)分析

? ? 此項(xiàng)目旨在根據(jù)相關(guān)數(shù)據(jù)建模,獲取中醫(yī)證素與乳腺癌TNM分期之間的關(guān)系。

2 數(shù)據(jù)預(yù)處理

2.1 數(shù)據(jù)變換

2.1.1 數(shù)據(jù)離散化

datafile = 'data.xls' resultfile = 'data_processed.xlsx'typelabel = {u'肝氣郁結(jié)證型系數(shù)':'A',u'熱毒蘊(yùn)結(jié)證型系數(shù)':'B',u'沖任失調(diào)證型系數(shù)':'C',u'氣血兩虛證型系數(shù)':'D',u'脾胃虛弱證型系數(shù)':'E',u'肝腎陰虛證型系數(shù)':'F'}k = 4 #需要進(jìn)行的聚類類別數(shù)#讀取文件進(jìn)行聚類分析 data = pd.read_excel(datafile) keys = list(typelabel.keys()) result = DataFrame()for i in range(len(keys)):#調(diào)用k-means算法 進(jìn)行聚類print(u'正在進(jìn)行%s的聚類' % keys[i])kmodel = KMeans(n_clusters = k, n_jobs = 4) # n_job是線程數(shù),根據(jù)自己電腦本身來調(diào)節(jié)kmodel.fit(data[[keys[i]]].as_matrix())# 訓(xùn)練模型 # kmodel.fit(data[[keys[i]]]) # 不轉(zhuǎn)成矩陣形式結(jié)果一樣 #KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, # n_clusters=4, n_init=10, n_jobs=4, precompute_distances='auto', # random_state=None, tol=0.0001, verbose=0)r1 = DataFrame(kmodel.cluster_centers_, columns = [typelabel[keys[i]]]) # 聚類中心r2 = Series(kmodel.labels_).value_counts() #分類統(tǒng)計(jì)r2 = DataFrame(r2,columns = [typelabel[keys[i]]+'n'])# 轉(zhuǎn)成DataFrame格式,記錄各個(gè)類別的數(shù)目r = pd.concat([r1,r2], axis=1).sort_values(typelabel[keys[i]])r.index = range(1,5)r[typelabel[keys[i]]] = pd.rolling_mean(r[typelabel[keys[i]]],2) # rolling_mean用來計(jì)算相鄰兩列的均值,以此作為邊界點(diǎn)r[typelabel[keys[i]]][1] = 0.0 # 將原來的聚類中心改成邊界點(diǎn)result = result.append(r.T) result = result.sort_index() # 以index排序,以ABCDEF排序 result.to_excel(resultfile)print (result)

2.1.2?劃分原始數(shù)據(jù)中的類別

# 將分類后數(shù)據(jù)進(jìn)行處理(*****) data_cut = DataFrame(columns = data.columns[:6]) types = ['A','B','C','D','E','F'] num = ['1','2','3','4'] for i in range(len(data_cut.columns)):value = list(data.iloc[:,i])bins = list(result[(2*i):(2*i+1)].values[0])bins.append(1)names = [str(x)+str(y) for x in types for y in num]group_names = names[4*i:4*(i+1)]cats = pd.cut(value,bins,labels=group_names,right=False)data_cut.iloc[:,i] = cats data_cut.to_excel('apriori.xlsx') data_cut.head() # 注意!本文中作者最后建模的時(shí)候并沒有使用這份數(shù)據(jù)進(jìn)行建模,當(dāng)輸入這份數(shù)據(jù)時(shí),結(jié)果為空!

3 模型建立

inputfile ='apriori.txt' #輸入事務(wù)集文件 # '''apriori.txt中文件格式如下 # A1,B2,C1,D3,E2,F1,H2 # A2,B2,C1,D2,E2,F1,H3 # A3,B4,C2,D3,E4,F1,H4 # A3,B1,C2,D1,E1,F1,H1 # ''' data2 = pd.read_csv(inputfile, header=None, dtype=object)# 此文件是作者建模時(shí)的數(shù)據(jù),運(yùn)行后正常。 # data2 = pd.read_excel('apriori.xlsx', header=0) # !!!此文件是在預(yù)處理時(shí)進(jìn)行離散化后得到的,輸出結(jié)果有誤!為空!start = time.clock() # 計(jì)時(shí)開始 print(u'\n轉(zhuǎn)換原始數(shù)據(jù)至0-1矩陣')ct = lambda x: Series(1, index = x[pd.notnull(x)]) # 將標(biāo)簽數(shù)據(jù)轉(zhuǎn)換成1,是轉(zhuǎn)換0-1矩陣的過渡函數(shù) b = map(ct, data2.as_matrix())# 用map方式執(zhí)行 data3 = DataFrame(b).fillna(0) end = time.clock() #計(jì)時(shí)開始print (u'轉(zhuǎn)換完畢,用時(shí)%s秒' % (end-start)) del b #刪除中間變量b 節(jié)省內(nèi)存support = 0.06 #最小支持度 confidence = 0.75 #最小置信度 ms = '---'# 用來區(qū)分不同元素,需要保證原始表格中無該字符start = time.clock() #計(jì)時(shí)開始 print(u'\n開始搜索關(guān)聯(lián)規(guī)則...') find_rule(data3, support, confidence, ms) end = time.clock() print (u'\n搜索完成,用時(shí):%.2f秒' % (end-start))

模型改進(jìn):

由于書中作者給出的代碼并沒有運(yùn)用到剪枝策略,因此采用了這篇文章的代碼,將該代碼中l(wèi)oad_data_set()函數(shù)中的內(nèi)容改成如圖:


其運(yùn)行的結(jié)果如下:



備注:本章節(jié)完整代碼詳見點(diǎn)擊打開鏈接

總結(jié)

以上是生活随笔為你收集整理的《Python数据分析与挖掘实战》第8章——Apriori关联规则的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 蜜臀国产AV天堂久久无码蜜臀 | 最新天堂中文在线 | 高清一区二区三区四区 | 在线观看www视频 | 波多野吉衣av | 九九热精品在线观看 | 日本成人在线网站 | 被两个男人吃奶三p爽文 | 九九热国产视频 | 久久6| 又黄又色 | 少妇被黑人到高潮喷出白浆 | 亚洲人成电影在线 | 麻豆精品视频在线 | www.成人网.com| 亚洲欧美在线综合 | 色老头网址 | 精品国产精品国产偷麻豆 | 日韩成人精品 | 久久久老熟女一区二区三区91 | 人人爽在线 | 一卡二卡三卡在线视频 | 日韩有码电影 | 国产免费黄色小视频 | 上海贵妇尝试黑人洋吊 | 五月天婷婷色 | 日本人妻伦在线中文字幕 | 黄色一级大片在线免费看产 | 国产中文字幕二区 | 色女人av | 久久精品人妻一区二区 | 亚洲香蕉 | 日日麻批 | 欧美大尺度床戏做爰 | 老司机深夜免费福利 | 欧美性视频播放 | 小嫩嫩精品导航 | 日韩永久免费视频 | 久久久情| 羞羞在线观看 | 国产精品麻豆入口 | 欧美一区二区三区小说 | 少妇久久久久久被弄到高潮 | 91老师片黄在线观看 | 一区二区三区爱爱 | 中文字幕一区视频 | 蜜臀99久久精品久久久久久软件 | 日韩一区二区三区不卡视频 | √8天堂资源地址中文在线 欧美精品在线一区二区 | 黄色av网址在线 | 日本人妻不卡一区二区三区中文字幕 | 亚洲色图35p | 91精品视频免费观看 | 日韩精品免费一区二区在线观看 | 波多在线播放 | 欧美一级录像 | 日本一区二区成人 | 欧美午夜精品久久久久久浪潮 | 在线资源站| 在线观看福利电影 | 成人免费毛片糖心 | 激情啪啪网站 | 97国产精品久久久 | 色狠狠久久av大岛优香 | 日韩xxxxxxxxx| 欧洲自拍偷拍 | 国产在线拍揄自揄拍无码 | 青青青草视频 | 97人妻天天摸天天爽天天 | 天堂中文在线资源 | 国产一区二区三区免费播放 | 国内免费毛片 | 国产又粗又大又爽视频 | 国产精品揄拍一区二区 | 人人妻人人澡人人爽精品 | 黄视频免费看在线 | 国产真实乱在线更新 | 精品无码久久久久久久久久 | 在线观看福利网站 | av永久免费网站 | 少妇献身老头系列 | 欧美日韩a| 中文字幕人妻精品一区 | 亚洲一级理论片 | 国产精品s | av一区二区三区在线 | 狠狠操综合网 | 日本69视频 | 日本一区二区高清不卡 | 国产在线喷水 | 亚洲色图综合在线 | 久久无码人妻精品一区二区三区 | 性欧美欧美巨大69 | 青青草精品视频 | 国产成a人亚洲精品 | 亚欧洲精品在线视频免费观看 | 一区二区三区四区精品视频 | 99re这里只有精品首页 | 精品国产午夜福利在线观看 |