日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据分析——“鲍鱼的年龄”数据集

發布時間:2023/12/3 编程问答 27 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据分析——“鲍鱼的年龄”数据集 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

      • 0.數據集介紹
      • 1.鮑魚數據集的讀取與分析
      • 3.變量關系可視化
      • 4.屬性對相關性可視化

0.數據集介紹

鮑魚數據集可以從 UC Irvine 數據倉庫中獲得,其 URL 是 http://archive.ics.uci.edu/ml/machine-earning-database/abalone/abalone.data。此數據集數據以逗號分隔,沒有列頭。每個列的名字存在另外一個文件中。建立預測模型所需的數據包括性別、長度、直徑、高度、整體重量、去殼后重量、臟器重量、殼的重量、環數。最后一列“環數”是十分耗時采獲得的,需要鋸開殼,然后在顯微鏡下觀察得到。這是一個有監督機器學習方法通常需要的準備工作。基于一個已知答案的數據集構建預測模型,然后用這個預測模型預測不知道答案的數據。

1.鮑魚數據集的讀取與分析

import pandas as pd from pandas import DataFrame from pylab import * import matplotlib.pyplot as plottarget_url = ("http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data") ## 數據集讀取 abalone = pd.read_csv(target_url,header=None,prefix="V") abalone.columns= ['Sex', 'Length', 'Diameter', 'Height', 'Whole weight','Shucked weight', 'Viscera weight', 'Shell weight', 'Rings'] print(abalone.head()) print(abalone.tail())## 統計信息 summary = abalone.describe() print(summary)## 實值屬性的箱線圖 array = abalone.iloc[:,1:9].values boxplot(array) plot.xlabel("Attribute Index") plot.ylabel("Quartile Ranges") show()## 最后一列與其他不成比例,remove然后replot array2 = abalone.iloc[:,1:8].values boxplot(array2) plot.xlabel("Attribute Index") plot.ylabel("Quartile Ranges") show()## 所有列歸一化 abaloneNormalized = abalone.iloc[:,1:9]for i in range(8):mean = summary.iloc[1,i]sd = summary.iloc[2,i]abaloneNormalized.iloc[:,i:(i+1)] = (abaloneNormalized.iloc[:,i:(i + 1)] - mean) / sdarray3 = abaloneNormalized.values boxplot(array3) plot.xlabel("Attribute Index") plot.ylabel("Quartile Ranges - Normalized ") show() Sex Length Diameter Height Whole weight Shucked weight Viscera weight \ 0 M 0.455 0.365 0.095 0.5140 0.2245 0.1010 1 M 0.350 0.265 0.090 0.2255 0.0995 0.0485 2 F 0.530 0.420 0.135 0.6770 0.2565 0.1415 3 M 0.440 0.365 0.125 0.5160 0.2155 0.1140 4 I 0.330 0.255 0.080 0.2050 0.0895 0.0395 Shell weight Rings 0 0.150 15 1 0.070 7 2 0.210 9 3 0.155 10 4 0.055 7 Sex Length Diameter Height Whole weight Shucked weight \ 4172 F 0.565 0.450 0.165 0.8870 0.3700 4173 M 0.590 0.440 0.135 0.9660 0.4390 4174 M 0.600 0.475 0.205 1.1760 0.5255 4175 F 0.625 0.485 0.150 1.0945 0.5310 4176 M 0.710 0.555 0.195 1.9485 0.9455 Viscera weight Shell weight Rings 4172 0.2390 0.2490 11 4173 0.2145 0.2605 10 4174 0.2875 0.3080 9 4175 0.2610 0.2960 10 4176 0.3765 0.4950 12 Length Diameter Height Whole weight Shucked weight \ count 4177.000000 4177.000000 4177.000000 4177.000000 4177.000000 mean 0.523992 0.407881 0.139516 0.828742 0.359367 std 0.120093 0.099240 0.041827 0.490389 0.221963 min 0.075000 0.055000 0.000000 0.002000 0.001000 25% 0.450000 0.350000 0.115000 0.441500 0.186000 50% 0.545000 0.425000 0.140000 0.799500 0.336000 75% 0.615000 0.480000 0.165000 1.153000 0.502000 max 0.815000 0.650000 1.130000 2.825500 1.488000 Viscera weight Shell weight Rings count 4177.000000 4177.000000 4177.000000 mean 0.180594 0.238831 9.933684 std 0.109614 0.139203 3.224169 min 0.000500 0.001500 1.000000 25% 0.093500 0.130000 8.000000 50% 0.171000 0.234000 9.000000 75% 0.253000 0.329000 11.000000 max 0.760000 1.005000 29.000000



圖1所示的箱線圖是一種比打印出數據更快、更直接的發現異常點的方法,但是最后一個環數屬性(最右邊的盒子)的取值范圍導致其他屬性都被“壓縮”了(導致很難看清楚)。一種簡單的解決方法就是把取值范圍最大的那個屬性刪除。結果如圖2所示。這個方法并不令人滿意,因為沒有實現根據取值范圍自動縮放(自適應)。更好的方法是在畫箱線圖之前將屬性值歸一化(normalization)。此處的歸一化指確定每列數據的中心,然后對數值進行縮放,使屬性1的一個單位值與屬性2的一個單位值相同。在數據科學中有相當數量的算法需要這種歸一化。例如,K-means聚類方法是根據行數據之間的向量距離來進行聚類的。距離是對應坐標上的點相減然后取平方和。單位不同,算出來的距離也會不同。到一個雜貨店的距離以英里為單位是1英里,以英尺為單位就是5280英尺。本例的歸一化是把屬性數值都轉換為均值為0、標準差為1的分布,歸一化計算用到了函數summary()的結果。歸一化后的效果如圖3所示。注意:注意歸一化到標準差1并不意味著所有的數據都在-1和+1之間。盒子的頂邊和底邊多少都會在-1和+1附近,但是還有很多數據在這個邊界外。

3.變量關系可視化

下一步是看屬性之間、屬性與標簽之間的關系。對于分類問題,折線代表了一行數據,折線的顏色表明了其所屬的類別。這有利于可視化屬性和所屬類別之間的關系。鮑魚問題是一個回歸問題,應該用不同的顏色來對應標簽值的高低。也就是實現由標簽的實數值到顏色值的映射,需要將標簽的實數值壓縮到[-1,1]區間。

import pandas as pd from pandas import DataFrame from pylab import * import matplotlib.pyplot as plot from math import exptarget_url = ("http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data") ## 數據集讀取 abalone = pd.read_csv(target_url,header=None,prefix="V") abalone.columns= ['Sex', 'Length', 'Diameter', 'Height', 'Whole weight','Shucked weight', 'Viscera weight', 'Shell weight', 'Rings']## 統計信息 summary = abalone.describe() minRings = summary.iloc[3,7] maxRings = summary.iloc[7,7] nrows = len(abalone.index) print(nrows)for i in range(nrows):#plot rows of data as if they were series datadataRow = abalone.iloc[i,1:8]labelColor = (abalone.iloc[i,8] - minRings) / (maxRings - minRings) ## min-max歸一化dataRow.plot(color=plot.cm.RdYlBu(labelColor), alpha=0.5)plot.xlabel("Attribute Index") plot.ylabel(("Attribute Values")) plot.show()#均值-方差歸一化 meanRings = summary.iloc[1,7] sdRings = summary.iloc[2,7] for i in range(nrows):#plot rows of data as if they were series datadataRow = abalone.iloc[i,1:8]normTarget = (abalone.iloc[i,8] - meanRings)/sdRingslabelColor = 1.0/(1.0 + exp(-normTarget))dataRow.plot(color=plot.cm.RdYlBu(labelColor), alpha=0.5) plot.xlabel("Attribute Index") plot.ylabel(("Attribute Values")) plot.show() 4177



上圖1顯示每個屬性和目標環數的相關性。在屬性值相近的地方,折線的顏色也比較接近,則會集中在一起。這些相關性都暗示可以構建相當準確的預測模型。相對于那些體現了良好相關性的屬性和目標環數,有些微弱的藍色折線與深橘色的區域混合在一起,說明這些實例可能很難正確預測。圖2為均值方差歸一化之后的結果。轉換后可以更充分地利用顏色標尺中的各種顏色。注意到針對整體重量和去殼后的重量這兩個屬性,有些深藍的線(對應具有大環數的品種)混入了淺藍線的區域,甚至是黃色、亮紅的區域。這意味著,當鮑魚的年齡較大時,僅僅這些屬性不足以準確地預測出鮑魚的年齡(環數)。好在其他屬性(如直徑、殼的重量)可以很好地把深藍線區分出來。這些觀察都有助于分析預測錯誤的原因。

4.屬性對相關性可視化

最后一步是看不同屬性之間的相關性和屬性與目標之間的相關性。遵循的方法與“巖石 vs. 水雷”數據集相應章節里的方法一樣,只有一個重要差異:因為鮑魚問題是進行實數值預測,所以在計算關系矩陣時可以包括目標值。

import pandas as pd from pandas import DataFrame from pylab import * import matplotlib.pyplot as plottarget_url = ("http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data") ## 數據集讀取 abalone = pd.read_csv(target_url,header=None,prefix="V") abalone.columns= ['Sex', 'Length', 'Diameter', 'Height', 'Whole weight','Shucked weight', 'Viscera weight', 'Shell weight', 'Rings']## 計算所有實值列(包括目標)的相關矩陣 corMat = DataFrame(abalone.iloc[:,1:9].corr()) print(corMat)## 使用熱圖可視化相關矩陣 plot.pcolor(corMat) plot.show() Length Diameter Height Whole weight Shucked weight \ Length 1.000000 0.986812 0.827554 0.925261 0.897914 Diameter 0.986812 1.000000 0.833684 0.925452 0.893162 Height 0.827554 0.833684 1.000000 0.819221 0.774972 Whole weight 0.925261 0.925452 0.819221 1.000000 0.969405 Shucked weight 0.897914 0.893162 0.774972 0.969405 1.000000 Viscera weight 0.903018 0.899724 0.798319 0.966375 0.931961 Shell weight 0.897706 0.905330 0.817338 0.955355 0.882617 Rings 0.556720 0.574660 0.557467 0.540390 0.420884 Viscera weight Shell weight Rings Length 0.903018 0.897706 0.556720 Diameter 0.899724 0.905330 0.574660 Height 0.798319 0.817338 0.557467 Whole weight 0.966375 0.955355 0.540390 Shucked weight 0.931961 0.882617 0.420884 Viscera weight 1.000000 0.907656 0.503819 Shell weight 0.907656 1.000000 0.627574 Rings 0.503819 0.627574 1.000000


上面的關聯熱圖中,黃色代表強相關,藍色代表弱相關。目標(殼上環數)是最后一項,即關聯熱圖的第一行和最右列。藍色說明這些屬性與目標弱相關。淺藍對應目標(殼上環數)與殼的重量的相關性。這個結果與在平行坐標圖看到的一致。

總結

以上是生活随笔為你收集整理的数据分析——“鲍鱼的年龄”数据集的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。

主站蜘蛛池模板: 欧美高清另类 | 成人av免费看 | 欧洲精品久久一区二区 | 久综合网 | 中文字幕在线成人 | 男男h黄动漫啪啪无遮挡软件 | 久久久综合视频 | 夫妻毛片 | 黄色网页免费看 | a在线观看视频 | 国产精品伦理一区 | 亚洲专区中文字幕 | fc2ppv在线播放 | av国产在线观看 | 天天爱天天做 | 91极品国产 | 人人操天天射 | 人妻体体内射精一区二区 | 色婷婷精品国产一区二区三区 | 毛片一区二区 | 久久久久香蕉 | 免费无码肉片在线观看 | 快播色图 | 九色福利| 就要操就要日 | 91看大片| 91福利视频免费观看 | 日韩精品中文字幕一区 | 欧洲精品免费一区二区三区 | 亚洲欧美综合网 | 国产一区亚洲二区 | 超碰在线进入 | 国产色视频网站 | 久草视频中文在线 | 麻豆成人91精品二区三区 | ass精品国模裸体欣赏pics | 色姑娘综合网 | 亚洲激情免费视频 | 天天色宗合| 手机在线观看免费av | 日本内谢少妇xxxxx少交 | 九九精品视频在线观看 | 黄色不卡| 中文字幕一区二区三区5566 | 日韩欧美久久 | 久久久久久一区二区 | 海角国产乱辈乱精品视频 | 雪白的扔子视频大全在线观看 | 久操视频免费观看 | 激情影院内射美女 | 永久免费看片 | 粉嫩av.com | 亚洲美女视频在线 | 这里精品 | 美国黄色网址 | 一本色道久久88综合无码 | 丁香花国语版普通话 | 精品视频一区二区在线 | 国产精品久久久久久久久借妻 | 男人的天堂视频在线观看 | 伊人视屏 | 午夜av一区 | 99精品热 | 久久久无码精品亚洲国产 | 色悠久久久| 伊人超碰在线 | 四虎色播 | 久久婷婷五月国产色综合激情 | 国产精品va在线观看无码 | 久久久新 | 亚洲av永久无码精品放毛片 | 特级毛片网站 | 久久青青草视频 | 精品国产无码一区二区三区 | 日日夜夜婷婷 | 久久国产高清 | 国产粉嫩在线 | 欧美激情视频一区 | 男人猛吃奶女人爽视频 | 亚洲资源网站 | 成人深夜福利在线观看 | 国产又黄又粗又猛又爽的视频 | 色www国产亚洲阿娇 自拍一区在线 | 91中文字幕 | 台湾佬av | 欧美性大战久久久久久 | 国产xxxx视频| 欧美日韩乱国产 | 俄罗斯美女一级爱片 | 国产一区二区免费 | 欧美色图片区 | 成人黄色电影网址 | 日韩欧美视频 | 好吊操妞| 伊人草 | 亚洲色图小说 | 久久免费国产精品 | 午夜国产小视频 | 久久夜色精品亚洲 |