日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

鲍鱼数据集的可视化展示

發布時間:2023/12/3 编程问答 69 豆豆
生活随笔 收集整理的這篇文章主要介紹了 鲍鱼数据集的可视化展示 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

寫在開頭:這篇文章有別于上次的巖石與雷的分類問題,是個回歸數據集的展示。我們將運用到之前的工具對這個數據集進行一些可視化。
關于數據集:數據集的來源同樣是UCI庫。
性別(M,F,I)由于鮑魚年幼時分辨不出該屬性,所以有三個類別。
長度 單位毫米
直徑 單位毫米
高度 單位毫米
總重量
剝殼重量
內臟重量
殼重
環的數量 (整型 +1.5用于預測鮑魚年齡)
鮑魚的年齡是通過切割貝殼通過錐體,染色并通過顯微鏡計數環數來確定的。
任務是預測環數,從而預測鮑魚的年齡。


import pandas as pd import numpy as np import matplotlib.pyplot as plt #列出數據的概況 url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data' data = pd.read_csv(url,prefix='x',header=None) head = data.head() print(head) print('-----------------------------------------------------------') tail = data.tail() print(tail) summary = data.describe() print(summary)

輸出:
通過數據的統計信息比較不同位數之間的差異以及其他一些參數來發現異常數據。
這里提供一種更加直觀的方法:箱線圖
關于箱線圖,參考了這篇文章 箱線圖

#由于第一列為非數值型屬性,因此暫時排除在外 plt.figure(figsize=(10,6)) array = data.iloc[:,1:9].values plt.boxplot(array) plt.xlabel('variable(1:9)',fontsize=14)

輸出:

這里的效果還不是很好,由圖像可以發現,由于最后一列(環數)的取值范圍,導致其他屬性的箱線圖被壓縮,展示出來的效果不是很好。初步解決方法使可以剔除這一列,重新作圖。

array1 = data.iloc[:,1:8].values plt.figure(figsize=(10,6)) plt.boxplot(array1) plt.xlabel('variable(1:8)',fontsize=14)

輸出:

這里效果還沒達到。試試特征縮放,應該可行。。

from sklearn.preprocessing import StandardScaler ss = StandardScaler() array2 = ss.fit_transform(array) plt.figure(figsize=(10,6)) plt.boxplot(array2) plt.xlabel('after standardscaler',fontsize=14) plt.show()

輸出:

至此可以看到我們的數據異常點還是不少。。

鮑魚數據的變量關系可視化:(水平座標圖)
每個樣本對應一條折線,每個屬性對應一個點。

plt.figure(figsize=(10,6)) for i in range(array1.shape[0]):point = array1[i,:]plt.plot(point) plt.xticks(np.arange(7),('長度','直徑','高度','全重','去殼重量','內臟重量','干燥后殼重'),fontsize = 13) plt.show()

輸出:

上圖描述的使鮑魚年齡(環數)和用于預測年齡的屬性(性別除外)的屬性之間的關系。

不得不說數據可視化還是挺有意思的。

import sklearn.datasets as ds import pandas as pd import matplotlib.pyplot as plt iris = ds.load_iris() x_name = iris.feature_names #['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] x = iris.data #shape (150, 4) y = iris.target #鳶尾花水平座標圖,不同類別的做了顏色區分 plt.figure(figsize=(10,6)) for i in range(150):if y[i] == 0:lcolor = 'red'elif y[i] == 1:lcolor = 'blue'else:lcolor = 'orange'line = x[i,:]plt.plot(line,color = lcolor) plt.show()

import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False plt.figure(figsize=(12,10)) plt.subplot(221) for i in range(150):x1 = x[i,0]plt.scatter(x1,y[i]) plt.title('變量1與最終目標的相關性')plt.subplot(222) for i in range(150):x1 = x[i,1]plt.scatter(x1,y[i]) plt.title('變量2與最終目標的相關性')plt.subplot(223) for i in range(150):x1 = x[i,2]plt.scatter(x1,y[i]) plt.title('變量3與最終目標的相關性')plt.subplot(224) for i in range(150):x1 = x[i,3]plt.scatter(x1,y[i]) plt.title('變量4與最終目標的相關性')plt.show()

這個結果還是有點奇怪的好像,后續再學習學習

總結

以上是生活随笔為你收集整理的鲍鱼数据集的可视化展示的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。