日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据可视化(二)Matplotlib pandas简易入门

發布時間:2024/1/23 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 数据可视化(二)Matplotlib pandas简易入门 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文數據來源https://github.com/fivethirtyeight/data/blob/master/college-majors/recent-grads.csv

本文主要介紹了一下如何簡單的探查數據之間的關系

?

原始數據展現(這是一份大學畢業生的薪資調查報告,重要的字段有這些,Major - 專業名稱, Major_category - 專業類別, Sample_size - 樣本大小, ShareWomen - 女性比重, Total- 該專業的總人數)

import pandas as pdrecent_grads = pd.read_csv('recent-grads.csv')

?

直方圖

要制作直方圖,首先把X軸的值的范圍等分成多個間隔,然后數出每個間隔中包含的值的數量,然后把該數量作為Y軸的值。使用方法pandas.DataFrame.hist()函數

#制作工資收入中位數(Median列)的直方圖recent_grads.hist(‘Median’)

# hist()函數默認是自動分成10等分的,且生成的圖中是有網格線的,現在要分成20等分,同時消除網格線recent_grads.hist('Median', bins=20, grid=False)

# 其實可以一次性制作多個直方圖,layout參數的意思是將兩個圖分成兩行一列,如果沒有這個參數,默認會將全部的圖放在同一行columns = ['Median','Sample_size']recent_grads.hist(column=columns, layout=(2,1), grid=False)

?

箱型圖

箱型圖是基于五數概括法(最小值,第一個四分位數,第一個四分位數(中位數),第三個四分位數,最大值)的數據的一個圖形匯總,還需要用到四分位數間距IQR = 第三個四分位數 - 第一個四分位數。詳情請google

制作箱型圖使用的是pandas.DataFrame.boxplot()方法

import matplotlib.pyplot as plt# 選擇兩列數據sample_size = recent_grads[['Sample_size', 'Major_category']]# 按照每一個專業類型分類統計sample_size.boxplot(by='Major_category')# 將X軸的坐標文字旋轉90度,垂直顯示plt.xticks(rotation=90)

?

多圖合并

要想找出多個變量之間的關聯,就要把多個變量的變化都做在同一個圖上進行比較

# 將兩個散點圖放在一起(按顏色區分),觀察是否有關聯import matplotlib.pyplot as pltplt.scatter(recent_grads['Unemployment_rate'], recent_grads['Median'], color='red')plt.scatter(recent_grads['ShareWomen'], recent_grads['Median'], color='blue')plt.show()

總結

以上是生活随笔為你收集整理的数据可视化(二)Matplotlib pandas简易入门的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。