数据可视化(二)Matplotlib pandas简易入门
生活随笔
收集整理的這篇文章主要介紹了
数据可视化(二)Matplotlib pandas简易入门
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本文數據來源https://github.com/fivethirtyeight/data/blob/master/college-majors/recent-grads.csv
本文主要介紹了一下如何簡單的探查數據之間的關系
?
原始數據展現(這是一份大學畢業生的薪資調查報告,重要的字段有這些,Major - 專業名稱, Major_category - 專業類別, Sample_size - 樣本大小, ShareWomen - 女性比重, Total- 該專業的總人數)
import pandas as pdrecent_grads = pd.read_csv('recent-grads.csv')?
直方圖
要制作直方圖,首先把X軸的值的范圍等分成多個間隔,然后數出每個間隔中包含的值的數量,然后把該數量作為Y軸的值。使用方法pandas.DataFrame.hist()函數
#制作工資收入中位數(Median列)的直方圖recent_grads.hist(‘Median’) # hist()函數默認是自動分成10等分的,且生成的圖中是有網格線的,現在要分成20等分,同時消除網格線recent_grads.hist('Median', bins=20, grid=False) # 其實可以一次性制作多個直方圖,layout參數的意思是將兩個圖分成兩行一列,如果沒有這個參數,默認會將全部的圖放在同一行columns = ['Median','Sample_size']recent_grads.hist(column=columns, layout=(2,1), grid=False)?
箱型圖
箱型圖是基于五數概括法(最小值,第一個四分位數,第一個四分位數(中位數),第三個四分位數,最大值)的數據的一個圖形匯總,還需要用到四分位數間距IQR = 第三個四分位數 - 第一個四分位數。詳情請google
制作箱型圖使用的是pandas.DataFrame.boxplot()方法
import matplotlib.pyplot as plt# 選擇兩列數據sample_size = recent_grads[['Sample_size', 'Major_category']]# 按照每一個專業類型分類統計sample_size.boxplot(by='Major_category')# 將X軸的坐標文字旋轉90度,垂直顯示plt.xticks(rotation=90)?
多圖合并
要想找出多個變量之間的關聯,就要把多個變量的變化都做在同一個圖上進行比較
# 將兩個散點圖放在一起(按顏色區分),觀察是否有關聯import matplotlib.pyplot as pltplt.scatter(recent_grads['Unemployment_rate'], recent_grads['Median'], color='red')plt.scatter(recent_grads['ShareWomen'], recent_grads['Median'], color='blue')plt.show()總結
以上是生活随笔為你收集整理的数据可视化(二)Matplotlib pandas简易入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: matplotlib实践过程总结
- 下一篇: 数据可视化(三)- Seaborn简易入