原来 Matplotlib 绘图也可以这么漂亮,这次真的是学习到了!
來源:Python大數據分析
作者:朱衛軍
平時總是眼饞網易數讀、DT財經的各種精美可視化圖,又限于自己手殘學不會AdoeIllutrator。
不過相信你們看完今天的文章之后,就知道掌握了Matplotlib,好看的數據可視化咱也可以做了!!!
01
簡介
前不久「貝殼研究院」基于其豐富的房地產相關數據資源,發布了「2020 新一線城市居住報告」:
圖1
而在這個報告中有幾張數據可視化作品還是比較可圈可點的,作為(在模仿中精進數據可視化)系列文章的開篇之作,我將基于我觀察原始數據可視化作品進而構思出的方式,以純Python的方式模仿復刻圖2所示作品:
圖2
02
復刻過程
2.1 觀察原作品
其實原作品咋一看上去有點復雜,但經過觀察,將原始圖片主要元素拆分成幾個部分來構思復現方式,還是不算復雜的,我總結為以下幾部分:
(1)坐標系部分
稍微懂點數據可視化的人應該都可以看出原作品的坐標不是常規的笛卡爾坐標系,而是極坐標系,這里復現原作品極坐標系的難點在于,其并不是完整的極坐標系,即左邊略小于半圓的區域是隱藏了參考線的。因此與其在matplotlib中極坐標系的基礎上想方法隱藏部分參考線,不如逆向思維,從構造參考線的角度出發,自己組織構造參考線,會更加的自由和靈活。
(2)顏色填充
這里的「顏色填充」指的是以居住自由指數折線為中線,在購房自由指數折線與租房自由指數折線之間的顏色填充區域,但困難的是這里當購房自由指數高于租房自由指數時對應的顏色為淺藍綠色,而反過來則變為灰色,與購房自由指數、租房自由指數的顏色相呼應。
圖3
2.2 開始動手!
綜合考慮前面這些難點,我決定借助matplotlib+geopandas+shapely操縱幾何對象和繪制調整圖像的方便快捷性,來完成這次的挑戰。
2.2.1 構建坐標系統
因為極坐標系中的參考線非常類似俯視南北極點所看到的經緯線,因此我們可以利用地圖學中坐標參考系里的「正射投影」(Orthographic),可以理解為純粹的半球:
圖4
我們只需要設定中心點參數在南極點或北極點,再配合簡單的經緯度相關知識就可以偽造出任意的經緯線,再利用geopandas中的投影變換向設定好的「正射投影」進行轉換,再作為平面坐標進行繪圖即可。譬如按照這個思路來創建東經10度到東經220度之間,以及南緯-90度到-80度之間,對應的5條緯度線和對應38個城市的經線:
import geopandas as gpd from shapely.geometry import LineString, Point, Polygon import matplotlib.pyplot as plt import numpy as np import warnings plt.rcParams['font.sans-serif'] = ['SimHei'] # 解決matplotlib中文亂碼問題 plt.rcParams['axes.unicode_minus'] = False # 解決matplotlib負號顯示問題 warnings.filterwarnings('ignore') # 設置中心點在南極點的正射投影 crs = '+proj=ortho +lon_0=0 +lat_0=-90' # 構建經度線并設置對應經緯度的地理坐標系 lng_lines = gpd.GeoDataFrame({ 'geometry': [LineString([[lng, -90], [lng, -78]]) for lng in np.arange(10, 220, 210 / 38)]}, crs='EPSG:4326') # 構建緯度線并設置為對應經緯度的地理坐標系 lat_lines = gpd.GeoDataFrame({ 'geometry': [LineString([[lng, lat] for lng in range(10, 220)]) for lat in range(-90, -79, 2)]}, crs='EPSG:4326')構造好數據之后,將經線與緯線對應的GeoDataFrame轉換到設置好的「正射投影」crs上,再作為不同圖層進行疊加繪制:
圖5
嘿嘿,是不是底層的參考線已經有內味了~
2.2.2 繪制指標折線
坐標系以及參考線的邏輯定了下來之后,接下來我們需要將原作品中所展現的3種指標數據轉換為3條樣式不同的折線。首先我們來準備數據,因為原報告中只能找到居住自由指數的具體數值,其他兩個指標未提供,因此我們可以結合這3個數值的相互關系,推斷出每個城市的購房自由指數與租房自由指數1個比自身的居住自由指數高,1個比居住自由指數低的規律來「偽造」數據:
圖6
按照前面推斷出的規則來偽造示例數據,并對偽造過程中的不合理數據進行修正:
def fake_index(value): fake = [] fake.append(value+np.random.uniform(5, 10)) fake.append(value-np.random.uniform(5, 10)) return np.random.choice(fake, size=2, replace=False).tolist() data['購房自由指數'], data['租房自由指數'] = list(zip(*data['居住自由指數'].apply(fake_index))) # 修正偽造數據中大于100和小于0的情況 data.loc[:, '居住自由指數':] = data.loc[:, '居住自由指數':].applymap(lambda v: 100 if v > 100 else v) data.loc[:, '居住自由指數':] = data.loc[:, '居住自由指數':].applymap(lambda v: 0 if v < 0 else v) data.head()圖7
至此我們的數據已經偽造完成,接下來我們需要做的事情是對我們的指標值進行變換,使其能夠適應前面所確立的坐標系統。雖然嚴格意義上說俯視南極點所看到的每一段等間距的緯度帶隨著其越發靠近赤道,在平面上會看起來越來越窄,但因為我們選取的是南緯-90度到南緯-80度之間的區域,非常靠近極點,因此可以近似視為每變化相同緯度寬度是相等的。利用下面的函數實現0-100向-90到-80的線性映射:
圖8
接下來我們就來為每個指標構造線與散點部分的矢量數據,并在統一轉換坐標參考系到「正射投影」之后疊加到之前的圖像上:
# 為每個城市生成1條經線 lng_lines = gpd.GeoDataFrame({ 'geometry': [LineString([[lng, -90], [lng, -78]]) for lng in np.arange(10, 220, 210 / data.shape[0])]}, crs='EPSG:4326') # 居住自由指數對應的折線 line1 = gpd.GeoDataFrame({ 'geometry': [LineString([(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]), data['居住自由指數_映射值'])])]}, crs='EPSG:4326') # 居住自由指數對應的折線上的散點 scatter1 = gpd.GeoDataFrame({ 'geometry': [Point(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]), data['居住自由指數_映射值'])]}, crs='EPSG:4326') # 購房自由指數對應的折線 line2 = gpd.GeoDataFrame({ 'geometry': [LineString([(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]), data['購房自由指數_映射值'])])]}, crs='EPSG:4326') # 購房自由指數對應的折線上的散點 scatter2 = gpd.GeoDataFrame({ 'geometry': [Point(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]), data['購房自由指數_映射值'])]}, crs='EPSG:4326') # 租房自由指數對應的折線 line3 = gpd.GeoDataFrame({ 'geometry': [LineString([(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]), data['租房自由指數_映射值'])])]}, crs='EPSG:4326') # 租房自由指數對應的折線上的散點 scatter3 = gpd.GeoDataFrame({ 'geometry': [Point(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]), data['租房自由指數_映射值'])]}, crs='EPSG:4326') fig, ax = plt.subplots(figsize=(8, 8)) # 繪制經度線與緯度線 ax = lng_lines.to_crs(crs).plot(ax=ax, linewidth=0.4, edgecolor='lightgrey') ax = lat_lines.to_crs(crs).plot(ax=ax, linewidth=0.75, edgecolor='grey', alpha=0.8) ax = line1.to_crs(crs).plot(ax=ax, color='black', linewidth=1) ax = scatter1.to_crs(crs).plot(ax=ax, color='black', markersize=12) ax = line2.to_crs(crs).plot(ax=ax, color='#00CED1', linewidth=0.6) ax = scatter2.to_crs(crs).plot(ax=ax, color='#00CED1', markersize=4) ax = line3.to_crs(crs).plot(ax=ax, color='lightgrey', linewidth=0.6) ax = scatter3.to_crs(crs).plot(ax=ax, color='lightgrey', markersize=4) ax.axis('off'); # 關閉坐標軸 fig.savefig('圖11.png',?dpi=500,?inches_bbox='tight',?inches_pad=0)?? 圖9哈哈,是不是更加有內味了~,至此,我們的繪制指標折線部分已完成。
2.2.3 繪制填充區域
在相繼解決完「坐標系統」、「指標折線繪制」之后,就到了最好玩的部分了,接下來我們來繪制圖中購房自由指數與租房自由指數之間的折線,并且要按照「填充較大值對應色彩」的原則來處理,接下來我們需要用到一點簡單的拓撲學知識,首先我們分別構造購房自由指數_映射值和租房自由指數_映射值引入南極點后所圍成的多邊形:
圖10
圖11
接下來我們先暫停下來思考思考,購房自由指數_映射值與租房自由指數_映射值之間彼此高低起伏交錯而形成的填充區域對應著上面兩個多邊形之間的什么關系?沒錯!就是就是兩者去除掉彼此重疊區域后各自剩余的部分!
圖12
那么接下來我們要做的事就so easy了,只需要分別得到兩者去除重疊面后,剩余的部分,以對應的填充色彩疊加繪制在圖11的圖像上就可以啦~,利用geopandas中的difference即可輕松實現:
fig, ax = plt.subplots(figsize=(8, 8)) # 繪制經度線與緯度線 ax = lng_lines.to_crs(crs).plot(ax=ax, linewidth=0.4, edgecolor='lightgrey') ax = lat_lines.to_crs(crs).plot(ax=ax, linewidth=0.75, edgecolor='grey', alpha=0.8) ax = line1.to_crs(crs).plot(ax=ax, color='black', linewidth=1) ax = scatter1.to_crs(crs).plot(ax=ax, color='black', markersize=12) ax = line2.to_crs(crs).plot(ax=ax, color='#00CED1', linewidth=0.6) ax = scatter2.to_crs(crs).plot(ax=ax, color='#00CED1', markersize=4) ax = line3.to_crs(crs).plot(ax=ax, color='lightgrey', linewidth=0.6) ax = scatter3.to_crs(crs).plot(ax=ax, color='lightgrey', markersize=4) ax = polygon1.difference(polygon2).plot(ax=ax, color='#00CED1', alpha=0.2) polygon2.difference(polygon1).plot(ax=ax, color='lightgrey', alpha=0.6) ax.axis('off'); # 關閉坐標軸 fig.savefig('圖13.png',?dpi=500,?inches_bbox='tight',?inches_pad=0)??圖13
2.2.4 補充文字、標注等元素
其實到這里,我們就已經完成了對原作品復刻的精髓部分了,剩下的無非是添加些文字、刻度之類的,其實這部分很多都可以在出圖之后利用其他軟件PS完成,比寫代碼輕松,所以這部分只對添加「城市+指標」的文字標簽以及刻度值進行補充:
圖14
再模仿原作品裁切一下圖片,主要元素是不是非常一致了~,大家也可以根據自己的喜好來修改不同的顏色:
圖15
推薦閱讀
誤執行了rm -fr /*之后,除了跑路還能怎么辦?!
程序員必備58個網站匯總
大幅提高生產力:你需要了解的十大Jupyter Lab插件
總結
以上是生活随笔為你收集整理的原来 Matplotlib 绘图也可以这么漂亮,这次真的是学习到了!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 肝!教你用Python抓取某天下楼盘数据
- 下一篇: 年薪 50w 难吗?分享我的 2 个捷径