5 种 非传统 的可视化图,也是用Python画的
作者丨Liana Mehrabyan
來源丨TowardsDataScience??
編譯丨機器之心? ?參與丨Panda
數據可以幫助我們描述這個世界、闡釋自己的想法和展示自己的成果,但如果只有單調乏味的文本和數字,我們卻往往能難抓住觀眾的眼球。而很多時候,一張漂亮的可視化圖表就足以勝過千言萬語。本文將介紹 5 種基于 Plotly 的可視化方法,你會發現,原來可視化不僅可用直方圖和箱形圖,還能做得如此動態好看甚至可交互。
對數據科學家來說,講故事是一個至關重要的技能。為了表達我們的思想并且說服別人,我們需要有效的溝通。而漂漂亮亮的可視化是完成這一任務的絕佳工具。本文將介紹?5 種非傳統的可視化技術,可讓你的數據故事更漂亮和更有效。這里將使用 Python 的 Plotly 圖形庫(也可通過 R 使用),讓你可以毫不費力地生成動畫圖表和交互式圖表。
那么,Plotly 有哪些好處?Plotly 的整合能力很強:可與 Jupyter Notebook 一起使用,可嵌入網站,并且完整集成了 Dash——一種用于構建儀表盤和分析應用的出色工具。
安裝庫
如果你還沒安裝 Plotly,只需在你的終端運行以下命令即可完成安裝:
pip?install?plotly安裝完成后,就開始使用吧!
動畫
在研究這個或那個指標的演變時,我們常涉及到時間數據。Plotly 動畫工具僅需一行代碼就能讓人觀看數據隨時間的變化情況,如下圖所示:
代碼如下:
import?plotly.express?as?px from?vega_datasets?import?data df?=?data.disasters() df?=?df[df.Year?>?1990] fig?=?px.bar(df,y="Entity",x="Deaths",animation_frame="Year",orientation='h',range_x=[0,?df.Deaths.max()],color="Entity") #?improve?aesthetics?(size,?grids?etc.) fig.update_layout(width=1000,height=800,xaxis_showgrid=False,yaxis_showgrid=False,paper_bgcolor='rgba(0,0,0,0)',plot_bgcolor='rgba(0,0,0,0)',title_text='Evolution?of?Natural?Disasters',showlegend=False) fig.update_xaxes(title_text='Number?of?Deaths') fig.update_yaxes(title_text='') fig.show()只要你有一個時間變量來過濾,那么幾乎任何圖表都可以做成動畫。下面是一個制作散點圖動畫的例子:
import?plotly.express?as?px df?=?px.data.gapminder() fig?=?px.scatter(df,x="gdpPercap",y="lifeExp",animation_frame="year",size="pop",color="continent",hover_name="country",log_x=True,size_max=55,range_x=[100,?100000],range_y=[25,?90],#???color_continuous_scale=px.colors.sequential.Emrld ) fig.update_layout(width=1000,height=800,xaxis_showgrid=False,yaxis_showgrid=False,paper_bgcolor='rgba(0,0,0,0)',plot_bgcolor='rgba(0,0,0,0)')太陽圖
太陽圖(sunburst chart)是一種可視化 group by 語句的好方法。如果你想通過一個或多個類別變量來分解一個給定的量,那就用太陽圖吧。
假設我們想根據性別和每天的時間分解平均小費數據,那么相較于表格,這種雙重 group by 語句可以通過可視化來更有效地展示。
這個圖表是交互式的,讓你可以自己點擊并探索各個類別。你只需要定義你的所有類別,并聲明它們之間的層次結構(見以下代碼中的 parents 參數)并分配對應的值即可,這在我們案例中即為 group by 語句的輸出。
import?plotly.graph_objects?as?go import?plotly.express?as?px import?numpy?as?np import?pandas?as?pd df?=?px.data.tips() fig?=?go.Figure(go.Sunburst(labels=["Female",?"Male",?"Dinner",?"Lunch",?'Dinner?',?'Lunch?'],parents=["",?"",?"Female",?"Female",?'Male',?'Male'],values=np.append(df.groupby('sex').tip.mean().values,df.groupby(['sex',?'time']).tip.mean().values),marker=dict(colors=px.colors.sequential.Emrld)),layout=go.Layout(paper_bgcolor='rgba(0,0,0,0)',plot_bgcolor='rgba(0,0,0,0)'))fig.update_layout(margin=dict(t=0,?l=0,?r=0,?b=0),title_text='Tipping?Habbits?Per?Gender,?Time?and?Day') fig.show()現在我們向這個層次結構再添加一層:
為此,我們再添加另一個涉及三個類別變量的 group by 語句的值。
import?plotly.graph_objects?as?go import?plotly.express?as?px import?pandas?as?pd import?numpy?as?np df?=?px.data.tips() fig?=?go.Figure(go.Sunburst(labels=["Female",?"Male",?"Dinner",?"Lunch",?'Dinner?',?'Lunch?',?'Fri',?'Sat','Sun',?'Thu',?'Fri?',?'Thu?',?'Fri??',?'Sat??',?'Sun??',?'Fri???',?'Thu???' ],parents=["",?"",?"Female",?"Female",?'Male',?'Male','Dinner',?'Dinner',?'Dinner',?'Dinner','Lunch',?'Lunch',?'Dinner?',?'Dinner?','Dinner?',?'Lunch?',?'Lunch?'],values=np.append(np.append(df.groupby('sex').tip.mean().values,df.groupby(['sex','time']).tip.mean().values,),df.groupby(['sex',?'time','day']).tip.mean().values),marker=dict(colors=px.colors.sequential.Emrld)),layout=go.Layout(paper_bgcolor='rgba(0,0,0,0)',plot_bgcolor='rgba(0,0,0,0)')) fig.update_layout(margin=dict(t=0,?l=0,?r=0,?b=0),title_text='Tipping?Habbits?Per?Gender,?Time?and?Day')fig.show()平行類別
另一種探索類別變量之間關系的方法是以下這種流程圖。你可以隨時拖放、高亮和瀏覽值,非常適合演示時使用。
代碼如下:
import?plotly.express?as?px from?vega_datasets?import?data import?pandas?as?pd df?=?data.movies() df?=?df.dropna() df['Genre_id']?=?df.Major_Genre.factorize()[0] fig?=?px.parallel_categories(df,dimensions=['MPAA_Rating',?'Creative_Type',?'Major_Genre'],color="Genre_id",color_continuous_scale=px.colors.sequential.Emrld, ) fig.show()平行坐標圖
平行坐標圖是上面的圖表的連續版本。這里,每一根弦都代表單個觀察。這是一種可用于識別離群值(遠離其它數據的單條線)、聚類、趨勢和冗余變量(比如如果兩個變量在每個觀察上的值都相近,那么它們將位于同一水平線上,表示存在冗余)的好用工具。
代碼如下:
?import?plotly.express?as?px from?vega_datasets?import?data import?pandas?as?pd df?=?data.movies() df?=?df.dropna() df['Genre_id']?=?df.Major_Genre.factorize()[0] fig?=?px.parallel_coordinates(df,dimensions=['IMDB_Rating',?'IMDB_Votes',?'Production_Budget',?'Running_Time_min','US_Gross',?'Worldwide_Gross',?'US_DVD_Sales'],color='IMDB_Rating',color_continuous_scale=px.colors.sequential.Emrld) fig.show()量表圖和指示器
量表圖僅僅是為了好看。在報告 KPI 等成功指標并展示其與你的目標的距離時,可以使用這種圖表。
指示器在業務和咨詢中非常有用。它們可以通過文字記號來補充視覺效果,吸引觀眾的注意力并展現你的增長指標。
?import?plotly.graph_objects?as?go fig?=?go.Figure(go.Indicator(domain?=?{'x':?[0,?1],?'y':?[0,?1]},value?=?4.3,mode?=?"gauge+number+delta",title?=?{'text':?"Success?Metric"},delta?=?{'reference':?3.9},gauge?=?{'bar':?{'color':?"lightgreen"},'axis':?{'range':?[None,?5]},'steps'?:?[{'range':?[0,?2.5],?'color':?"lightgray"},{'range':?[2.5,?4],?'color':?"gray"}],})) fig.show()原文鏈接:https://towardsdatascience.com/5-visualisations-to-level-up-your-data-story-e131759c2f41
代碼已經奉獻,有興趣同學可以嘗試這幾種不同的可視化圖哦!
END 最后說個題外話,相信大家都知道視頻號了,隨著灰度范圍擴大,越來越多的小伙伴都開通了視頻號。小詹也開通了一個視頻號,會分享互聯網那些事、讀書心得與副業經驗,歡迎掃碼關注,和小詹一起向上生長!「沒有開通發布權限的盡量多互動,提升活躍度可以更快開通哦」(聽我一分鐘,生活更輕松)(掃碼回復 1024 即可領取IT資料包)總結
以上是生活随笔為你收集整理的5 种 非传统 的可视化图,也是用Python画的的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据可视化,必须注意的30个小技巧!
- 下一篇: 实际案例演示:一行 Python 代码实