最強Python可視化繪圖庫Plotly詳解用法
今天給大傢分享一篇可視化幹貨,介紹的是功能強大的開源 Python 繪圖庫 Plotly,教你如何用超簡單的(甚至隻要一行)代碼,繪制出更棒的圖表。
我之前一直使用 matplotlib ,由於它復雜的語法,我已經“沉沒”在裡面太多的時間成本。這也導致我花費瞭不知多少個深夜,在 StackOverflow 上搜索如何“格式化日期”或“增加第二個Y軸”。
但我們現在有一個更好的選擇瞭 ,比如易於使用、文檔健全、功能強大的開源 Python 繪圖庫 Plotly。今天就帶你深入體驗下,瞭解它如何用超簡單的代碼,繪制出更棒的圖表。歡迎收藏學習,喜歡點贊支持。文末提供技術交流群,歡迎參與交流學習。
本文中所有代碼都已經在 Github 上開源,所有的圖表都是可交互的,請使用Jupyter notebook查看 。
Github地址:https://github.com/WillKoehrsen/Data-Analysis/blob/master/plotly/Plotly%20Whirlwind%20Introduction.ipynb
Plotly 概述
plotly 的 Python 軟件包是一個開源的代碼庫,它基於 plot.js,而後者基於 d3.js。我們實際使用的則是一個對 plotly 進行封裝的庫,名叫 cufflinks,它能讓你更方便地使用 plotly 和 Pandas 數據表協同工作。
_*註:__Plotly 本身是一個擁有多個不同產品和開源工具集的可視化技術公司。_Plotly 的 Python 庫是可以免費使用的,在離線模式可以創建數量不限的圖表,在線模式因為用到瞭 Plotly 的共享服務,隻能生成並分享 25 張圖表。
本文中的所有可視化圖表都是在 Jupyter Notebook 中使用離線模式的 plotly + cufflinks 庫完成的。在使用 pip install cufflinks plotly 完成安裝後,你可以用下面這樣的代碼在 Jupyter 裡完成導入:
單變量分佈:柱狀圖和箱形圖
單變量分析圖往往是開始數據分析時的標準做法,而柱狀圖基本上算是單變量分佈分析時必備的圖表之一(雖然它還有一些不足)。
就拿博客文章點贊總數為例(原始數據見 Github:https://github.com/WillKoehrsen/Data-Analysis/tree/master/medium ),做一個簡單的交互式柱狀圖:
(代碼中的 df 是標準的 Pandas dataframe 對象)
(使用 plotly+cufflinks 創建的交互式柱狀圖)
對於已經習慣 matplotlib 的同學,你們隻需要多打一個字母(把 .plot 改成 .iplot ),就能獲得看起來更加美觀的交互式圖表!點擊圖片上的元素就能顯示出詳細信息、隨意縮放,還帶有(我們接下來會提到的)高亮篩選某些部分等超棒功能。
如果你想繪制堆疊柱狀圖,也隻需要這樣:
對 pandas 數據表進行簡單的處理,並生成條形圖:
就像上面展示的那樣,我們可以將 plotly + cufflinks 和 pandas 的能力整合在一起。比如,我們可以先用 .pivot() 進行數據透視表分析,然後再生成條形圖。
比如統計不同發表渠道中,每篇文章帶來的新增粉絲數:
交互式圖表帶來的好處是,我們可以隨意探索數據、拆分子項進行分析。箱型圖能提供大量的信息,但如果你看不到具體數值,你很可能會錯過其中的一大部分!
散點圖
散點圖是大多數分析的核心內容,它能讓我們看出一個變量隨著時間推移的變化情況,或是兩個(或多個)變量之間的關系變化情況。
時間序列分析
在現實世界中,相當部分的數據都帶有時間元素。幸運的是,plotly + cufflinks 天生就帶有支持時間序列可視化分析的功能。
以我在“Towards Data Science”網站上發表的文章數據為例,讓我們以發佈時間為索引構建一個數據集,看看文章熱度的變化情況:
在上圖中,我們用一行代碼完成瞭幾件事情:
- 自動生成美觀的時間序列 X 軸
- 增加第二條 Y 軸,因為兩個變量的范圍並不一致
- 把文章標題放在鼠標懸停時顯示的標簽中
為瞭顯示更多數據,我們可以方便地添加文本註釋:
(帶有文本註釋的散點圖)
下面的代碼中,我們將一個雙變量散點圖按第三個分類變量進行著色:
接下來我們要玩點復雜的:對數坐標軸。我們通過指定 plotly 的佈局(layout)參數來實現這一點(關於不同的佈局,請參考官方文檔 https://plot.ly/python/reference/ ),同時我們把點的尺寸(size參數)和一個數值變量 read_ratio (閱讀比例)綁定,數字越大,泡泡的尺寸也越大。
如果想要更復雜一些(詳見 Github 的源代碼),我們甚至可以在一張圖裡塞進 4 個變量!(然而並不推薦你們真的這麼搞)
和前面一樣,我們可以將 pandas 和 plotly+cufflinks 結合起來,實現許多有用的圖表:
建議你查看官方文檔,或者源代碼,裡面有更多的范例和函數實例。隻需要簡單的一兩行代碼,就可以為你的圖表加上文字註釋,輔助線,最佳擬合線等有用的元素,並且保持原有的各種交互式功能。
高級繪圖功能
接下來,我們要詳細介紹幾種特殊的圖表,平時你可能並不會很經常用到它們,但我保證隻要你用好瞭它們,一定能讓人刮目相看。我們要用到 plotly 的 figure_factory 模塊,隻需要一行代碼,就能生成超棒的圖表!
散點圖矩陣
假如我們要探索許多不同變量之間的關系,散點圖矩陣(也被稱為SPLOM)就是個很棒的選擇:
即使是這樣復雜的圖形,也是完全可交互的,讓我們能更詳盡地對數據進行探索。
關系熱圖
為瞭體現多個數值變量間的關系,我們可以計算它們的相關性,然後用帶標註熱度圖的形式進行可視化:
自定義主題
除瞭層出不窮的各種圖表外,Cufflinks 還提供瞭許多不同的著色主題,方便你輕松切換各種不同的圖表風格。下面兩張圖分別是“太空”主題和“ggplot”主題:
此外,還有 3D 圖表(曲面和泡泡):
對有興趣研究的用戶來說,做張餅圖也不是什麼難事:
在 Plotly 圖表工坊(Plotly Chart Studio)裡編輯
當你在 Jupyter Notebook 裡生成瞭這些圖表之後,你將會發現圖表的右下角出現瞭一個小小的鏈接,寫著“Export to plot.ly(發佈到 plot.ly)”。如果你點擊這個鏈接,你將會跳轉到一個“圖表工坊”(https://plot.ly/create/)。
在這裡,你可以在最終展示之前進一步修改和潤色你的圖表。可以添加標註,選擇某些元素的顏色,把一切都整理清楚,生成一個超棒的圖表。之後,你還可以將它發佈到網絡上,生成一個供其他人查閱的鏈接。
下面兩張圖是在圖表工坊裡制作的:
講瞭這麼多,看都看累瞭吧?然而我們還並沒有窮盡這個庫的所有功能。限於篇幅,有些更棒的圖表和范例,隻好請大傢訪問 plotly 和 cufflinks 的官方文檔去一一查看咯。
最後 ……
從現在看來,要用 Python 語言實現以上功能的最佳選擇非 plotly 莫屬。它讓我們快速生成可視化圖表,交互功能使我們更好地理解信息。
我承認,繪圖絕對是數據科學工作中最讓人享受的部分,而 plotly 能讓你更加愉悅地完成這些任務。
2021 年是時候升級你的 Python 繪圖庫瞭,讓自己在數據科學和可視化方面變得更快、更強、更美吧!
技術交流
歡迎轉載、收藏、有所收獲點贊支持一下!
到此這篇關於最強Python可視化繪圖庫Plotly詳解用法的文章就介紹到這瞭,更多相關Python Plotly內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- 聊聊.py和.ipynb的一些小知識
- 淺談哪個Python庫才最適合做數據可視化
- python數據可視化JupyterLab實用擴展程序Mito
- Python利用plotly繪制正二十面體詳解
- Python "手繪風格"數據可視化方法實例匯總