一篇文章讓你快速掌握Pandas可視化圖表
前言
今天簡單介紹一下Pandas可視化圖表的一些操作,Pandas其實提供瞭一個繪圖方法plot()
,可以很方便的將Series和Dataframe類型數據直接進行數據可視化。
1. 概述
這裡我們引入需要用到的庫,並做一些基礎設置。
import pandas as pd import numpy as np import matplotlib.pyplot as plt # 設置 可視化風格 plt.style.use('tableau-colorblind10') # 以下代碼從全局設置字體為SimHei(黑體),解決顯示中文問題【Windows】 plt.rcParams['font.sans-serif'] = ['SimHei'] # 解決中文字體下坐標軸負數的負號顯示問題 plt.rcParams['axes.unicode_minus'] = False
plot方法默認是折線圖,而它還支持以下幾類圖表類型:
‘line’ : 折線圖 (default)
‘bar’ : 柱狀圖
‘barh’ : 條形圖
‘hist’ : 直方圖
‘box’ : 箱型圖
‘kde’ : 密度圖
‘density’ : 同密度圖
‘area’ : 面積圖
‘pie’ : 餅圖
‘scatter’ : 散點圖 (DataFrame only)
‘hexbin’ : 六邊形箱體圖 (DataFrame only)
# 隨機種子 np.random.seed(1) ts = pd.Series(np.random.randn(100), index=pd.date_range("1/1/2020", periods=100)) ts = ts.cumsum() ts.plot()
2. 圖表元素設置
圖表元素設置主要是指 數據源選擇、圖大小、標題、坐標軸文字、圖例、網格線、圖顏色、字體大小、線條樣式、色系、多子圖、圖形疊加與繪圖引擎等等。
數據源選擇
這裡是指坐標軸的x、y軸數據,對於Series類型數據來說其索引就是x軸,y軸則是具體的值;對於Dataframe類型數據來說,其索引同樣是x軸的值,y軸默認為全部,不過可以進行指定選擇。
# 隨機種子 np.random.seed(1) df = pd.DataFrame(np.random.randn(100, 4), index=ts.index, columns=list("ABCD")) df = df.cumsum() df.head()
對於案例數據,直接繪圖效果如下(顯示全部列)
df.plot()
我們可以指定數據源,比如指定列A的數據
df.plot(y=’A’)
我們還可以指定x軸和多列為y,我這裡先構建一列X,然後進行數據源選取
df["X"] = list(range(len(df))) df.head()
選擇X列為x軸,B、C列為y軸數據
# 指定多個Y df.plot(x='X',y=['B','C'])
圖大小
通過參數figsize傳入一個元組,指定圖的長寬(英寸)
註意:以下我們以柱狀圖為例做演示
np.random.seed(1) df = pd.DataFrame(np.random.rand(10, 3), columns=["a", "b", "c"]) df.head()
# 圖像大小 df.plot.bar(figsize=(10,5))
除瞭在繪圖時定義圖像大小外,我們還可以通過matplotlib的全局參數設置圖像大小
plt.rcParams['figure.figsize'] = (10,5)
標題
通過參數title設置圖表標題,需要註意的是如果想要顯示中文,需要提前設置相關字體參數,參考此前推文《》
# 標題 df.plot.bar(title='標題',)
圖例
通過參數legend可以設置圖例,默認是顯示圖例的,可以不顯示或者顯示的圖例順序倒序
# 圖例不顯示 df.plot.bar(legend=False)
# 圖例倒序 df.plot.bar(legend='reverse')
坐標軸文字
細心的朋友可能會發現,在上圖中x軸標簽數字顯示是躺著的,怎麼坐起來呢?
那麼可以通過參數rot設置文字的角度
# x軸標簽旋轉角度 df.plot.bar(rot=0)
網格線
默認情況下圖表是不顯示網格線的,我們可以通過參數grid來設置其顯隱
# 網格線 df.plot.bar(grid=True)
圖顏色
通過color參數可以設定填充顏色,edgecolor可以設置邊框顏色
# 指定顏色 df.plot.bar(color=['red','orange','yellow'], edgecolor='grey')
字體大小
通過fontsize可以設置字體大小
# 字體大小 df.plot.bar(fontsize=20)
線條樣式
對於折線圖來說,還可以設置線條樣式style
df.plot(style = ['.-','--','*-'] # 圓點、虛線、星星 )
色系
通過colormap參數可以指定色系,色系選擇可以參考matplotlib庫的色系表
# 指定色系 x = df.plot.bar(colormap='rainbow')
多子圖
通過subplots參數決定是否以多子圖形式輸出顯示圖表
# 多子圖 x = df.plot.line(title ='多子圖', fontsize =16, subplots =True, # 分列 style = ['.-','--','*-','^-'] # 圓點、虛線、星星 )
圖像疊加
不同的圖表類型組合在一起
df.a.plot.bar() df.b.plot(color='r')
繪圖引擎
通過backend可以指定不同的繪圖引擎,目前默認是matplotlib,還支持bokeh、plotly、Altair等等。當然,在使用新的引擎前需要先安裝對應的庫。
# 繪圖引擎 import pandas_bokeh pandas_bokeh.output_notebook() df.plot.bar(backend='pandas_bokeh')
# 繪圖引擎 plotly df.plot.bar(backend='plotly', barmode='group', height=500, # 圖表高度 width=800, # 圖表寬度 )
3. 常見圖表類型
在介紹完圖表元素設置後,我們演示一下常見的幾種圖表類型。
柱狀圖
柱狀圖主要用於數據的對比,通過柱形的高低來表達數據的大小。
# 柱狀圖bar df.plot.bar()
(這裡不做展示,前面案例中有)
此外我們還可以繪制堆疊柱狀圖,通過設置參數stacked來搞定
# 堆疊柱狀圖 df.plot.bar(stacked=True)
柱狀圖多子圖
# 柱狀圖多子圖 df.plot.bar(subplots=True, rot=0)
條形圖
條形圖和柱狀圖其實差不多,條形圖就是柱狀圖的橫向展示
# 條形圖barh df.plot.barh(figsize=(6,8))
堆疊條形圖
# 堆疊條形圖 df.plot.barh(stacked=True)
直方圖
直方圖又稱為質量分佈圖,主要用於描述數據在不同區間內的分佈情況,描述的數據量一般比較大。
# 直方圖 np.random.seed(1) df = pd.DataFrame( { "a": np.random.randn(1000) + 1, "b": np.random.randn(1000), "c": np.random.randn(1000) - 1, }, columns=["a", "b", "c"], ) df.head()
df.plot.hist(alpha=0.5) # alpha設置透明度
單直方圖
# 單直方圖 df.a.plot.hist()
堆疊並指定分箱數(默認為 10)
# 堆疊並指定分箱數(默認為 10) df.plot.hist(stacked=True, bins=20)
橫向展示
# 可以通過orientation='horizontal'和 cumulative=True 繪制橫向和累積直方圖 df["a"].plot.hist(orientation="horizontal", cumulative=True)
多子圖展示
# 繪制多子圖 df.hist(color="k", alpha=0.5, bins=50)
單個直方圖(自定義分箱+透明度)
# 以下2種方式效果一致 df.hist('a', bins = 20, alpha=0.5) # df.a.hist(bins = 20, alpha=0.5)
分組
# by 分組 np.random.seed(1) data = pd.Series(np.random.randn(1000)) data.hist(by=np.random.randint(0, 4, 1000), figsize=(6, 4))
箱線圖
箱線圖又稱盒須圖、箱型圖等,用於顯示一組數據分佈情況的統計圖。
np.random.seed(1) df = pd.DataFrame(np.random.rand(10, 5), columns=["A", "B", "C", "D", "E"]) df.head()
df.boxplot()
指定元素顏色
# 指定元素顏色 color = { "boxes": "Green", # 箱體顏色 "whiskers": "Orange", # 連線顏色 "medians": "Blue", # 中位數顏色 "caps": "Gray", # 極值顏色 } df.boxplot(color=color, sym="r+")
橫向展示
df.boxplot(vert=False, positions=[1, 4, 5, 6, 8])
面積圖
面積圖又稱區域圖,是將折線圖與坐標軸之間的區域使用顏色填充,填充顏色可以很好地突出趨勢信息,一般顏色帶有透明度會更合適於觀察不同序列之間的重疊關系。
np.random.seed(1) df = pd.DataFrame(np.random.rand(10, 4), columns=["a", "b", "c", "d"]) df.head()
默認情況下,面積圖是堆疊的
# 默認是堆疊 df.plot.area()
單個面積圖
df.a.plot.area()
取消堆疊
# 取消堆疊 df.plot.area(stacked=False)
散點圖
散點圖就是將數據點展示在直角坐標系上,可以很好地反應變量之間的相互影響程度
np.random.seed(1) df = pd.DataFrame(np.random.rand(50, 4), columns=["a", "b", "c", "d"]) df["species"] = pd.Categorical( ["setosa"] * 20 + ["versicolor"] * 20 + ["virginica"] * 10 ) df.head()
指定一組數據
df.plot.scatter(x="a", y="b")
多組數據並用不同顏色標註
ax = df.plot.scatter(x="a", y="b", color="Blue", label="Group 1") df.plot.scatter(x="c", y="d", color="red", label="Group 2", ax=ax)
一組數據,x/y及z,其中x/y表示位置、z的值用於顏色區分
df.plot.scatter(x="a", y="b", c="c", s=50) # 參數s代表散點大小
一組數據,然後分類並用不同顏色(色系下)表示
df.plot.scatter(x="a", y="b", c="species", cmap="viridis", s=50)
氣泡圖
df.plot.scatter(x="a", y="b", color="red", s=df["c"] * 200)
餅圖
餅圖主要用於不同分類的數據占總體的比例情況
np.random.seed(8) series = pd.Series(3 * np.random.rand(4), index=["a", "b", "c", "d"], name="series") series
series.plot.pie(figsize=(6, 6), fontsize=20)
多子圖展示
np.random.seed(8) df = pd.DataFrame( 3 * np.random.rand(4, 2), index=["a", "b", "c", "d"], columns=["x", "y"] ) df
df.plot.pie(subplots=True, figsize=(8, 4), fontsize=16)
指定顯示樣式
series.plot.pie( labels=["AA", "BB", "CC", "DD"], # 標簽 colors=["r", "g", "b", "c"], # 指定顏色 autopct="%.2f", # 數字格式(百分比) fontsize=20, figsize=(6, 6), )
如果數據總和小於1,可以繪制扇形
series = pd.Series([0.1] * 4, index=["a", "b", "c", "d"], name="series2") series.plot.pie(figsize=(6, 6), normalize=False)
4. 其他圖表類型
在常見圖表中,有密度圖和六邊形箱型圖 繪制過程報錯,暫時沒有解決(本機環境:pandas1.3.1)
本節主要介紹散點矩形圖、安德魯曲線等,更多資料大傢可以查閱官方文檔瞭解
https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html
散點矩形圖
from pandas.plotting import scatter_matrix df = pd.DataFrame(np.random.randn(1000, 4), columns=["a", "b", "c", "d"]) scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal="kde")
安德魯曲線
from pandas.plotting import andrews_curves data = pd.read_csv("iris.csv") andrews_curves(data, "Name")
總結
到此這篇關於Pandas可視化圖表的文章就介紹到這瞭,更多相關Pandas可視化圖表內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- python使用Matplotlib繪制多種常見圖形
- Pandas繪圖函數超詳細講解
- Python Pandas工具繪制數據圖使用教程
- Python數據分析之繪圖和可視化詳解
- Python高級數據分析之pandas和matplotlib繪圖