一篇文章讓你快速掌握Pandas可視化圖表

Posted on 2021-08-11 by WalkonNet

前言

今天簡單介紹一下Pandas可視化圖表的一些操作，Pandas其實提供瞭一個繪圖方法plot()，可以很方便的將Series和Dataframe類型數據直接進行數據可視化。

1. 概述

這裡我們引入需要用到的庫，並做一些基礎設置。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 設置 可視化風格
plt.style.use('tableau-colorblind10') 

# 以下代碼從全局設置字體為SimHei（黑體），解決顯示中文問題【Windows】
plt.rcParams['font.sans-serif'] = ['SimHei']

# 解決中文字體下坐標軸負數的負號顯示問題
plt.rcParams['axes.unicode_minus'] = False

plot方法默認是折線圖，而它還支持以下幾類圖表類型：

‘line’ : 折線圖 (default)

‘bar’ : 柱狀圖

‘barh’ : 條形圖

‘hist’ : 直方圖

‘box’ : 箱型圖

‘kde’ : 密度圖

‘density’ : 同密度圖

‘area’ : 面積圖

‘pie’ : 餅圖

‘scatter’ : 散點圖 (DataFrame only)

‘hexbin’ : 六邊形箱體圖 (DataFrame only)

# 隨機種子
np.random.seed(1)
ts = pd.Series(np.random.randn(100), index=pd.date_range("1/1/2020", periods=100))
ts = ts.cumsum()
ts.plot()

2. 圖表元素設置

圖表元素設置主要是指數據源選擇、圖大小、標題、坐標軸文字、圖例、網格線、圖顏色、字體大小、線條樣式、色系、多子圖、圖形疊加與繪圖引擎等等。

數據源選擇

這裡是指坐標軸的x、y軸數據，對於Series類型數據來說其索引就是x軸，y軸則是具體的值；對於Dataframe類型數據來說，其索引同樣是x軸的值，y軸默認為全部，不過可以進行指定選擇。

# 隨機種子
np.random.seed(1)
df = pd.DataFrame(np.random.randn(100, 4), index=ts.index, columns=list("ABCD"))
df = df.cumsum()
df.head()

對於案例數據，直接繪圖效果如下（顯示全部列）

df.plot()

我們可以指定數據源，比如指定列A的數據

df.plot(y=’A’)

我們還可以指定x軸和多列為y，我這裡先構建一列X，然後進行數據源選取

df["X"] = list(range(len(df)))
df.head()

選擇X列為x軸，B、C列為y軸數據

# 指定多個Y
df.plot(x='X',y=['B','C'])

圖大小

通過參數figsize傳入一個元組，指定圖的長寬（英寸）

註意：以下我們以柱狀圖為例做演示

np.random.seed(1)
df = pd.DataFrame(np.random.rand(10, 3), columns=["a", "b", "c"])
df.head()

# 圖像大小
df.plot.bar(figsize=(10,5))

除瞭在繪圖時定義圖像大小外，我們還可以通過matplotlib的全局參數設置圖像大小

plt.rcParams['figure.figsize'] = (10,5)

標題

通過參數title設置圖表標題，需要註意的是如果想要顯示中文，需要提前設置相關字體參數，參考此前推文《》

# 標題
df.plot.bar(title='標題',)

圖例

通過參數legend可以設置圖例，默認是顯示圖例的，可以不顯示或者顯示的圖例順序倒序

# 圖例不顯示
df.plot.bar(legend=False)

# 圖例倒序
df.plot.bar(legend='reverse')

坐標軸文字

細心的朋友可能會發現，在上圖中x軸標簽數字顯示是躺著的，怎麼坐起來呢？

那麼可以通過參數rot設置文字的角度

# x軸標簽旋轉角度
df.plot.bar(rot=0)

網格線

默認情況下圖表是不顯示網格線的，我們可以通過參數grid來設置其顯隱

# 網格線
df.plot.bar(grid=True)

圖顏色

通過color參數可以設定填充顏色，edgecolor可以設置邊框顏色

# 指定顏色
df.plot.bar(color=['red','orange','yellow'], edgecolor='grey')

字體大小

通過fontsize可以設置字體大小

# 字體大小
df.plot.bar(fontsize=20)

線條樣式

對於折線圖來說，還可以設置線條樣式style

df.plot(style = ['.-','--','*-'] # 圓點、虛線、星星
       )

色系

通過colormap參數可以指定色系，色系選擇可以參考matplotlib庫的色系表

# 指定色系
x = df.plot.bar(colormap='rainbow')

多子圖

通過subplots參數決定是否以多子圖形式輸出顯示圖表

# 多子圖
x = df.plot.line(title ='多子圖',
             fontsize =16,
             subplots =True, # 分列
             style = ['.-','--','*-','^-'] # 圓點、虛線、星星
            )

圖像疊加

不同的圖表類型組合在一起

df.a.plot.bar()
df.b.plot(color='r')

繪圖引擎

通過backend可以指定不同的繪圖引擎，目前默認是matplotlib，還支持bokeh、plotly、Altair等等。當然，在使用新的引擎前需要先安裝對應的庫。

# 繪圖引擎
import pandas_bokeh

pandas_bokeh.output_notebook()
df.plot.bar(backend='pandas_bokeh')

# 繪圖引擎 plotly
df.plot.bar(backend='plotly',
            barmode='group',
            height=500, # 圖表高度
            width=800, # 圖表寬度
           )

3. 常見圖表類型

在介紹完圖表元素設置後，我們演示一下常見的幾種圖表類型。

柱狀圖

柱狀圖主要用於數據的對比，通過柱形的高低來表達數據的大小。

# 柱狀圖bar
df.plot.bar()

（這裡不做展示，前面案例中有）

此外我們還可以繪制堆疊柱狀圖，通過設置參數stacked來搞定

# 堆疊柱狀圖
df.plot.bar(stacked=True)

柱狀圖多子圖

# 柱狀圖多子圖
df.plot.bar(subplots=True, rot=0)

條形圖

條形圖和柱狀圖其實差不多，條形圖就是柱狀圖的橫向展示

# 條形圖barh
df.plot.barh(figsize=(6,8))

堆疊條形圖

# 堆疊條形圖
df.plot.barh(stacked=True)

直方圖

直方圖又稱為質量分佈圖，主要用於描述數據在不同區間內的分佈情況，描述的數據量一般比較大。

# 直方圖
np.random.seed(1)
df = pd.DataFrame(
    {
        "a": np.random.randn(1000) + 1,
        "b": np.random.randn(1000),
        "c": np.random.randn(1000) - 1,
    },
     columns=["a", "b", "c"],
)
df.head()

df.plot.hist(alpha=0.5) # alpha設置透明度

單直方圖

# 單直方圖
df.a.plot.hist()

堆疊並指定分箱數（默認為 10）

# 堆疊並指定分箱數（默認為 10）
df.plot.hist(stacked=True, bins=20)

橫向展示

# 可以通過orientation='horizontal'和 cumulative=True 繪制橫向和累積直方圖
df["a"].plot.hist(orientation="horizontal", cumulative=True)

多子圖展示

# 繪制多子圖
df.hist(color="k", alpha=0.5, bins=50)

單個直方圖（自定義分箱+透明度）

# 以下2種方式效果一致
df.hist('a', bins = 20, alpha=0.5)
# df.a.hist(bins = 20, alpha=0.5)

分組

# by 分組
np.random.seed(1)
data = pd.Series(np.random.randn(1000))
data.hist(by=np.random.randint(0, 4, 1000), figsize=(6, 4))

箱線圖

箱線圖又稱盒須圖、箱型圖等，用於顯示一組數據分佈情況的統計圖。

np.random.seed(1)
df = pd.DataFrame(np.random.rand(10, 5), columns=["A", "B", "C", "D", "E"])
df.head()

df.boxplot()

指定元素顏色

# 指定元素顏色
color = {
  "boxes": "Green", # 箱體顏色
  "whiskers": "Orange", # 連線顏色
  "medians": "Blue", # 中位數顏色
  "caps": "Gray", # 極值顏色
}

df.boxplot(color=color, sym="r+")

橫向展示

df.boxplot(vert=False, positions=[1, 4, 5, 6, 8])

面積圖

面積圖又稱區域圖，是將折線圖與坐標軸之間的區域使用顏色填充，填充顏色可以很好地突出趨勢信息，一般顏色帶有透明度會更合適於觀察不同序列之間的重疊關系。

np.random.seed(1)
df = pd.DataFrame(np.random.rand(10, 4), columns=["a", "b", "c", "d"])
df.head()

默認情況下，面積圖是堆疊的

# 默認是堆疊
df.plot.area()

單個面積圖

df.a.plot.area()

取消堆疊

# 取消堆疊
df.plot.area(stacked=False)

散點圖

散點圖就是將數據點展示在直角坐標系上，可以很好地反應變量之間的相互影響程度

np.random.seed(1)
df = pd.DataFrame(np.random.rand(50, 4), columns=["a", "b", "c", "d"])

df["species"] = pd.Categorical(
  ["setosa"] * 20 + ["versicolor"] * 20 + ["virginica"] * 10
)

df.head()

指定一組數據

df.plot.scatter(x="a", y="b")

多組數據並用不同顏色標註

ax = df.plot.scatter(x="a", y="b", color="Blue", label="Group 1")
df.plot.scatter(x="c", y="d", color="red", label="Group 2", ax=ax)

一組數據，x/y及z，其中x/y表示位置、z的值用於顏色區分

df.plot.scatter(x="a", y="b", c="c", s=50) # 參數s代表散點大小

一組數據，然後分類並用不同顏色（色系下）表示

df.plot.scatter(x="a", y="b", c="species", cmap="viridis", s=50)

氣泡圖

df.plot.scatter(x="a", y="b", color="red", s=df["c"] * 200)

餅圖

餅圖主要用於不同分類的數據占總體的比例情況

np.random.seed(8)
series = pd.Series(3 * np.random.rand(4), index=["a", "b", "c", "d"], name="series")
series

series.plot.pie(figsize=(6, 6), fontsize=20)

多子圖展示

np.random.seed(8)
df = pd.DataFrame(
     3 * np.random.rand(4, 2), index=["a", "b", "c", "d"], columns=["x", "y"]
 )
df

df.plot.pie(subplots=True, figsize=(8, 4), fontsize=16)

指定顯示樣式

series.plot.pie(
     labels=["AA", "BB", "CC", "DD"], # 標簽
     colors=["r", "g", "b", "c"], # 指定顏色
     autopct="%.2f", # 數字格式（百分比）
     fontsize=20,
     figsize=(6, 6),
 )

如果數據總和小於1，可以繪制扇形

series = pd.Series([0.1] * 4, index=["a", "b", "c", "d"], name="series2")
series.plot.pie(figsize=(6, 6), normalize=False)

4. 其他圖表類型

在常見圖表中，有密度圖和六邊形箱型圖繪制過程報錯，暫時沒有解決（本機環境：pandas1.3.1）

本節主要介紹散點矩形圖、安德魯曲線等，更多資料大傢可以查閱官方文檔瞭解

https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

散點矩形圖

from pandas.plotting import scatter_matrix

df = pd.DataFrame(np.random.randn(1000, 4), columns=["a", "b", "c", "d"])
scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal="kde")

安德魯曲線

from pandas.plotting import andrews_curves

data = pd.read_csv("iris.csv")
andrews_curves(data, "Name")

總結

到此這篇關於Pandas可視化圖表的文章就介紹到這瞭,更多相關Pandas可視化圖表內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

一篇文章讓你快速掌握Pandas可視化圖表

目錄

前言

1. 概述

2. 圖表元素設置

3. 常見圖表類型

4. 其他圖表類型

總結

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

前言

1. 概述

2. 圖表元素設置

3. 常見圖表類型

4. 其他圖表類型

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆