Pandas中Series的屬性,方法,常用操作使用案例

Posted on 2022-07-26 by WalkonNet

3.1 mean() —- 求算術平均數
3.2 min() max() —- 求最值
3.3 argmax() argmin() idxmax() idxmin() —- 獲取最值索引
3.4 median() —- 求中位數
3.5 value_counts() —- 求頻數
3.6 mode() —- 求眾數
3.7 quantile() —- 求四分位數
3.8 std() —- 標準差
3.9 describe() —- 統計 Series 的常見統計學指標結果
3.10 sort_values() —- 根據元素值進行排序

3.10.2 降序

3.11 sort_index() —- 根據索引值進行排序

3.11.2 升序
3.11.2 降序

3.12 apply() —- 根據傳入的函數參數處理 Series 對象

3.13 head() —- 查看 Series

3.14 tail() —- 查看 Series 對象的後 x 個元素

4. Series 的常用操作

4.1 Series 對象的數據訪問

4.1.1 使用數字索引進行訪問
4.1.2 使用自定義標簽索引進行訪問
4.1.3 使用索引掩碼進行訪問
4.1.4 一次性訪問多個元素

4.2 Series 對象數據元素的刪除

4.2.1 pop()
4.2.2 drop()

4.3 Series 對象數據元素的修改

4.3.1 通過標簽索引進行修改
4.3.2 通過數字索引進行修改

4.4 Series 對象數據元素的添加

4.4.1 通過標簽索引添加
4.4.2 append()

包的引入：

import numpy as np
import pandas as pd

1. Series 對象的創建

1.1 創建一個空的 Series 對象

s = pd.Series()
print(s)
print(type(s))

1.2 通過列表創建一個 Series 對象

需要傳入一個列表序列

l = [1, 2, 3, 4]
s = pd.Series(l)
print(s)
print('-'*20)
print(type(s))

1.3 通過元組創建一個 Series 對象

需要傳入一個元組序列

t = (1, 2, 3)
s = pd.Series(t)
print(s)
print('-'*20)
print(type(s))

1.4 通過字典創建一個 Series 對象

需要傳入一個字典

m = {'zs': 12, 'ls': 23, 'ww': 22}
s = pd.Series(m)
print(s)
print('-'*20)
print(type(s))

1.5 通過 ndarray 創建一個 Series 對象

需要傳入一個 ndarray

ndarr = np.array([1, 2, 3])
s = pd.Series(ndarr)
print(s)
print('-'*20)
print(type(s))

1.6 創建 Series 對象時指定索引

index：用於設置 Series 對象的索引

age = [12, 23, 22, 34]
name = ['zs', 'ls', 'ww', 'zl']
s = pd.Series(age, index=name)
print(s)
print('-'*20)
print(type(s))

1.7 通過一個標量(數)創建一個 Series 對象

num = 999
s = pd.Series(num, index=[1, 2, 3, 4])
print(s)
print('-'*20)
print(type(s))

ndarr = np.arange(0, 10, 2)
s = pd.Series(5, index=ndarr)
print(s)
print('-'*20)
print(type(s))

2. Series 的屬性

2.1 values —- 返回一個 ndarray 數組

l = [11, 22, 33, 44]
s = pd.Series(l)
print(s)
print('-'*20)
ndarr = s.values
print(ndarr)
print('-'*20)
print(type(ndarr))

2.2 index —- 返回 Series 的索引序列

d = {'zs': 12, 'ls': 23, 'ww': 35}
s = pd.Series(d)
print(s)
print('-'*20)
idx = s.index
print(idx)
print('-'*20)
print(type(idx))

2.3 dtype —- 返回 Series 中元素的數據類型

d = {'zs': 12, 'ls': 23, 'ww': 35}
s = pd.Series(d)
print(s)
print('-'*20)
print(s.dtype)

2. 4 size —- 返回 Series 中元素的個數

d = {'zs': 12, 'ls': 23, 'ww': 35}
s = pd.Series(d)
print(s)
print('-'*20)
print(s.size)

2.5 ndim —- 返回 Series 的維數

d = {'zs': 12, 'ls': 23, 'ww': 35}
s1 = pd.Series(d)
print(s1)
print('-'*20)
print(s1.ndim)
l = [[1, 1], [2, 2], [3, 3]]
s2 = pd.Series(l)
print(s2)
print('-'*20)
print(s2.ndim)

2.6 shape —- 返回 Series 的維度

d = {'zs': 12, 'ls': 23, 'ww': 35}
s1 = pd.Series(d)
print(s1)
print('-'*20)
print(s1.shape)
print()

l = [[1, 1], [2, 2], [3, 3]]
s2 = pd.Series(l)
print(s2)
print('-'*20)
print(s2.shape)

3. Series 的方法

3.1 mean() —- 求算術平均數

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
print(s.mean())

3.2 min() max() —- 求最值

l1 = [12, 23, 24, 34]
s1 = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s1)
print()
print(s1.max())
print(s1.min())
print()
l2 = ['ac', 'ca', 'cd', 'ab']
s2 = pd.Series(l2)
print(s2)
print()
print(s2.max())
print(s2.min())

3.3 argmax() argmin() idxmax() idxmin() —- 獲取最值索引

l1 = [12, 23, 24, 34]
s1 = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s1)
print()
# argmax() -- 最大值的數字索引
# idxmax() -- 最大值的標簽索引
# 兩個都不支持字符串類型的數據
print(s1.max(), s1.argmax(), s1.idxmax())
print(s1.min(), s1.argmin(), s1.idxmin())

3.4 median() —- 求中位數

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
print(s.median())

3.5 value_counts() —- 求頻數

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
print(s.value_counts())

3.6 mode() —- 求眾數

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
print(s.mode())
print()
l = [12, 23, 24, 34, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl', 'zq'])
print(s)
print()
print(s.mode())

3.7 quantile() —- 求四分位數

四分位數：把數值從小到大排列並分成四等分，處於三個分割點位置的數值就是四分位數。

需要傳入一個列表，列表中的元素為要獲取的數的對應位置

l = [1, 1, 2, 2, 3, 3, 4, 4]
s = pd.Series(l)
print(s)
print()
print(s.quantile([0, .25, .50, .75, 1]))

3.8 std() —- 標準差

總體標準差是反映研究總體內個體之間差異程度的一種統計指標。
總體標準差計算公式：

由於總體標準差計算出來會偏小，所以采用 ( n − d d o f ) (n-ddof) (n−ddof)的方式適當擴大標準差，即樣本標準差。
樣本標準差計算公式：

l = [1, 1, 2, 2, 3, 3, 4, 4]
s = pd.Series(l)
print(s)
print()
# 總體標準差
print(s.std())
print()
print(s.std(ddof=1))
print()
# 樣本標準差
print(s.std(ddof=2))

3.9 describe() —- 統計 Series 的常見統計學指標結果

l = [1, 1, 2, 2, 3, 3, 4, 4]
s = pd.Series(l)
print(s)
print()
print(s.describe())

3.10 sort_values() —- 根據元素值進行排序

ascending：True為升序(默認)，False為降序 3.10.1 升序

l = [4, 2, 1, 3]
s = pd.Series(l)
print(s)
print()
s = s.sort_values()
print(s)

3.10.2 降序

l = [4, 2, 1, 3]
s = pd.Series(l)
print(s)
print()
s = s.sort_values(ascending=False)
print(s)

3.11 sort_index() —- 根據索引值進行排序

ascending：True為升序(默認)，False為降序

3.11.2 升序

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
s = s.sort_index()
print(s)

3.11.2 降序

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
s = s.sort_index()
print(s)

3.12 apply() —- 根據傳入的函數參數處理 Series 對象

需要傳入一個函數參數

# x 為當前遍歷到的元素
def func(x):
  if (x%2==0): return x+1
  else: return x

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
# 調用 apply 方法，會將 Series 中的每個元素帶入 func 函數中進行處理
s = s.apply(func)
print(s)

3.13 head() —- 查看 Series

對象的前 x 個元素需要傳入一個數 x ，表示查看前 x 個元素，默認為前5個

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
# head(x) 查看 Series 對象的前 x 個元素
print(s.head(2))

3.14 tail() —- 查看 Series 對象的後 x 個元素

需要傳入一個數 x ，表示查看後 x 個元素，默認為後5個

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
# tail(x) 查看 Series 對象的後 x 個元素
print(s.tail(2))

4. Series 的常用操作

4.1 Series 對象的數據訪問

4.1.1 使用數字索引進行訪問

4.1.1.1 未自定義索引

l = [12, 23, 24, 34]
s = pd.Series(l)
print(s)
print()
print(s[0])
print()
print(s[1:-2])
print()
print(s[::2])
print()
print(s[::-1])

4.1.1.2 自定義索引

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
print(s[0])
print()
print(s[1:-2])
print()
print(s[::2])
print()
print(s[::-1])

4.1.2 使用自定義標簽索引進行訪問

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
print(s['zs'])
print()
# 自定義標簽索引進行切片包含開始與結束位置
print(s['ls':'zl'])
print()
print(s['zs':'zl':2])
print()
# 註意切邊范圍的方向與步長的方向
print(s['zl':'zs':-1])

4.1.3 使用索引掩碼進行訪問

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
idx = (s%2==0)
print(idx)
print()
# 索引掩碼(也是一個數組)
# 索引掩碼個數與原數組的個數一致，數組每個元素都與索引掩碼中的元素一一對應
# 數組每個元素都對應著索引掩碼中的一個True或False
# 隻有索引掩碼中為True所對應元素組中的元素才會被選中
print(s[idx])

4.1.4 一次性訪問多個元素

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
# 選出指定索引對應的元素
print(s[['zs', 'ww']])
print()
print(s[[1, 2]])

4.2 Series 對象數據元素的刪除

4.2.1 pop()

傳入要刪除元素的標簽索引

l = [12, 23, 24, 34]
s = pd.Series(l, index=['zs', 'ls', 'ww', 'zl'])
print(s)
print()
s.pop('ww')
print(s)

4.2.2 drop()