30 個 Python 函數，加速數據分析處理速度

Posted on 2021-12-26 by WalkonNet

1.刪除列
2.選擇特定列
3.nrows
4.樣品
5.檢查缺失值
6.使用 loc 和 iloc 添加缺失值
7.填充缺失值
8.刪除缺失值
9.根據條件選擇行
10.用查詢描述條件
11.用 isin 描述條件
12.Groupby 函數
13.Groupby與聚合函數結合
14.對不同的群體應用不同的聚合函數
15.重置索引
16.重置並刪除原索引
17.將特定列設置為索引
18.插入新列
19.where 函數
20.等級函數
21.列中的唯一值數
22.內存使用情況
23.數據類型轉換
24.替換值
25.繪制直方圖
26.減少浮點數小數點
27.更改顯示選項
28.通過列計算百分比變化
29.基於字符串的篩選
30.設置數據幀樣式

前言：

Pandas 是 Python 中最廣泛使用的數據分析和操作庫。它提供瞭許多功能和方法，可以加快「數據分析」和「預處理」步驟。

為瞭更好的學習 Python，我將以客戶流失數據集為例，分享「30」個在數據分析過程中最常使用的函數和方法。

數據如下所示：

import numpy as np
import pandas as pd
df = pd.read_csv("Churn_Modelling.csv")
print(df.shape)
df.columns

結果輸出：

(10000, 14)
Index([‘RowNumber’, ‘CustomerId’, ‘Surname’, ‘CreditScore’, ‘Geography’,’Gender’, ‘Age’, ‘Tenure’, ‘Balance’, ‘NumOfProducts’, ‘HasCrCard’,’IsActiveMember’, ‘EstimatedSalary’, ‘Exited’],dtype=’object’)

1.刪除列

df.drop(['RowNumber', 'CustomerId', 'Surname', 'CreditScore'], axis=1, inplace=True)
print(df[:2])
print(df.shape)

結果輸出：

Geography Gender Age Tenure Balance NumOfProducts HasCrCard
0    France Female   42       2      0.0              1          1

   IsActiveMember EstimatedSalary Exited
0               1        101348.88       1
(10000, 10)

說明：「axis」參數設置為 1 以放置列，0 設置為行。「inplace=True」參數設置為 True 以保存更改。我們減瞭 4 列，因此列數從 14 個減少到 10 列。

2.選擇特定列

我們從 csv 文件中讀取部分列數據。可以使用 usecols 參數。

df_spec = pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])
df_spec.head()

3.nrows

可以使用 nrows 參數，創建瞭一個包含 csv 文件前 5000 行的數據幀。還可以使用 skiprows 參數從文件末尾選擇行。Skiprows=5000 表示我們將在讀取 csv 文件時跳過前 5000 行。

df_partial = pd.read_csv("Churn_Modelling.csv", nrows=5000)
print(df_partial.shape)

4.樣品

創建數據框後，我們可能需要一個小樣本來測試數據。我們可以使用 n 或 frac 參數來確定樣本大小。

df= pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])
df_sample = df.sample(n=1000)
df_sample2 = df.sample(frac=0.1)

5.檢查缺失值

isna 函數確定數據幀中缺失的值。通過將 isna 與 sum 函數一起使用，我們可以看到每列中缺失值的數量。

df.isna().sum()

6.使用 loc 和 iloc 添加缺失值

使用 loc 和 iloc 添加缺失值，兩者區別如下：

loc：選擇帶標簽
iloc：選擇索引

我們首先創建 20 個隨機索引進行選擇

missing_index = np.random.randint(10000, size=20)

我們將使用 loc 將某些值更改為 np.nan（缺失值）。

df.loc[missing_index, ['Balance','Geography']] = np.nan

“Balance“和”Geography“列中缺少 20 個值。讓我們用 iloc 做另一個示例。

df.iloc[missing_index, -1] = np.nan

7.填充缺失值

fillna 函數用於填充缺失的值。它提供瞭許多選項。我們可以使用特定值、聚合函數（例如均值）或上一個或下一個值。

avg = df['Balance'].mean()
df['Balance'].fillna(value=avg, inplace=True)

fillna 函數的方法參數可用於根據列中的上一個或下一個值（例如方法=”ffill“）填充缺失值。它可以對順序數據（例如時間序列）非常有用。

8.刪除缺失值

處理缺失值的另一個方法是刪除它們。以下代碼將刪除具有任何缺失值的行。

df.dropna(axis=0, how='any', inplace=True)

9.根據條件選擇行

在某些情況下，我們需要適合某些條件的觀測值（即行）

france_churn = df[(df.Geography == 'France') & (df.Exited == 1)]
france_churn.Geography.value_counts()

10.用查詢描述條件

查詢函數提供瞭一種更靈活的傳遞條件的方法。我們可以用字符串來描述它們。

df2 = df.query('80000 < Balance < 100000')
# 讓我們通過繪制平衡列的直方圖來確認結果。
df2['Balance'].plot(kind='hist', figsize=(8,5))

11.用 isin 描述條件

條件可能有多個值。在這種情況下，最好使用 isin 方法，而不是單獨編寫值。

df[df['Tenure'].isin([4,6,9,10])][:3]

12.Groupby 函數

Pandas Groupby 函數是一個多功能且易於使用的功能，可幫助獲取數據概述。它使瀏覽數據集和揭示變量之間的基本關系更加容易。

我們將做幾個組比函數的示例。讓我們從簡單的開始。以下代碼將基於 Geography、Gender 組合對行進行分組，然後給出每個組的平均流失率。

df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean()

13.Groupby與聚合函數結合

agg 函數允許在組上應用多個聚合函數，函數的列表作為參數傳遞。

df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count'])

14.對不同的群體應用不同的聚合函數

df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg({'Exited':'sum', 'Balance':'mean'})
df_summary.rename(columns={'Exited':'# of churned customers', 'Balance':'Average Balance of Customers'},inplace=True)

此外，「NamedAgg 函數」允許重命名聚合中的列

import pandas as pd
df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg(Number_of_churned_customers = pd.NamedAgg('Exited', 'sum'),Average_balance_of_customers = pd.NamedAgg('Balance', 'mean'))
print(df_summary)

15.重置索引

您是否已經註意到上圖的數據格式瞭。我們可以通過重置索引來更改它。

print(df_summary.reset_index())

圖片

16.重置並刪除原索引

在某些情況下，我們需要重置索引並同時刪除原始索引。

df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True)

17.將特定列設置為索引

我們可以將數據幀中的任何列設置為索引。

df_new.set_index('Geography')

18.插入新列

group = np.random.randint(10, size=6)
df_new['Group'] = group

19.where 函數

它用於根據條件替換行或列中的值。默認替換值為 NaN，但我們也可以指定要作為替換值。

df_new['Balance'] = df_new['Balance'].where(df_new['Group'] >= 6, 0)

20.等級函數

等級函數為值分配一個排名。讓我們創建一個列，根據客戶的餘額對客戶進行排名。

df_new['rank'] = df_new['Balance'].rank(method='first', ascending=False).astype('int')

21.列中的唯一值數

它使用分類變量時派上用場。我們可能需要檢查唯一類別的數量。我們可以檢查值計數函數返回的序列的大小或使用 nunique 函數。

df.Geography.nunique

22.內存使用情況

使用函數 memory_usage,這些值顯示以字節為單位的內存.

df.memory_usage()

23.數據類型轉換

默認情況下，分類數據與對象數據類型一起存儲。但是，它可能會導致不必要的內存使用，尤其是當分類變量具有較低的基數。

低基數意味著列與行數相比幾乎沒有唯一值。例如，地理列具有 3 個唯一值和 10000 行。

我們可以通過將其數據類型更改為”類別”來節省內存。

df['Geography'] = df['Geography'].astype('category')

24.替換值

替換函數可用於替換數據幀中的值。

df['Geography'].replace({0:'B1',1:'B2'})

25.繪制直方圖

pandas 不是一個數據可視化庫，但它使得創建基本繪圖變得非常簡單。

我發現使用 Pandas 創建基本繪圖更容易，而不是使用其他數據可視化庫。

讓我們創建平衡列的直方圖。

26.減少浮點數小數點

pandas 可能會為浮點數顯示過多的小數點。我們可以輕松地調整它。

df['Balance'].plot(kind='hist', figsize=(10,6), 
title='Customer Balance')

27.更改顯示選項

我們可以更改各種參數的默認顯示選項，而不是每次手動調整顯示選項。

get_option：返回當前選項
set_option：更改選項讓我們將小數點的顯示選項更改為 2。

pd.set_option("display.precision", 2)

可能要更改的一些其他選項包括：

max_colwidth：列中顯示的最大字符數
max_columns：要顯示的最大列數
max_rows：要顯示的最大行數

28.通過列計算百分比變化

pct_change用於計算序列中值的變化百分比。在計算時間序列或元素順序數組中更改的百分比時，它很有用。

ser= pd.Series([2,4,5,6,72,4,6,72])
ser.pct_change()

29.基於字符串的篩選

我們可能需要根據文本數據（如客戶名稱）篩選觀測值（行）。我已經在數據幀中添加瞭df_new名稱。

df_new[df_new.Names.str.startswith('Mi')]

30.設置數據幀樣式

我們可以通過使用返回 Style 對象的 Style 屬性來實現此目的，它提供瞭許多用於格式化和顯示數據框的選項。例如，我們可以突出顯示最小值或最大值。

它還允許應用自定義樣式函數。

df_new.style.highlight_max(axis=0, color='darkgreen')

到此這篇關於30 個 Python 函數，加速數據分析處理速度的文章就介紹到這瞭,更多相關Python 函數，加速數據分析處理速度內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

30 個 Python 函數，加速數據分析處理速度

目錄

1.刪除列

2.選擇特定列

3.nrows

4.樣品

5.檢查缺失值

6.使用 loc 和 iloc 添加缺失值

7.填充缺失值

8.刪除缺失值

9.根據條件選擇行

10.用查詢描述條件

11.用 isin 描述條件

12.Groupby 函數

13.Groupby與聚合函數結合

14.對不同的群體應用不同的聚合函數

15.重置索引

16.重置並刪除原索引

17.將特定列設置為索引

18.插入新列

19.where 函數

20.等級函數

21.列中的唯一值數

22.內存使用情況

23.數據類型轉換

24.替換值

25.繪制直方圖

26.減少浮點數小數點

27.更改顯示選項

28.通過列計算百分比變化

29.基於字符串的篩選

30.設置數據幀樣式

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

1.刪除列

2.選擇特定列

3.nrows

4.樣品

5.檢查缺失值

6.使用 loc 和 iloc 添加缺失值

7.填充缺失值

8.刪除缺失值

9.根據條件選擇行

10.用查詢描述條件

11.用 isin 描述條件

12.Groupby 函數

13.Groupby與聚合函數結合

14.對不同的群體應用不同的聚合函數

15.重置索引

16.重置並刪除原索引

17.將特定列設置為索引

18.插入新列

19.where 函數

20.等級函數

21.列中的唯一值數

22.內存使用情況

23.數據類型轉換

24.替換值

25.繪制直方圖

26.減少浮點數小數點

27.更改顯示選項

28.通過列計算百分比變化

29.基於字符串的篩選

30.設置數據幀樣式

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆