30 個 Python 函數,加速數據分析處理速度
前言:
Pandas
是 Python
中最廣泛使用的數據分析和操作庫。它提供瞭許多功能和方法,可以加快 「數據分析」 和 「預處理」 步驟。
為瞭更好的學習 Python
,我將以客戶流失數據集為例,分享 「30」 個在數據分析過程中最常使用的函數和方法。
數據如下所示:
import numpy as np import pandas as pd df = pd.read_csv("Churn_Modelling.csv") print(df.shape) df.columns
結果輸出:
(10000, 14)
Index([‘RowNumber’, ‘CustomerId’, ‘Surname’, ‘CreditScore’, ‘Geography’,’Gender’, ‘Age’, ‘Tenure’, ‘Balance’, ‘NumOfProducts’, ‘HasCrCard’,’IsActiveMember’, ‘EstimatedSalary’, ‘Exited’],dtype=’object’)
1.刪除列
df.drop(['RowNumber', 'CustomerId', 'Surname', 'CreditScore'], axis=1, inplace=True) print(df[:2]) print(df.shape)
結果輸出:
Geography Gender Age Tenure Balance NumOfProducts HasCrCard
0 France Female 42 2 0.0 1 1IsActiveMember EstimatedSalary Exited
0 1 101348.88 1
(10000, 10)
說明:「axis」 參數設置為 1 以放置列,0 設置為行。「inplace=True」 參數設置為 True 以保存更改。我們減瞭 4 列,因此列數從 14 個減少到 10 列。
2.選擇特定列
我們從 csv 文件中讀取部分列數據。可以使用 usecols
參數。
df_spec = pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance']) df_spec.head()
3.nrows
可以使用 nrows
參數,創建瞭一個包含 csv 文件前 5000 行的數據幀。還可以使用 skiprows
參數從文件末尾選擇行。Skiprows=5000
表示我們將在讀取 csv 文件時跳過前 5000 行。
df_partial = pd.read_csv("Churn_Modelling.csv", nrows=5000) print(df_partial.shape)
4.樣品
創建數據框後,我們可能需要一個小樣本來測試數據。我們可以使用 n
或 frac
參數來確定樣本大小。
df= pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance']) df_sample = df.sample(n=1000) df_sample2 = df.sample(frac=0.1)
5.檢查缺失值
isna
函數確定數據幀中缺失的值。通過將 isna
與 sum
函數一起使用,我們可以看到每列中缺失值的數量。
df.isna().sum()
6.使用 loc 和 iloc 添加缺失值
使用 loc 和 iloc 添加缺失值,兩者區別如下:
loc
:選擇帶標簽iloc
:選擇索引
我們首先創建 20 個隨機索引進行選擇
missing_index = np.random.randint(10000, size=20)
我們將使用 loc
將某些值更改為 np.nan
(缺失值)。
df.loc[missing_index, ['Balance','Geography']] = np.nan
“Balance
“和”Geography
“列中缺少 20 個值。讓我們用 iloc 做另一個示例。
df.iloc[missing_index, -1] = np.nan
7.填充缺失值
fillna
函數用於填充缺失的值。它提供瞭許多選項。我們可以使用特定值、聚合函數(例如均值)或上一個或下一個值。
avg = df['Balance'].mean() df['Balance'].fillna(value=avg, inplace=True)
fillna
函數的方法參數可用於根據列中的上一個或下一個值(例如方法=”ffill
“)填充缺失值。它可以對順序數據(例如時間序列)非常有用。
8.刪除缺失值
處理缺失值的另一個方法是刪除它們。以下代碼將刪除具有任何缺失值的行。
df.dropna(axis=0, how='any', inplace=True)
9.根據條件選擇行
在某些情況下,我們需要適合某些條件的觀測值(即行)
france_churn = df[(df.Geography == 'France') & (df.Exited == 1)] france_churn.Geography.value_counts()
10.用查詢描述條件
查詢函數提供瞭一種更靈活的傳遞條件的方法。我們可以用字符串來描述它們。
df2 = df.query('80000 < Balance < 100000') # 讓我們通過繪制平衡列的直方圖來確認結果。 df2['Balance'].plot(kind='hist', figsize=(8,5))
11.用 isin 描述條件
條件可能有多個值。在這種情況下,最好使用 isin
方法,而不是單獨編寫值。
df[df['Tenure'].isin([4,6,9,10])][:3]
12.Groupby 函數
Pandas Groupby
函數是一個多功能且易於使用的功能,可幫助獲取數據概述。它使瀏覽數據集和揭示變量之間的基本關系更加容易。
我們將做幾個組比函數的示例。讓我們從簡單的開始。以下代碼將基於 Geography
、Gender
組合對行進行分組,然後給出每個組的平均流失率。
df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean()
13.Groupby與聚合函數結合
agg
函數允許在組上應用多個聚合函數,函數的列表作為參數傳遞。
df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count'])
14.對不同的群體應用不同的聚合函數
df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg({'Exited':'sum', 'Balance':'mean'}) df_summary.rename(columns={'Exited':'# of churned customers', 'Balance':'Average Balance of Customers'},inplace=True)
此外,「NamedAgg
函數」允許重命名聚合中的列
import pandas as pd df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg(Number_of_churned_customers = pd.NamedAgg('Exited', 'sum'),Average_balance_of_customers = pd.NamedAgg('Balance', 'mean')) print(df_summary)
15.重置索引
您是否已經註意到上圖的數據格式瞭。我們可以通過重置索引來更改它。
print(df_summary.reset_index())
圖片
16.重置並刪除原索引
在某些情況下,我們需要重置索引並同時刪除原始索引。
df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True)
17.將特定列設置為索引
我們可以將數據幀中的任何列設置為索引。
df_new.set_index('Geography')
18.插入新列
group = np.random.randint(10, size=6) df_new['Group'] = group
19.where 函數
它用於根據條件替換行或列中的值。默認替換值為 NaN
,但我們也可以指定要作為替換值。
df_new['Balance'] = df_new['Balance'].where(df_new['Group'] >= 6, 0)
20.等級函數
等級函數為值分配一個排名。讓我們創建一個列,根據客戶的餘額對客戶進行排名。
df_new['rank'] = df_new['Balance'].rank(method='first', ascending=False).astype('int')
21.列中的唯一值數
它使用分類變量時派上用場。我們可能需要檢查唯一類別的數量。我們可以檢查值計數函數返回的序列的大小或使用 nunique
函數。
df.Geography.nunique
22.內存使用情況
使用函數 memory_usage
,這些值顯示以字節為單位的內存.
df.memory_usage()
23.數據類型轉換
默認情況下,分類數據與對象數據類型一起存儲。但是,它可能會導致不必要的內存使用,尤其是當分類變量具有較低的基數。
低基數意味著列與行數相比幾乎沒有唯一值。例如,地理列具有 3 個唯一值和 10000 行。
我們可以通過將其數據類型更改為”類別”來節省內存。
df['Geography'] = df['Geography'].astype('category')
24.替換值
替換函數可用於替換數據幀中的值。
df['Geography'].replace({0:'B1',1:'B2'})
25.繪制直方圖
pandas
不是一個數據可視化庫,但它使得創建基本繪圖變得非常簡單。
我發現使用 Pandas
創建基本繪圖更容易,而不是使用其他數據可視化庫。
讓我們創建平衡列的直方圖。
26.減少浮點數小數點
pandas
可能會為浮點數顯示過多的小數點。我們可以輕松地調整它。
df['Balance'].plot(kind='hist', figsize=(10,6), title='Customer Balance')
27.更改顯示選項
我們可以更改各種參數的默認顯示選項,而不是每次手動調整顯示選項。
get_option
:返回當前選項set_option
:更改選項 讓我們將小數點的顯示選項更改為 2。
pd.set_option("display.precision", 2)
可能要更改的一些其他選項包括:
max_colwidth
:列中顯示的最大字符數max_columns
:要顯示的最大列數max_rows
:要顯示的最大行數
28.通過列計算百分比變化
pct_change
用於計算序列中值的變化百分比。在計算時間序列或元素順序數組中更改的百分比時,它很有用。
ser= pd.Series([2,4,5,6,72,4,6,72]) ser.pct_change()
29.基於字符串的篩選
我們可能需要根據文本數據(如客戶名稱)篩選觀測值(行)。我已經在數據幀中添加瞭df_new
名稱。
df_new[df_new.Names.str.startswith('Mi')]
30.設置數據幀樣式
我們可以通過使用返回 Style
對象的 Style 屬性來實現此目的,它提供瞭許多用於格式化和顯示數據框的選項。例如,我們可以突出顯示最小值或最大值。
它還允許應用自定義樣式函數。
df_new.style.highlight_max(axis=0, color='darkgreen')
到此這篇關於30 個 Python
函數,加速數據分析處理速度的文章就介紹到這瞭,更多相關Python
函數,加速數據分析處理速度內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- Python Pandas模塊實現數據的統計分析的方法
- Python數據分析之 Pandas Dataframe修改和刪除及查詢操作
- 簡單且有用的Python數據分析和機器學習代碼
- python pandas處理excel表格數據的常用方法總結
- python數據處理67個pandas函數總結看完就用