Pandas 模糊查詢與替換的操作

Posted on 2021-03-05 by WalkonNet

主要用到的工具：Pandas 、fuzzywuzzy

Pandas:是基於numpy的一種工具，專門為分析大量數據而生，它包含大量的處理數據的函數和方法，

以下為pandas中文API：

縮寫和包導入

在這個速查手冊中，我們使用如下縮寫：

df：任意的Pandas DataFrame對象

s：任意的Pandas Series對象

同時我們需要做如下的引入：

import pandas as pd

import numpy as np

導入數據

pd.read_csv(filename)：從CSV文件導入數據

pd.read_table(filename)：從限定分隔符的文本文件導入數據

pd.read_excel(filename)：從Excel文件導入數據

pd.read_sql(query, connection_object)：從SQL表/庫導入數據

pd.read_json(json_string)：從JSON格式的字符串導入數據

pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格

pd.read_clipboard()：從你的粘貼板獲取內容，並傳給read_table()

pd.DataFrame(dict)：從字典對象導入數據，Key是列名，Value是數據

導出數據

df.to_csv(filename)：導出數據到CSV文件

df.to_excel(filename)：導出數據到Excel文件

df.to_sql(table_name, connection_object)：導出數據到SQL表

df.to_json(filename)：以Json格式導出數據到文本文件

創建測試對象

pd.DataFrame(np.random.rand(20,5))：創建20行5列的隨機數組成的DataFrame對象

pd.Series(my_list)：從可迭代對象my_list創建一個Series對象

df.index = pd.date_range(‘1900/1/30’, periods=df.shape[0])：增加一個日期索引

查看、檢查數據

df.head(n)：查看DataFrame對象的前n行

df.tail(n)：查看DataFrame對象的最後n行

df.shape()：查看行數和列數

df.info()：查看索引、數據類型和內存信息

df.describe()：查看數值型列的匯總統計

s.value_counts(dropna=False)：查看Series對象的唯一值和計數

df.apply(pd.Series.value_counts)：查看DataFrame對象中每一列的唯一值和計數

數據選取

df[col]：根據列名，並以Series的形式返回列

df[[col1, col2]]：以DataFrame形式返回多列

s.iloc[0]：按位置選取數據

s.loc[‘index_one’]：按索引選取數據

df.iloc[0,:]：返回第一行

df.iloc[0,0]：返回第一列的第一個元素

df.values[:,:-1]:返回除瞭最後一列的其他列的所以數據

df.query(‘[1, 2] not in c’): 返回c列中不包含1，2的其他數據集

數據清理

df.columns = [‘a’,’b’,’c’]：重命名列名

pd.isnull()：檢查DataFrame對象中的空值，並返回一個Boolean數組

pd.notnull()：檢查DataFrame對象中的非空值，並返回一個Boolean數組

df.dropna()：刪除所有包含空值的行

df.dropna(axis=1)：刪除所有包含空值的列

df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行

df.fillna(x)：用x替換DataFrame對象中所有的空值

s.astype(float)：將Series中的數據類型更改為float類型

s.replace(1,’one’)：用‘one’代替所有等於1的值

s.replace([1,3],[‘one’,’three’])：用’one’代替1，用’three’代替3

df.rename(columns=lambda x: x + 1)：批量更改列名

df.rename(columns={‘old_name’: ‘new_ name’})：選擇性更改列名

df.set_index(‘column_one’)：更改索引列

df.rename(index=lambda x: x + 1)：批量重命名索引

數據處理：Filter、Sort和GroupBy

df[df[col] > 0.5]：選擇col列的值大於0.5的行

df.sort_values(col1)：按照列col1排序數據，默認升序排列

df.sort_values(col2, ascending=False)：按照列col1降序排列數據

df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，後按col2降序排列數據

df.groupby(col)：返回一個按列col進行分組的Groupby對象

df.groupby([col1,col2])：返回一個按多列進行分組的Groupby對象

df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：創建一個按列col1進行分組，並計算col2和col3的最大值的數據透視表

df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值

data.apply(np.mean)：對DataFrame中的每一列應用函數np.mean

data.apply(np.max,axis=1)：對DataFrame中的每一行應用函數np.max

數據合並

df1.append(df2)：將df2中的行添加到df1的尾部

df.concat([df1, df2],axis=1)：將df2中的列添加到df1的尾部

df1.join(df2,on=col1,how=’inner’)：對df1的列和df2的列執行SQL形式的join

數據統計

df.describe()：查看數據值列的匯總統計

df.mean()：返回所有列的均值

df.corr()：返回列與列之間的相關系數

df.count()：返回每一列中的非空值的個數

df.max()：返回每一列的最大值

df.min()：返回每一列的最小值

df.median()：返回每一列的中位數

df.std()：返回每一列的標準差

以下為數據處理的代碼：

#!/usr/bin/python
# -*- encoding: utf-8 
import numpy as np
import pandas as pd
from fuzzywuzzy import fuzz
from fuzzywuzzy import process 
 
def enum_row(row):
 print(row['state']) #對state這一列做枚舉 
 
def find_state_code(row):
 if row['state'] != 0:  # 如果這個state的名字存在，就用state的名字與states列表中的值選擇一個最接近的，如果小於80分，直接舍棄，大於80才返回
 print(process.extractOne(row['state'], states, score_cutoff=80)) 
 
def capital(str): # 把str這個字符串，第一個字母大寫，其餘小寫
 return str.capitalize() 
 
def correct_state(row):
 if row['state'] != 0: # 如果這個state的名字存在，就用state的名字與states列表中的值選擇一個最接近的，如果小於80分，直接舍棄，大於80才返回
 state = process.extractOne(row['state'], states, score_cutoff=80)
 if state: # 如果為真，則找到瞭一個相關性的州名
  state_name = state[0] # 選擇用找到的這個州名數據
  return ' '.join(map(capital, state_name.split(' '))) # 先按空格分開（有的州名中間有空格）單詞，然後每個單詞首字母大寫
 return row['state'] 
 
def fill_state_code(row):
 if row['state'] != 0:
 state = process.extractOne(row['state'], states, score_cutoff=80)
 if state:
  state_name = state[0]
  return state_to_code[state_name] # 返回這個州名的value，即縮寫
 return '' 
 
if __name__ == "__main__":
 pd.set_option('display.width', 200) # 橫向最多顯示多少個字符， 一般80不適合橫向的屏幕，平時多用200.
 data = pd.read_excel('sales.xlsx', sheetname='sheet1', header=0) # 讀取excel表
 print('data.head() = \n', data.head()) # 默認顯示前五行
 print('data.tail() = \n', data.tail()) # tail顯示後五行
 print('data.dtypes = \n', data.dtypes) # 數據類型
 print('data.columns = \n', data.columns)# 顯示第一行行名
 for c in data.columns:
 print(c, end=' ') # 輸出第一行行名，中間以空格隔開
 print() #相當於回車
 data['total'] = data['Jan'] + data['Feb'] + data['Mar'] # Jan、Feb、Mar三列的值相加得到一個total
 print(data.head())
 print(data['Jan'].sum()) # Jan這一列的值相加
 print(data['Jan'].min()) # Jan這一列的最小值
 print(data['Jan'].max()) # Jan這一列的最大值
 print(data['Jan'].mean()) # Jan這一列的平均值
 
 print('=============')
 # 添加一行
 s1 = data[['Jan', 'Feb', 'Mar', 'total']].sum() # s1包含四個值，分別是這四列的和
 print(s1)
 s2 = pd.DataFrame(data=s1)
 print(s2)
 print(s2.T)
 print(s2.T.reindex(columns=data.columns)) # 將s2進行轉置輸出
 # 即：
 s = pd.DataFrame(data=data[['Jan', 'Feb', 'Mar', 'total']].sum()).T
 s = s.reindex(columns=data.columns, fill_value=0)
 print(s)
 data = data.append(s, ignore_index=True)
 data = data.rename(index={15:'Total'})
 print(data.tail())
 
 # apply的使用
 print('==============apply的使用==========')
 data.apply(enum_row, axis=1)  # axis=0時對每一列做變換，axis=1時對每一行做變換
 
 # 事先寫好以state為單位的編碼字典
 state_to_code = {"VERMONT": "VT", "GEORGIA": "GA", "IOWA": "IA", "Armed Forces Pacific": "AP", "GUAM": "GU",
   "KANSAS": "KS", "FLORIDA": "FL", "AMERICAN SAMOA": "AS", "NORTH CAROLINA": "NC", "HAWAII": "HI",
   "NEW YORK": "NY", "CALIFORNIA": "CA", "ALABAMA": "AL", "IDAHO": "ID",
   "FEDERATED STATES OF MICRONESIA": "FM",
   "Armed Forces Americas": "AA", "DELAWARE": "DE", "ALASKA": "AK", "ILLINOIS": "IL",
   "Armed Forces Africa": "AE", "SOUTH DAKOTA": "SD", "CONNECTICUT": "CT", "MONTANA": "MT",
   "MASSACHUSETTS": "MA",
   "PUERTO RICO": "PR", "Armed Forces Canada": "AE", "NEW HAMPSHIRE": "NH", "MARYLAND": "MD",
   "NEW MEXICO": "NM",
   "MISSISSIPPI": "MS", "TENNESSEE": "TN", "PALAU": "PW", "COLORADO": "CO",
   "Armed Forces Middle East": "AE",
   "NEW JERSEY": "NJ", "UTAH": "UT", "MICHIGAN": "MI", "WEST VIRGINIA": "WV", "WASHINGTON": "WA",
   "MINNESOTA": "MN", "OREGON": "OR", "VIRGINIA": "VA", "VIRGIN ISLANDS": "VI",
   "MARSHALL ISLANDS": "MH",
   "WYOMING": "WY", "OHIO": "OH", "SOUTH CAROLINA": "SC", "INDIANA": "IN", "NEVADA": "NV",
   "LOUISIANA": "LA",
   "NORTHERN MARIANA ISLANDS": "MP", "NEBRASKA": "NE", "ARIZONA": "AZ", "WISCONSIN": "WI",
   "NORTH DAKOTA": "ND",
   "Armed Forces Europe": "AE", "PENNSYLVANIA": "PA", "OKLAHOMA": "OK", "KENTUCKY": "KY",
   "RHODE ISLAND": "RI",
   "DISTRICT OF COLUMBIA": "DC", "ARKANSAS": "AR", "MISSOURI": "MO", "TEXAS": "TX", "MAINE": "ME"}
 states = list(state_to_code.keys()) # 把字典中的key拿出來放到states列表中
 print(fuzz.ratio('Python Package', 'PythonPackage')) #計算Python Package與PythonPackage的相似度
 print(process.extract('Mississippi', states)) # Mississippi與states中哪個最接近，並且列出相似比，不考慮大小寫
 print(process.extract('Mississipi', states, limit=1)) # limit=1代表隻取最接近的一個
 print(process.extractOne('Mississipi', states)) # extractOne代表隻取最接近的一個
 data.apply(find_state_code, axis=1) #apply表示對每一行（axis=1）的數據做find_state_code的變換
 
 print('Before Correct State:\n', data['state']) # 打印修改之前的state
 data['state'] = data.apply(correct_state, axis=1) # 檢測每一行，並對其修改
 print('After Correct State:\n', data['state'])
 data.insert(5, 'State Code', np.nan) # 插入State Code這一列，為這一列州名的縮寫
 data['State Code'] = data.apply(fill_state_code, axis=1)
 print(data)
 
 # group by
 print('==============group by================')
 print(data.groupby('State Code'))
 print('All Columns:\n')
 print(data.groupby('State Code').sum()) # 按州名縮寫劃分，並將同樣州名的數字相加
 print('Short Columns:\n')
 print(data[['State Code', 'Jan', 'Feb', 'Mar', 'total']].groupby('State Code').sum())
 
 # 寫入文件
 data.to_excel('sales_result.xls', sheet_name='Sheet1', index=False)

補充：pandas基於多條件文本模糊查詢，list，str.contains()

針對文本的模糊查詢可以用str.contains()進行，但是如果多條件呢，幾十個上百個，不能一個一個去查詢。

思路是

1.將多條件簡歷在一個列表裡

2.通過列表推導式加str.contains()函數和sum()函數求和

3.通過loc篩選出我們需要的本文的內容

創建

需要篩選的內容words列表，之後進行篩選、

下面顯示的是sum函數裡的內容的最後形式，1和2都相當於True，0代表False

有時間寫一個更簡單的的另一種多條件模糊篩選。

以上為個人經驗，希望能給大傢一個參考，也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方，望不吝賜教。

Pandas 模糊查詢與替換的操作

縮寫和包導入

導入數據

導出數據

創建測試對象

查看、檢查數據

數據選取

數據清理

數據處理：Filter、Sort和GroupBy

數據合並

數據統計

思路是

創建

推薦閱讀：

發佈留言取消回覆

近期文章

縮寫和包導入

導入數據

導出數據

創建測試對象

查看、檢查數據

數據選取

數據清理

數據處理：Filter、Sort和GroupBy

數據合並

數據統計

思路是

創建

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆