pandas針對excel處理的實現

本文主要介紹瞭pandas針對excel處理的實現,分享給大傢,具體如下:

在這裡插入圖片描述

在這裡插入圖片描述

讀取文件

import padas
df = pd.read_csv("")  #讀取文件
pd.read_clipboard()  #讀取粘貼板的內容
#解決數據顯示不完全的問題
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
#獲取指定單元格的值
datefirst = config.iloc[0,1]
datename = config.iloc[0,2]
#新建一列two,篩選料號一列的前倆個
sheet["two"] = sheet["料號"].apply(lambda x:x[:2])

數值處理

df["dog"] = df["dog"].replace(-1,0)  #數值替換
#apply理解函數作為一個對象,可以作為參數傳遞給其它參數,並且能作為函數的返回值
df["price_new"] = df["price"].apply(lambda pri:pyi.lower())  #新列對老列處理
df["pricee"] = df["price"] *2  #新列

獲取數據

data = df.head()  #默認讀取前行
df = pd.read_excel("lemon.xlsx",sheet_name=["python","student"]) #可以通過表單名同時讀取多個
df = pd.read_excel("lemon.clsx",sheet_name=0) 

data = df.values #獲取所有的數據
print("獲取到所有的值:\n{0}".format(data)) #格式化輸出

df = pd.read_excel("lemon.xlsx")
data = df.ix[0].values   #表示第一行,不包含表頭
print("獲取到所有的值:\n{0}".format(data)) #格式化輸出

loc和iloc詳解

loc[row,cloumn] 先行後列 : 是全部行或列,一般多行可以用中括號,連續的可以用a:c等
iloc[index,columns] 行索引,列索引,索引都是從0開始,用法是一樣的

多行

多行嵌套
df = pd.read_excel("lemon.xlsx")
data = df.loc[1,2]  #讀取指定多行的話,就要在ix[]裡面嵌套列表指定行數
print("獲取到所有的值:\n{0}".format(data)) #格式化輸出

多行
df=pd.read_excel('lemon.xlsx')
data=df.ix[1,2]#讀取第一行第二列的值,這裡不需要嵌套列表
print("讀取指定行的數據:\n{0}".format(data))

多行多列嵌套
df=pd.read_excel('lemon.xlsx')
data=df.ix[[1,2],['title','data']].values#讀取第一行第二行的title以及data列的值,這裡需要嵌套列表
print("讀取指定行的數據:\n{0}".format(data))

獲取所有行和指定列
df=pd.read_excel('lemon.xlsx')
data=df.ix[:,['title','data']].values#讀所有行的title以及data列的值,這裡需要嵌套列表
print("讀取指定行的數據:\n{0}".format(data))

輸出行號和列號

輸出行號並打印輸出
df=pd.read_excel('lemon.xlsx')
print("輸出行號列表",df.index.values)
輸出結果是:
輸出行號列表 [0 1 2 3]

輸出列名並打印輸出
df=pd.read_excel('lemon.xlsx')
print("輸出列標題",df.columns.values)
運行結果如下所示:
輸出列標題 ['case_id' 'title' 'data']

獲取指定行數的值
df=pd.read_excel('lemon.xlsx')
print("輸出值",df.sample(3).values)#這個方法類似於head()方法以及df.values方法
輸出值
 [[2 '輸入錯誤的密碼' '{"mobilephone":"18688773467","pwd":"12345678"}']
 [3 '正常充值' '{"mobilephone":"18688773467","amount":"1000"}']
 [1 '正常登錄' '{"mobilephone":"18688773467","pwd":"123456"}']]

獲取指定值

獲取指定列的值
df=pd.read_excel('lemon.xlsx')
print("輸出值\n",df['data'].values)

excel數據轉字典
df=pd.read_excel('lemon.xlsx')
test_data=[]
for i in df.index.values:#獲取行號的索引,並對其進行遍歷:
  #根據i來獲取每一行指定的數據 並利用to_dict轉成字典
  row_data=df.ix[i,['case_id','module','title','http_method','url','data','expected']].to_dict()
  test_data.append(row_data)
print("最終獲取到的數據是:{0}".format(test_data))

基本格式化

把帶有空值的行全部去除
df.dropna()

對空置進行填充
df.fillna(value=0)
df["price"].fillna(df["price".mean()])

去除字符串兩邊的空格
df["city"] = df["city"].map(str.strip)

大小寫轉換
df["city"] = df["city"].map(str.lower)

更改數據格式
df["price"].fillna(0).astype("int")

更改列的名稱
df.rename(columns={"category":"category_size"})

刪除重復項
df["city"].drop_duplicates()
df["city"].drop_duplicates(keep="last")

數字修改和替換
df["city"].replace("sh","shanghai")

前3行數據
df.tail(3)

給出行數和列數
data.describe()

打印出第八行
data.loc[8]

打印出第八行[column_1]的列
data.loc[8,column_1]

第四到第六行(左閉右開)的數據子集
data.loc[range(4,6)]

統計出現的次數
data[column_1].value_counts()

len()函數被應用在column_1列中的每一個元素上
map()運算給每一個元素應用一個的函數
data[column_1].map(len).map(lambda x : x/100).plot()  plot是繪圖


apply()  給一個列應用一個函數

applymap() 會給dataframe中的所有單元格應用一個函數

遍歷行和列
for i,row in data.iterrows():
	print(i,row)


選擇指定數據的行
important_dates = ['1/20/14', '1/30/14']
data_frame_value_in_set = data_frame.loc[data_frame['Purchase Date']\
.isin(important_dates), :]

選擇0-3列
import pandas as pd
import sys

input_file = r"supplier_data.csv"
output_file = r"output_files\6output.csv"

data_frame = pd.read_csv(input_file)
data_frame_column_by_index = data_frame.iloc[:, [0, 3]]
data_frame_column_by_index.to_csv(output_file, index=False)

添加行頭
import pandas as pd
input_file = r"supplier_data_no_header_row.csv"
output_file = r"output_files\11output.csv"
header_list = ['Supplier Name', 'Invoice Number', \
'Part Number', 'Cost', 'Purchase Date']
data_frame = pd.read_csv(input_file, header=None, names=header_list)
data_frame.to_csv(output_file, index=False)

數據多表合並

數據合並
1.將表格通過concat()方法進行合並
參數如下:
objs(必須參數):參與連接的pandas對象的列表或字典
axis:指明連接的軸向,默認為0
join:選中inner或outer(默認),其它軸向上索引是按交集(inner)還是並集(outer)進行合並
join_axes:指明用於其他N-1條軸的索引,不執行並集/交集運算
keys:與連接對象有關的值,用於形成連接軸向上的層次化索引
verify_integrity:是否去重
ignore_index:是否忽略索引

合並:
eg:
frames = [df1,df2,df3]
result = pd.concat(frames)
result = pd.concat(frames,keys=["x","y","z"]) #把每張表來個定義

在這裡插入圖片描述

新增df4表,橫向連接到df1表的第2367列,空置補nan
index:是新增的行
axis=1是指列
df4 = pd.DataFrame(["B":["sf"],"D":["'sf],index=[2,3,6,7]])
result = pd.concat([df1,df4],axis=1)

在這裡插入圖片描述

將df1和df4橫向進行交集合並
result = pd.concat([df1,df4],axis=1,join="inner")  列是增加,行是交集

按照df1的索引進行df1表和df4表的橫向索引
pd.concat([df1,df4],axis=1,join_axes=[df1.index]) 列是增加,行以df1為準,空的為NaN

通過append()方法連接表格

result = df1.append(df2)
result = df1.append(df4,ignore_index=True) 空格Nan補充

新增一列s1表,並且跟df1進行橫向合並
s1 = pd.Series(["1","2","3","4"],name="x")
result = pd.concat([df1,s1],axis=1)   name是列,serise是一維列表,沒有name,他會用索引0開始繼續填充

pd.concat([df1,s1],axis=1,ignore_index=True)  表格合並後不保留原來的索引列名

將key作為兩張表連接的中介
result = pd.merge(left,right,on="key")

result = pd.merge(right,left,on=["key1","key2"])
key1和key2,隻要有相同值就行,最後的排列是大的值為key1,小的key2

通過左表索引連接右表
right = pd.DataFrame({"key1":["K0","K2","K1","K2"],
          "key2":["K0","K1","K0","K0"],
          "C":["C0","C1","C2","C3"],
          "D":["D0","D1","D2","D3"]},
		index = ["k0","k1","k2"])
result = left.join(right)   以做索引為基準,right沒有左索引的用Nan填充

result = left.join(right,how='outer') how:連接方式

on屬性在merge中,以k為中心拼接,有相同的就拼
result = pd.merge(left,right,on="K")

result = pd.merge(left,right,on="K",suffixes=["_l","_r"])  更改拼接後的neme屬性

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述

在這裡插入圖片描述

# 解決顯示不完全的問題
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
config = pd.read_excel("C:\\Users\\Administrator\\Desktop\\數據\\文件名配置.xlsx", dtype=object)
datefirst = config.iloc[0, 1]
datename = config.iloc[0, 2]
dateall = datefirst + r"\\" + datename
textfile = config.iloc[1, 1]
textname = config.iloc[1, 2]
textall = textfile + r"\\" + textname

sheet = pd.read_excel(dateall, sheet_name="Sheet2", dtype=object)
sheet["two"] = sheet["料號"].apply(lambda x: x[:2])
# 取出不包含的數據
df = sheet[~sheet["two"].isin(["41", "48"])]
df1 = df[~df["檢驗結果"].isin(["未驗", "試產驗證允收"])]
# 刪除不需要的列
result = df1.iloc[:, :len(df1.columns) - 1]
# 取出包含的數據
DTR561 = result[result["機種"].isin(["DTR561"])]
DTR562 = result[result["機種"].isin(["DTR562"])]
HPS322 = result[result["機種"].isin(["HPS322"])]
HPS829 = result[result["機種"].isin(["HPS829"])]
writer = pd.ExcelWriter("C:\\Users\\Administrator\\Desktop\\數據\\數據篩選.xlsx")
result.to_excel(writer, sheet_name="全部機種", index=False)
DTR561.to_excel(writer, sheet_name="DTR561", index=False)
DTR562.to_excel(writer, sheet_name="DTR562", index=False)
HPS322.to_excel(writer, sheet_name="HPS322", index=False)
HPS829.to_excel(writer, sheet_name="HPS829", index=False)
writer.save()
print("Data filtering completed")

到此這篇關於pandas針對excel處理的實現的文章就介紹到這瞭,更多相關pandas excel處理內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: