Pandas中DataFrame常用操作指南

Posted on 2022-06-22 by WalkonNet

前言

Pandas是Python下一個開源數據分析的庫，它提供的數據結構DataFrame極大的簡化瞭數據分析過程中一些繁瑣操作。

1. 基本使用：

創建DataFrame. DataFrame是一張二維的表，大傢可以把它想象成一張Excel表單或者Sql表。

Excel 2007及其以後的版本的最大行數是1048576，最大列數是16384，超過這個規模的數據Excel就會彈出個框框“此文本包含多行文本，無法放置在一個工作表中”。

Pandas處理上千萬的數據是易如反掌的sh事情，同時隨後我們也將看到它比SQL有更強的表達能力，可以做很多復雜的操作，要寫的code也更少。說瞭一大堆它的好處，要實際感觸還得動手碼代碼。

首要的任務就是創建一個DataFrame，它有幾種創建方式：

列表，序列(pandas.Series), numpy.ndarray的字典
二維numpy.ndarray
別的DataFrame
結構化的記錄(structured arrays)

其中，我最喜歡的是通過二維ndarray創建DataFrame，因為代碼敲得最少：

import  pandas as pd
import  numpy as np
df = pd.DataFrame(np.random.randn( 3 , 4 ))
df
0 1 2 3
0 0.236175 - 0.394792 - 0.171866 0.304012
1 0.651926 0.989046 0.160389 0.482936
2 - 1.039824 0.401105 - 0.492714 - 1.220438

當然你還可以從mysql數據庫或者csv文件中載入數據到dataframe。

dataframe中index用來標識行，column標識列，shape表示維度。

# 獲得行索引信息
df.index
# 獲得列索引信息
df.columns
# 獲得df的size
df.shape
# 獲得df的行數
df.shape[0]
# 獲得df的 列數
df.shape[1]
# 獲得df中的值
df.values

通過describe方法，我們可以對df中的數據有個大概的瞭解：

df.describe()
0 1 2 3
count 3.000000 3.000000 3.000000 3.000000
mean - 0.050574 0.331786 - 0.168064 - 0.144496
std 0.881574 0.694518 0.326568 0.936077
min - 1.039824 - 0.394792 - 0.492714 - 1.220438
25 % - 0.401824 0.003156 - 0.332290 - 0.458213
50 % 0.236175 0.401105 - 0.171866 0.304012
75 % 0.444051 0.695076 - 0.005739 0.393474
max 0.651926 0.989046 0.160389 0.482936

2. 數據select, del, update。

按照列名select:

df[ 0 ]
 
0 0.236175
1 0.651926
2 - 1.039824

按照行數select:

df[: 3 ] #選取前3行

按照索引select:

df.loc[ 0 ]
 
0 0.236175
1 - 0.394792
2 - 0.171866
3 0.304012

按照行數和列數select:

df.iloc[ 3 ] #選取第3行
df.iloc[ 2 : 4 ] #選取第2到第3行
df.iloc[ 0 , 1 ] #選取第0行1列的元素
dat.iloc[: 2 , : 3 ] #選取第0行到第1行，第0列到第2列區域內的元素
df1.iloc[[1,3,5],[1,3]] #選取第1，3，5行，第1，3列區域內的元素

刪除某列：

del df[0]
df
1 2 3
0 - 0.394792 - 0.171866 0.304012
1 0.989046 0.160389 0.482936
2 0.401105 - 0.492714 - 1.220438

刪除某行：

5
df.drop(0)
 
1 2 3
1 0.989046 0.160389 0.482936
2 0.401105 - 0.492714 - 1.220438

3.運算。

基本運算：

df[ 4 ] = df[ 1 ] + df[ 2 ]
 
1 2 3 4
0 - 0.394792 - 0.171866 0.304012 - 0.566659
1 0.989046 0.160389 0.482936 1.149435
2 0.401105 - 0.492714 - 1.220438 - 0.091609

map運算，和python中的map有些類似：

df[ 4 ]. map ( int )
0 0
1 1
2 0

apply運算：

df. apply ( sum )
 
1 0.995359
2 - 0.504192
3 - 0.433489
4 0.491167

4. Group by 操作。

pandas中的group by 操作是我的最愛，不用把數據導入excel或者mysql就可以進行靈活的group by 操作，簡化瞭分析過程。

df[ 0 ] = [ 'A' , 'A' , 'B' ]
df
 
1 2 3 4 0
0 - 0.394792 - 0.171866 0.304012 - 0.566659 A
1 0.989046 0.160389 0.482936 1.149435 A
2 0.401105 - 0.492714 - 1.220438 - 0.091609 B
 
g = df.groupby([ 0 ])
 
g.size()
 
A 2
B 1
 
g. sum ()
 
1 2 3 4
0
A 0.594254 - 0.011478 0.786948 0.582776
B 0.401105 - 0.492714 - 1.220438 - 0.091609

5. 導出到csv文件

dataframe可以使用to_csv方法方便地導出到csv文件中，如果數據中含有中文，一般encoding指定為”utf-8″,否則導出時程序會因為不能識別相應的字符串而拋出異常，index指定為False表示不用導出dataframe的index數據。

df.to_csv(file_path, encoding='utf-8', index=False)
df.to_csv(file_path, index=False)

總結

到此這篇關於Pandas中DataFrame操作的文章就介紹到這瞭,更多相關Pandas DataFrame操作內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Pandas中DataFrame常用操作指南

目錄

前言

1. 基本使用：

2. 數據select, del, update。

3.運算。

4. Group by 操作。

5. 導出到csv文件

總結

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

前言

1. 基本使用：

2. 數據select, del, update。

3.運算。

4. Group by 操作。

5. 導出到csv文件

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆