Python數據合並的concat函數與merge函數詳解

Posted on 2022-05-15 by WalkonNet

一、concat函數

1.concat()函數可以沿著一條軸將多個對象進行堆疊，其使用方式類似數據庫中的數據表合並
pandas.concat(objs, axis=0, join=’outer’, join_axes=None, ignore_index=False, keys=None, levels=None, verify_integrity=False, sort=None, copy=True)

2.參數含義如下：

參數	作用
axis	表示連接的軸向，可以為0或者1，默認為0
join	表示連接的方式，inner表示內連接，outer表示外連接，默認使用外連接
ignore_index	接收佈爾值，默認為False。如果設置為True，則表示清除現有索引並重置索引值
keys	接收序列，表示添加最外層索引
levels	用於構建MultiIndex的特定級別（唯一值）
names	設置瞭keys和level參數後，用於創建分層級別的名稱
verify_integerity	檢查新的連接軸是否包含重復項。接收佈爾值，當設置為True時，如果有重復的軸將會拋出錯誤，默認為False

3.根據軸方向的不同，可以將堆疊分成橫向堆疊與縱向堆疊，默認采用的是縱向堆疊方式

4.在堆疊數據時，默認采用的是外連接（join參數設為outer）的方式進行合並，當然也可以通過join=inner設置為內連接的方式。

1)橫向堆疊與外連接

import pandas as pd
df1=pd.DataFrame({'A':['A0','A1','A2'],
                  'B':['B0','B1','B2']})
df1

橫向堆疊合並df1和df2,采用外連接的方式

pd.concat([df1,df2],join='outer',axis=1)

2) 縱向堆疊與內鏈接

import pandas as pd
first=pd.DataFrame({'A':['A0','A1','A2'],
                   'B':['B0','B1','B2'],
                   'C':['C0','C1','C2']})
first

second=pd.DataFrame({'B':['B3','B4','B5'],
                   'C':['C3','C4','C5'],
                    'D':['D3','D4','D5']})
second

3.當使用concat()函數合並時，若是將axis參數的值設為0，且join參數的值設為inner,則代表著使用縱向堆疊與內連接的方式進行合並

pd.concat([first,second],join='inner',axis=0)

二、merge()函數

1）主鍵合並數據

在使用merge()函數進行合並時，默認會使用重疊的列索引做為合並鍵，並采用內連接方式合並數據，即取行索引重疊的部分。

import pandas as pd
left=pd.DataFrame({'key':['K0','K1','K2'],
                  'A':['A0','A1','A2'],
                  'B':['B0','B1','B2']})
left

right=pd.DataFrame({'key':['K0','K1','K2','K3'],
                   'C':['C0','C1','C2','C3'],
                   'D':['D0','D1','D2','D3']})
right

pd.merge(left,right,on='key')

2）merge()函數還支持對含有多個重疊列的DataFrame對象進行合並。

import pandas as pd
data1=pd.DataFrame({'key':['K0','K1','K2'],
                  'A':['A0','A1','A2'],
                  'B':['B0','B1','B2']})
data1

data2=pd.DataFrame({'key':['K0','K5','K2','K4'],
                         'B':['B0','B1','B2','B5'],
                         'C':['C0','C1','C2','C3'],
                         'D':['D0','D1','D2','D3']})
data2

pd.merge(data1,data2,on=['key','B'])

1）根據行索引合並數據

join()方法能夠通過索引或指定列來連接多個DataFrame對象

join（other，on = None，how =‘left’，lsuffix =‘’，rsuffix =‘’，sort = False ）

參數	作用
on	名稱，用於連接列名
how	可以從{‘‘left’’ ,‘‘right’’, ‘‘outer’’, ‘‘inner’’}中任選一個，默認使用左連接的方式。
sort	根據連接鍵對合並的數據進行排序，默認為False

import pandas as pd
data3=pd.DataFrame({'A':['A0','A1','A2'],
                   'B':['B0','B1','B2']})
data3

data4=pd.DataFrame({'C': ['C0', 'C1', 'C2'],
                         'D': ['D0', 'D1', 'D2']},
                     index=['a','b','c'])
data3.join(data4,how='outer')  # 外連接

data3.join(data4,how='left')  #左連接

data3.join(data4,how='right')  #右連接

data3.join(data4,how='inner')  #內連接

import pandas as pd
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                        'B': ['B0', 'B1', 'B2'],
                      'key': ['K0', 'K1', 'K2']})
left

right = pd.DataFrame({'C': ['C0', 'C1','C2'],
                         'D': ['D0', 'D1','D2']},
                        index=['K0', 'K1','K2'])
right

on參數指定連接的列名

left.join(right,how='left',on='key')  #on參數指定連接的列名

2）合並重疊數據

當DataFrame對象中出現瞭缺失數據，而我們希望使用其他DataFrame對象中的數據填充缺失數據，則可以通過combine_first()方法為缺失數據填充。

import pandas as pd
import numpy as np
from numpy import NAN
left = pd.DataFrame({'A': [np.nan, 'A1', 'A2', 'A3'],
                        'B': [np.nan, 'B1', np.nan, 'B3'],
                        'key': ['K0', 'K1', 'K2', 'K3']})
left

right = pd.DataFrame({'A': ['C0', 'C1','C2'],
                         'B': ['D0', 'D1','D2']},
                         index=[1,0,2])
right

用right的數據填充left缺失的部分

left.combine_first(right) # 用right的數據填充left缺失的部分

到此這篇關於Python數據合並的concat函數與merge函數詳解的文章就介紹到這瞭,更多相關python 數據合並concat函數與merge函數內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

Python數據合並的concat函數與merge函數詳解

目錄

一、concat函數

1)橫向堆疊與外連接

2) 縱向堆疊與內鏈接

二、merge()函數

1）根據行索引合並數據

2）合並重疊數據

推薦閱讀：

發佈留言取消回覆

近期文章

目錄

一、concat函數

1)橫向堆疊與外連接

2) 縱向堆疊與內鏈接

二、merge()函數

1）根據行索引合並數據

2）合並重疊數據

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆