R語言之左連接的三種實現操作

Posted on 2021-03-27 by WalkonNet

數據處理中經常遇到表連接問題，本次介紹R語言中三種左連接方法，這三種是等價的，不過會有時間快慢問題，斟酌使用。

法一：

> data0 <- merge(a,c,all.x=TRUE,by='CELLPHONE')

法二：

> data1 <- sqldf('select a.*,b.* from a left join c on a.CELLPHONE=c.CELLPHONE')

法三：

> data2 <- c[a,on='CELLPHONE']

註意：第三種方法的順序不能寫反瞭。

補充：R語言中的inner_join, full_join, left_join, right_join

在R for Data Science中，作者用瞭非常直觀的例子解釋瞭上面的四個概念。說明如下：

我們的數據集是這樣的：

x <- tribble(
 ~key, ~val_x,
 1, "x1",
 2, "x2",
 3, "x3"
)
y <- tribble(
 ~key, ~val_y,
 1, "y1",
 2, "y2",
 4, "y3"
)

可以看出，x與y的key都有1，2，但是x的key裡面有3，y的key裡面有4.

下面我們來看這四個概念：

1. inner_join

x %>%
 inner_join(y, by = "key")

其結果是

key val_x val_y
 <dbl> <chr> <chr>
   1 x1  y1  
   2 x2  y2

可以看出，此時基於key的連接隻保留瞭共同的key值1與2對應的數據；

2. full_join

x %>%
 full_join(y, by = "key")

其結果是

key val_x val_y
 <dbl> <chr> <chr>
 1 x1  y1  
 2 x2  y2  
 3 x3  NA  
 4 NA  y3

可以看出，此時基於key的連接保留瞭所有key值對應的數據，當相應的值不存在的時候，用NA代替；

3. left_join

x %>%
 left_join(y, by = "key")

此時的結果為

<dbl> <chr> <chr>
  1 x1  y1  
  2 x2  y2  
  3 x3  NA

可以看出, 此時基於key的連接隻保留瞭x對應的key值的數據，當相應的值不存在的時候，用NA代替；

4. right_join

x %>%
 right_join(y, by = "key")

此時的結果為

key val_x val_y
 <dbl> <chr> <chr>
1 x1  y1  
2 x2  y2  
4 NA  y3

可以看出，此時基於key的連接隻保留瞭y對應的key值的數據，當相應的值不存在的時候，用NA代替。

以上為個人經驗，希望能給大傢一個參考，也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方，望不吝賜教。

R語言之左連接的三種實現操作

法一：

法二：

法三：

下面我們來看這四個概念：

1. inner_join

2. full_join

3. left_join

4. right_join

推薦閱讀：

發佈留言取消回覆

近期文章

法一：

法二：

法三：

下面我們來看這四個概念：

1. inner_join

2. full_join

3. left_join

4. right_join

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆