R語言之左連接的三種實現操作
數據處理中經常遇到表連接問題,本次介紹R語言中三種左連接方法,這三種是等價的,不過會有時間快慢問題,斟酌使用。
法一:
> data0 <- merge(a,c,all.x=TRUE,by='CELLPHONE')
法二:
> data1 <- sqldf('select a.*,b.* from a left join c on a.CELLPHONE=c.CELLPHONE')
法三:
> data2 <- c[a,on='CELLPHONE']
註意:第三種方法的順序不能寫反瞭。
補充:R語言中的inner_join, full_join, left_join, right_join
在R for Data Science中,作者用瞭非常直觀的例子解釋瞭上面的四個概念。說明如下:
我們的數據集是這樣的:
x <- tribble( ~key, ~val_x, 1, "x1", 2, "x2", 3, "x3" ) y <- tribble( ~key, ~val_y, 1, "y1", 2, "y2", 4, "y3" )
可以看出,x與y的key都有1,2,但是x的key裡面有3,y的key裡面有4.
下面我們來看這四個概念:
1. inner_join
x %>% inner_join(y, by = "key")
其結果是
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2
可以看出,此時基於key的連接隻保留瞭共同的key值1與2對應的數據;
2. full_join
x %>% full_join(y, by = "key")
其結果是
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2 3 x3 NA 4 NA y3
可以看出,此時基於key的連接保留瞭所有key值對應的數據,當相應的值不存在的時候,用NA代替;
3. left_join
x %>% left_join(y, by = "key")
此時的結果為
<dbl> <chr> <chr> 1 x1 y1 2 x2 y2 3 x3 NA
可以看出, 此時基於key的連接隻保留瞭x對應的key值的數據,當相應的值不存在的時候,用NA代替;
4. right_join
x %>% right_join(y, by = "key")
此時的結果為
key val_x val_y <dbl> <chr> <chr> 1 x1 y1 2 x2 y2 4 NA y3
可以看出,此時基於key的連接隻保留瞭y對應的key值的數據,當相應的值不存在的時候,用NA代替。
以上為個人經驗,希望能給大傢一個參考,也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方,望不吝賜教。
推薦閱讀:
- R語言 實現兩表連接且輸出不重復數據
- 一篇文章帶你瞭解MySQL索引下推
- Python數據合並的concat函數與merge函數詳解
- python pandas數據處理教程之合並與拼接
- R語言 數據表匹配和拼接 merge函數的使用