Postgresql去重函數distinct的用法說明

Posted on 2021-01-16 by WalkonNet

在項目中我們常會對數據進行去重處理，有時候會用in或者EXISTS函數。或者通過group by也是可以實現查重

不過Postgresql還有自帶去重函數：distinct

下面是distinct 的實例：

1、創建表：user

CREATE TABLE `user` (
 `name` varchar(30) DEFAULT NULL,
 `age` int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
INSERT INTO `user` VALUES ('張三', 20);
INSERT INTO `user` VALUES ('李四', 22);
INSERT INTO `user` VALUES ('李四', 20);
INSERT INTO `user` VALUES ('張三', 22);
INSERT INTO `user` VALUES ('張三', 20);

查詢結果：

SELECT * FROM user
張三 20
李四 22
李四 20
張三 22
張三 20

2、根據 name 查詢去重後的數據：

SELECT distinct name FROM user
張三
李四

3、根據name 和 age 查詢去重後的數據：

SELECT distinct name,age FROM user
張三 20
李四 22
李四 20
張三 22

4、根據name,age查詢重復數據數：

SELECT distinct name,age,count(*) 數據條數 FROM user GROUP BY name,age
張三 20 2
張三 22 1
李四 20 1
李四 22 1

二、查出重復數據後，我們需要刪除重復數據

刪除重復數據一般幾種方式，一般采用臨時表或者根據某個字段，例如id等，通過max或者min函數去重。

補充：基於postgresql ctid實現數據的差異同步

項目背景：

最近在做異構數據同步方面（非實時）的工作，從oracle,gbase,postgresql向mysql數據庫中同步，對於沒有自增字段（自增ID或時間字段）的業務表，做差異同步是一件非常麻煩的事情，主要體現在記錄的新增、更新與刪除上

備註：源庫隻提供一個隻讀權限的用戶

ctid在pg中的作用

ctid是用來指向自身或新元組的元組標識符，怎麼理解呢？下面能過幾個實驗來測試一下

satdb=# create table test_ctid(id int,name varchar(100));
satdb=# insert into test_ctid values(1,‘a'),(1,‘a');
satdb=# insert into test_ctid values(2,‘a'),(3,‘a');

查看記錄的ctid值

satdb=# select id,name,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | a | (0,3)
3 | a | (0,4)
(4 rows)

對id為2的記錄進行更新

satdb=# update test_ctid set name=‘b' where id=2;
UPDATE 1

這裡可以看到id=2的記錄指向瞭新的元組標識符 (0,5)

satdb=# select id,name,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
3 | a | (0,4)
2 | b | (0,5)
(4 rows)
satdb=# select * from test_ctid where ctid='(0,1)';
id | name
----±-----
1 | a
(1 row)

刪除 id=3的記錄後，對應的ctid(0,4)不存在瞭

satdb=# delete from test_ctid where id=3;
DELETE 1
satdb=# select *,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | b | (0,5)
(3 rows)

再插入一條記錄時，看看會不會使用(0,4)這個標識符

satdb=# insert into test_ctid values(3,‘d');
INSERT 0 1
satdb=# select *,ctid from test_ctid;
id | name | ctid
----±-----±------
1 | a | (0,1)
1 | a | (0,2)
2 | b | (0,5)
3 | d | (0,6)

這裡新插入的記錄不會使用(0,4)，而是直接分配新的標識符(0,6)

總結：

1、ctid的作用與oracle rowid類似，可以唯一標識一條記錄

2、記錄的更新後，後生產新的ctid

3、記錄刪除後，新插入的記錄不會使用已經刪除記錄的ctid

4、基於ctid可以實現記錄的去重操作

5、基於ctid可以實現差異增量同步(新增、刪除、更新)

以上為個人經驗，希望能給大傢一個參考，也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方，望不吝賜教。

Postgresql去重函數distinct的用法說明

下面是distinct 的實例：

二、查出重復數據後，我們需要刪除重復數據

項目背景：

ctid在pg中的作用

總結：

推薦閱讀：

發佈留言取消回覆

近期文章

下面是distinct 的實例：

二、查出重復數據後，我們需要刪除重復數據

項目背景：

ctid在pg中的作用

總結：

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆