當(dāng)前位置：首頁(yè) > 运维知识 > 数据库 >内容正文

数据库

mysql count if 去重_MYSQL数据去重

發(fā)布時(shí)間：2025/3/15 数据库 49 豆豆

生活随笔收集整理的這篇文章主要介紹了 mysql count if 去重_MYSQL数据去重小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

我們用的數(shù)據(jù)庫(kù)是mysql,偶爾會(huì)因?yàn)槌绦蛱幚砩系姆奖慊蛘遱ql未優(yōu)化而增加了一些重復(fù)數(shù)據(jù)，最后需要對(duì)這些重復(fù)的數(shù)據(jù)進(jìn)行刪除

對(duì)于數(shù)據(jù)量不大的時(shí)候我一般用not in的方式來(lái)處理，或者刪全表，導(dǎo)出不重復(fù)的數(shù)據(jù)，然后再insert的方式，網(wǎng)上也提供了很多方式，但是很多都需要執(zhí)行很長(zhǎng)時(shí)間，而且資源占用很多，對(duì)于數(shù)據(jù)量大的時(shí)候被DBA否決了

比如表tb1中的結(jié)構(gòu)為

id ? ?param1 ? ?param2 ? ?param3 ? ?date

其中id為主鍵，param為需要去重的項(xiàng)

一、not in的方式(可以用一條sql或者用腳本來(lái)處理，但是一條sql會(huì)執(zhí)行時(shí)間太長(zhǎng))

DELETE FROM tb1 WHERE id not in (SELECT id FROM tb1 GROUP BY param1, param2, param3);

或者當(dāng)數(shù)據(jù)量大的時(shí)候，一維或者多維分步操作

DELETE FROM tb1 WHERE param1='param1' AND id not in (SELECT id FROM tb1 WHERE param1='param1' GROUP BY param1, param2, param3);

notin的方式我在冗余時(shí)數(shù)據(jù)總量在百萬(wàn)級(jí)的時(shí)候，好像還行，問(wèn)題也不是很大，但是當(dāng)上千萬(wàn)量級(jí)的時(shí)候，DBA就開(kāi)始過(guò)來(lái)找我了

二、刪除數(shù)據(jù)，然后插入distinct數(shù)據(jù)

SELECT param1, param2, param3, date FROM tb1 GROUP BY param1, param2, param3;

DELETE FROM tb1;

INSERT INTO tb1 (param1, param2, param3, date) VALUES ......

DBA不太同意我這種方式

DBA建議我用in的方式，于是我就想到了用shell進(jìn)行處理

三、用shell腳本幫忙篩選然后用主鍵in的方式來(lái)刪除

SELECT id FROM tb1 GROUP BY param1, param2, param3 > ids.csv

SELECT id FROM tb1 >> ids.csv

cat ids.csv|sort|uniq -c| awk '{if($1==1) print $2}' > delete_ids.csv

DELETE FROM tb1 WHERE id IN delete_ids

或者分維度處理也行，減小數(shù)據(jù)庫(kù)壓力

這種方式ids.csv文件中先輸入了去重param1,param2,param3的id，然后再把所有id再次加入進(jìn)去，這樣我們需要保留的id的count就為2了，利用shell的sort和uniq工具，就可以篩選出來(lái)需要delete掉的id了，于是大功告成了，

我采用的是分一個(gè)維度來(lái)刪的(也就是分不同的param1來(lái)處理)，最終1.2y數(shù)據(jù)中刪除4kw的冗余，輕輕松松就解決掉了，DBA毫無(wú)壓力(param1建了索引)

總結(jié)

以上是生活随笔為你收集整理的mysql count if 去重_MYSQL数据去重的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： mysql5.7.14操作命令_Mysq
下一篇： mysql join null_Mysq

日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

数据库

mysql count if 去重_MYSQL数据去重

總結(jié)