===============================================
2019/7/16_第1次修改 ccb_warlock
===============================================
做完了表结构和表内容的备份后,接着就需要删除数据。
然而在删除数据的过程中发现,存在多条相同的业务数据记录到了数据库中(表现为,除了索引字段,其他所有字段的内容完全一致)。这样就导致原本的线性增加趋势更明显,脏数据不仅浪费了空间,更影响了查询的效率。
故还是通过sql语句的处理还删除那些逻辑上重复的数据。
daily_t表结构如下:
字段名
描述
TID
索引id
USER_ID
用户id
STATS_DATE
日期
SELECT *
FROM daily_t
WHERE (USER_ID, STATS_DATE) IN (
SELECT *
FROM (SELECT USER_ID, STATS_DATE
FROM daily_t
GROUP BY USER_ID, STATS_DATE
HAVING count(*) > 1) A)
AND TID NOT IN (
SELECT *
FROM (SELECT min(TID)
FROM daily_t
GROUP BY USER_ID, STATS_DATE
HAVING count(*) > 1) B)
ORDER BY USER_ID, STATS_DATE;
DELETE
FROM daily_t
WHERE (USER_ID, STATS_DATE) IN (
SELECT *
FROM (SELECT USER_ID, STATS_DATE
FROM daily_t
GROUP BY USER_ID, STATS_DATE
HAVING count(*) > 1) A)
AND TID NOT IN (
SELECT *
FROM (SELECT min(TID)
FROM daily_t
GROUP BY USER_ID, STATS_DATE
HAVING count(*) > 1) B);
PS.sql语句中之所以对子查询多嵌套了一层(select *)是为了规避mysql不支持在where中进行针对需要删除操作的表的子查询(1093-You can’t specify target table for update in FROM clause),因为多嵌套了一层(select *)后,子查询内操作的是两张临时表A、B,而不是daily_t。