一、背景
MySQL数据库表中有一批重复的脏数据,为不影响正常业务,需要进行批量删除。数据示例如下图所示:
二、SQL批量删除
首先想到的是编写SQL语句来批量删除:删除身份证号为51****59且ID不为5的全部数据(保留ID为5的那一条数据)
DELETE
FROM
test_table
WHERE
id IN ( SELECT id FROM test_table WHERE id_card_no = "51****59" AND id != 5 );
运行结果:
删除失败,SQL语句运行时报错了
鉴于当时实际情况需要尽快删除脏数据,就没有在此做过多的考究,原因和解决详见第四小节:SQL运行问题排查
三、Python批量删除
数据准备
将SQL查询到的所有需要删除的数据ID保存到txt文件中
SELECT id FROM test_table WHERE id_card_no = "51****59" AND id != 5;
读取数据ID
def del_from_mysql():
# 【读取数据ID】
with open(file="新建文本文档.txt", mode="r", encoding="utf-8") as f:
data = f.read()
f.close()
ids = data.split("\n")
print(ids)
if __name__ == "__main__":
del_from_mysql()
运行结果:
连接数据库执行SQL
这里需要先安装b并导入pymysql第三方库
pip install pymysql
import pymysql
def del_from_mysql(dbinfo):
# 【读取数据ID】
with open(file="新建文本文档.txt", mode="r", encoding="utf-8") as f:
data = f.read()
f.close()
ids = data.split("\n")
# 【连接数据库执行SQL】
conn = pymysql.connect(**dbinfo)
cursor = conn.cursor()
for i in ids:
sql = f"delete from test_table where id={i}"
cursor.execute(sql)
conn.commit()
conn.close()
if __name__ == "__main__":
# 数据库信息
db_info = {
'host': "192.168.1.1",
'port': 3306,
'user': "test",
'passwd': "test",
'db': "test_",
'charset': "utf8"
}
del_from_mysql(db_info)
运行结果:
可以看到这时已经完成重复脏数据的删除
四、SQL运行问题排查
前面使用SQL批量删除时遇到了报错:You can't specify target table 'test_table' for update in FROM clause
查阅资料后发现:在Mysql中,delete或者update的where条件中不能包含同一张表的子查询语句,而在where条件中再加一个中间表就能解决此问题
修改后的SQL语句如下:
DELETE
FROM
test_table
WHERE
id IN ( SELECT * FROM ( SELECT id FROM test_table WHERE id_card_no = "51****59" AND id != 5 ) t1 );