0
点赞
收藏
分享

微信扫一扫

python数据预处理-数据清洗

单调先生 2022-03-24 阅读 57
经验分享

import regex as re

数据清洗

line=’《王者荣耀》a是AZ由腾讯游戏天美工作室—群开发&&&并运行—的一款运营*****在Android、IOS、NS平台上的MOBA类国产手游,于2015年11月26日在Android、iOS平台上正式公测,游戏前期使用名称有《英雄战迹》、《王者联盟》。《传说对决》(Arena Of Valor),即《王者荣耀》的欧美版本于2018年在任天堂Switch平台发售。’
reg_str = r’[a-zA-Z0-9,、《》 ()-&*;]+’
str_doc = re.sub(reg_str, ‘’, line)
print(str_doc)

import regex as re

定义一个函数获取样本数据

def ReadFile(path):
str_doc = r’\使用正则表达式清洗文本数据.txt’
# 打开文件 with open f就是文件对象
with open(path, ‘r’, encoding=‘utf-8’) as f:
# f.read() 读取样本数据 用str_doc来接收
str_doc = f.read()
return str_doc
# 定义一个函数传入一个样本数据进行数据清洗

def TextParse(str_doc):
# 使用正则表达式匹配特殊标点符号
reg_str = ‘[a-zA-Z“、”]+’
# 使用re.sub进行数据清洗
str_new_doc = re.sub(reg_str, ‘’, str_doc, re.S)
# 进行第二次数据清洗
r2 = ‘\s+’
# sub需要三个参数 第一个参数是正则 第二个参数替换的值 第三个参数是原串
str_doc_final = re.sub(r2, ‘’, str_new_doc)
return str_doc_final

if name == ‘main’:
# 主函数先调用读取文件
path = r’使用正则表达式清洗文本数据.txt’
str_doc = ReadFile(path)
data_yes = TextParse(str_doc)
print()
print(data_yes)

举报

相关推荐

0 条评论