1.自然语言处理(NLP)
自然语言处理(Natural Language Processing,简称NLP)研究的是如何通过机器学习等技术,让计算机学会处理自然(人类)语言,以完成有意义的任务。
下面是一些常见的日常生活应用:
总结一下,广义上来讲任何处理自然语言的计算机操作都可以被理解为NLP。
2.中文分词
一篇文本是由无数句话组成,而一句话又是由一个个词语组成,因此可以将词语看作是自然语言的基本单位。
对于英文而言,间隔很明显能够判断那个是单个的,但是一句中文的句子应该如何进行判断呢,这个就是分词;现在有技术把中文的词语分隔开,实现分词的目的;
3.词袋模型
对于文本而言,词语出现的频率就可以作为一项特征。那么,词频这个特征就能帮我们提取出关键词。
在进行NLP时,构造词袋模型(Bag-of-Words Model)是一种常用的用于统计词频的技术。
4.读取CSV文件
(1)简介
CSV(Comma-Separated Values)文件以纯文本的形式储存数字、文本等表格数据。
Python提供了一个用于处理CSV文件的模块:csv 模块。由于是内置的模块,直接导入就可以了;
(2)文件的读取
# 导入csv模块
import csv
# 使用open()函数打开数据集,并将返回的文件对象存储在变量file中
file = open("/Users/xxxxxxxxxxx", "r")
# 使用csv.reader()函数读取数据集,并赋值给变量reader
reader = csv.reader(file)
导入模块---------------打开文件,r表示的是以只读的方式打开文件----------------通过函数读取数据,赋值reader;
5.标准化处理
for info in reader:
print(info)
reader对象存储的是CSV文件里所有行数据,相当于每一行数据都作为字符串列表返回。
也就是说reader的每个元素都是字符串列表:为了便于管理,我们把它进行标准化的处理;
1. 先创建一个空列表,用于存储reader对象中的值
2. 使用for循环遍历reader对象
3. 使用append()函数,将reader对象中的每行数据添加到空列表data中
// 创建一个空列表data
data = []
// 使用for循环遍历reader,将遍历的数据存储到变量info中
for info in reader:
// 使用append()函数,将info逐一添加到data列表中
data.append(info)
// 输出data
print(data)
这样,data这个列表里面就全是小的列表,data就是一个嵌套列表。