0
点赞
收藏
分享

微信扫一扫

ABAP 新语法--Open SQL

敬亭阁主 2023-06-17 阅读 59

NLP学习笔记三-数据处理基础

NLP设计的处理处理技术也比较多,我们简单介绍一部分:
1.Tokenization

NLP当中的Tokenization,博主以前无论是在文章中还是在代码中都能经常看到,这在自然语言处理中也是比较常用的技术。
Tokenization其实就是把文本转化成单词列表。

在这里插入图片描述
如上图,给与一个文本,将其拆分成一个个的单词就可以了。

2.count word frequencies
count word frequencies其实顾名思义,就是统计词频,这一步其实是在Tokenization的基础上进行的,首先我们需要先对文本进行Tokenization操作,然后,统计有多少种词语,再统计这些词语分别的个数。
统计词频可以用于保留常用词去掉低频词

3.one-hot encoding
这一步,与前一篇文章 说的比较相似,就是将词语进行词向量转化,当然这一步其实一部分工作在2中有一些做过了,比如词向量转化肯定是要进行单词统计的。
如下图所示哈:

在这里插入图片描述

举报

相关推荐

0 条评论