Elasticsearch——倒排索引与分词-CFANZ编程社区

正排索引

文档ID到文档内容、单词的关联关系。比如书的目录页对应正排索引（指明章节名称，指明页数）用于查看章节

倒排索引：

单词到文档ID的关联关系。比如索引页对应倒排索引（指明关键词、指明页数）用于关键词查找倒排索引是搜索引擎的核心，主要包含两个部分： 单词词典(Term Dictionary)

记录所有文档的单词，一般都比较大
记录单词到倒排列表的关联信息

倒排列表(Posting List) 记录了单词对应的文档集合，由倒排索引项组成。倒排索引项包含如下信息：

文档ID，用于获取原始信息
单词频率，记录该单词在该文档中的出现次数，用于后续相关性算分
位置，记录单词在文档中的粉刺位置，用于做词语搜索
偏移，记录单词在文档的开始和结束位置，用于做高亮显示

分词

分词是指将文本转换成一系列单词的过程，也可以叫做文本分析，在es里面成为Analysis

分词器是Elasticsearch中专门处理分词的组件，英文为Analyzer，其组成如下： Character Filters 针对原始文本进行处理，比如去除html特殊标记符 Tokenizer 将原始文本按照一定规则切分为单词 Token Filters 针对Tokenizer处理的单词进行在加工，比如转小写，删除或新增等处理

Analyze_api Elasticsearch提供了一个测试分词的api接口，方便验证分词效果，endpoint是_analyze

可以直接指定Analyzer进行测试
可以直接指定索引中的字段进行测试
可以自定义分词器进行测试

Elasticsearch自带分词器

中文分词

难点：

中文分词指的是将一个汉字序列切分成一个一个单独的词，在英文中单词之间是以空格作为自然分隔符，但汉语中则没有形式上的分隔符
上下文不同分词效果迥异，比如交叉歧义问题，比如下面两种分词都合理

乒乓球拍/卖/完了乒乓球/拍/买完了

常用分词系统

实现中英文单词的切分，支持ik_smart、ik_maxword等模式
可自定义词库，支持热更新分词词典
https://github.com/medcl/elasticsearch-analysis-ik

jieba

python中最流行的分词系统，支持分词和词性标注
支持繁体分词，自定义词典，并行分词等
https://github.com/sing1ee/elasticsearch-jieba-plugin

基于自然语言处理的分词系统

HanLp

由一系列模型与算法组成的Java工具包，目标是普及自然语言处理在生产环境中的应用
https://github.com/hankcs/HanLp

thulac

THU Lexical Analyzer for Chinese，由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包，具有中文分词和词性标注功能
https://github.com/microbun/elasticsearch-thulac-plugin

自定义分词

当自带的分词无法满足需求时，可自定义分词通过自定义Character Filters、Tokenizer、Token Filters实现

Character Filters

在Tokenizer之前对原始文本进行处理，比如增加、删除或替换字符等
自带的如下：
- HTML Strip 去除html标签和转换html实体
- Mapping进行字符替换操作
- Pattern Replace进行正则匹配替换
会影响后续Tokenizer解析的postion和offset信息

Tokenizer

将原始文本按照一定规则切分为单词(term or token)
自带的如下：
- standard 按照单词进行分割
- letter 按照非字符类进行分割
- whitespace 按照空格进行分割
- UAX URL Email 按照standard 分割，但不会分割邮箱和url
- NGram和Edge NGram连词分割
- Path Hierarchy 按照文件路径进行分割