二十、Innodb底层原理与Mysql日志机制深入剖析-CFANZ编程社区

纸上得来终觉浅，绝知此事要躬行。
《冬夜读书示子聿》

值此1024的程序员节，我们一起学习 Word Vector。

本章一起学习文本向量化，掌握文本向量的相关概念，了解各个文本向量，实现文本向量的算法

在这里插入图片描述

文本向量化

文本向量化又称为 “词向量模型”、“向量空间模型”，即将文本表示成计算机可识别的实数向量，根据粒度大小不同，可将文本特征表示分为字、词、句子、篇章几个层次

文本向量化方法一般称为词嵌入(word embedding)方法，词嵌入这个说法很形象，就是把文本中的词嵌入到文本空间中，用一个向量来表示词（将各个单词表示为预定义向量空间中的实值向量）

在这里插入图片描述

词嵌入的种类

离散表示

文本向量化离散表示是一种基于规则和统计的向量化方式，常用的方法包括词集模型和词袋模型，都是基于词之间保持独立性、没有关联为前提，将所有文本中单词形成一个字典，然后根据字典来统计单词出现频数

独热编码(One-hot Encoding)
词袋编码(Bag of Words)
TF-IDF编码
N-GRAM编码

离散表示的缺点：

无法衡量词向量之间的关系。
词表的维度随着语料库的增长而膨胀。
n-gram词序列随语料库增长呈指数型膨胀，更加快。
离散数据来表示文本会带来数据稀疏问题，导致丢失了信息，与我们生活中理解的信息是不一样的。

分布式表示

通过训练将每个词映射成 K 维实数向量(K 一般为模型中的超参数)，通过词之间的距离(如，consine 相似度、欧氏距离) 来判断它们之间的语义相似度。

在这里插入图片描述

$\cos\theta = \frac{\vec{A} \cdot \vec{B}}{|\vec{A}| \cdot |\vec{B}|}$

离散表示，如 One-Hot 表示无法表示上面的余弦关系，引入分布式表示方法，其主要思想是用周围的词表示该词.

Word2Vec
GloVe
FastText
ELMo
BERT【未完成】

在学习文本向量之前，先了解共现矩阵与NNLM

共现矩阵

NNLM

结语

在大模型时代，embedding成为一项必不可少的技术，主要是因为它能够有效地将大量高维数据（如文本、图像和音频信息）转换成更低维的、密集的向量表示。这种表示可以捕捉到数据的本质特征，并且在处理和计算上更为高效。通过embedding，模型可以在这些压缩的向量空间中学习数据之间的复杂关系和模式，从而提高了处理速度和准确性。此外，embedding使得模型能够在较小的表示空间中进行操作，减少了计算资源的需求，同时也便于模型的训练和推理，这对于处理现代大规模数据集尤为关键。Embedding在大模型时代扮演着桥梁的角色，跨越了原始数据和机器学习算法之间的巨大鸿沟。

在自然语言处理领域，文本向量化技术的发展带来了革命性的变化。从最早的One-Hot编码到当前基于Transformer结构的embedding模型，每一次创新都带来了更高效、更精准的文本表示方式，为文本处理提供了更为灵活、高效的解决方案。未来，随着技术的不断进步和应用场景的不断拓展，文本向量化技术将继续发挥着重要的作用，并为人工智能在文本理解和处理领域带来更广阔的发展空间。

其他资源

词向量发展历程：技术及实战案例
ML-NLP: word embedding✨
NLP–文本向量化
AI文本处理的突破：从One-Hot到Embedding模型
词表示
NLP-Tutorial: word embedding✨
Chinese-word-embedding ✨
Word Embedding using GloVe | Feature Extraction | NLP | Python
- CODE ✨
Word-Embedding(TF): Word2vec，Fasttext，Glove，Elmo，Bert and Flair pre-train Word Embedding

二十、Innodb底层原理与Mysql日志机制深入剖析

目录

文本向量化

词嵌入的种类

离散表示

分布式表示

结语

其他资源