0
点赞
收藏
分享

微信扫一扫

二十、Innodb底层原理与Mysql日志机制深入剖析

纸上得来终觉浅,绝知此事要躬行。
《冬夜读书示子聿》


值此1024的程序员节,我们一起学习 Word Vector。

本章一起学习文本向量化,掌握文本向量的相关概念,了解各个文本向量,实现文本向量的算法

在这里插入图片描述

目录

文本向量化

文本向量化又称为 “词向量模型”、“向量空间模型”,即将文本表示成计算机可识别的实数向量, 根据粒度大小不同,可将文本特征表示分为字、词、句子、篇章几个层次

文本向量化方法一般称为词嵌入(word embedding)方法,词嵌入这个说法很形象,就是把文本中的词嵌入到文本空间中, 用一个向量来表示词(将各个单词表示为预定义向量空间中的实值向量)

在这里插入图片描述

词嵌入的种类

离散表示

文本向量化离散表示是一种基于规则和统计的向量化方式,常用的方法包括 词集模型 和 词袋模型, 都是基于词之间保持独立性、没有关联为前提,将所有文本中单词形成一个字典,然后根据字典来统计单词出现频数

  • 独热编码(One-hot Encoding)
  • 词袋编码(Bag of Words)
  • TF-IDF编码
  • N-GRAM编码

离散表示的缺点

  • 无法衡量词向量之间的关系。
  • 词表的维度随着语料库的增长而膨胀。
  • n-gram词序列随语料库增长呈指数型膨胀,更加快。
  • 离散数据来表示文本会带来数据稀疏问题,导致丢失了信息,与我们生活中理解的信息是不一样的。

分布式表示

通过训练将每个词映射成 K 维实数向量(K 一般为模型中的超参数), 通过词之间的距离(如,consine 相似度、欧氏距离) 来判断它们之间的语义相似度。

在这里插入图片描述

cos ⁡ θ = A ⃗ ⋅ B ⃗ ∣ A ⃗ ∣ ⋅ ∣ B ⃗ ∣ \cos\theta = \frac{\vec{A} \cdot \vec{B}}{|\vec{A}| \cdot |\vec{B}|} cosθ=A B A B

离散表示,如 One-Hot 表示无法表示上面的余弦关系,引入分布式表示方法,其主要思想是 用周围的词表示该词.

  • Word2Vec
  • GloVe
  • FastText
  • ELMo
  • BERT【未完成】

在学习文本向量之前,先了解共现矩阵与NNLM

共现矩阵

NNLM

结语

在大模型时代,embedding成为一项必不可少的技术,主要是因为它能够有效地将大量高维数据(如文本、图像和音频信息)转换成更低维的、密集的向量表示。这种表示可以捕捉到数据的本质特征,并且在处理和计算上更为高效。通过embedding,模型可以在这些压缩的向量空间中学习数据之间的复杂关系和模式,从而提高了处理速度和准确性。此外,embedding使得模型能够在较小的表示空间中进行操作,减少了计算资源的需求,同时也便于模型的训练和推理,这对于处理现代大规模数据集尤为关键。Embedding在大模型时代扮演着桥梁的角色,跨越了原始数据和机器学习算法之间的巨大鸿沟。

在自然语言处理领域,文本向量化技术的发展带来了革命性的变化。从最早的One-Hot编码到当前基于Transformer结构的embedding模型,每一次创新都带来了更高效、更精准的文本表示方式,为文本处理提供了更为灵活、高效的解决方案。未来,随着技术的不断进步和应用场景的不断拓展,文本向量化技术将继续发挥着重要的作用,并为人工智能在文本理解和处理领域带来更广阔的发展空间。

其他资源

  • 词向量发展历程:技术及实战案例
  • ML-NLP: word embedding✨
  • NLP–文本向量化
  • AI文本处理的突破:从One-Hot到Embedding模型
  • 词表示
  • NLP-Tutorial: word embedding✨
  • Chinese-word-embedding ✨
  • Word Embedding using GloVe | Feature Extraction | NLP | Python
    • CODE ✨
  • Word-Embedding(TF): Word2vec,Fasttext,Glove,Elmo,Bert and Flair pre-train Word Embedding
举报

相关推荐

0 条评论