0
点赞
收藏
分享

微信扫一扫

docker拉取 jdk 8


迁移学习

迁移学习的应用场景:

  1. 相似任务的模型迁移:例如,在一个拥有大量标注数据的任务上训练模型(如ImageNet图像分类任务),然后将该模型用于其他类似的图像识别任务(如医疗图像分类)。

  2. 预训练和微调:常见的做法是在一个大规模数据集上预训练模型(例如,BERT、GPT等),然后对特定任务进行微调。预训练的模型通过学习大量基础知识,微调时只需要针对特定任务进行少量调整即可。

  3. 跨领域迁移:如果在某个领域的数据有限,通过在不同领域的相关任务上进行迁移学习,仍能获得良好的性能。例如,从自动驾驶数据集中学习的模型可以帮助无人机图像分类任务。

通过迁移学习,AI系统能够更好地适应多样化的任务和场景,并提高其通用性和实用性。


特征选择

特征选择有助于简化模型、提升效率,并且增强模型的解释性。


特征工程

特征工程的主要任务包括:

  1. 数据清洗:处理缺失值、异常值和重复数据,确保数据质量。

  2. 特征构建:从现有数据中创建新的特征。例如,时间戳可以转换为年、月、日等信息,或通过两个变量的比值生成新的特征。

  3. 特征转换:将原始特征进行缩放、标准化、对数变换或归一化,以便更好地匹配模型的输入要求,特别是对于某些距离度量敏感的模型(如K近邻、SVM)。

  4. 特征编码:将类别型特征转换为数值型特征(如独热编码、标签编码)以便模型可以处理。

  5. 特征选择:通过选择最具相关性或信息量的特征,减少数据维度,提升模型的性能。

  6. 特征提取:通过降维技术(如主成分分析 PCA)或深度学习方法(如卷积神经网络 CNN)来提取有效特征。

特征工程的质量直接影响机器学习模型的性能,它需要结合领域知识、数据分布以及模型的需求来进行优化。一个好的特征可以显著提升模型的效果,甚至比选择复杂的算法更为重要。


朴素贝叶斯分类方法

为什么叫“朴素”?

朴素贝叶斯有个简单的假设:这些线索(特征)是互不相关的。也就是说,它假设乌云和气温是独立的,彼此不会影响。虽然这在实际生活中不一定是真的,但算法在很多情况下还是很管用的。

举个例子:

假设你想知道一封邮件是不是垃圾邮件。你可以根据邮件中的关键词来判断,比如“免费”、“中奖”、“折扣”等。朴素贝叶斯会查看历史数据中这些词语在垃圾邮件中出现的频率,然后根据这些关键词的出现情况,计算邮件是垃圾邮件的概率。如果这些词频率很高,系统就会判断这封邮件很有可能是垃圾邮件。


 支持向量机

主要概念:

  1. 超平面:在 SVM 中,超平面是将不同类别数据分开的线(在二维空间)或面(在高维空间)。SVM 的目标是找到一个最大化类别间间隔的超平面。

  2. 支持向量:支持向量是指离超平面最近的训练数据点。这些点对于定义分类边界(超平面)至关重要,超平面是由这些点决定的。

  3. 最大间隔(Margin):SVM 的目标是找到一个决策超平面,使得两个类别的最近样本点之间的距离最大化。这个距离称为间隔(Margin)。SVM 会在所有可能的超平面中,选择那个能最大化间隔的超平面,因为这可以减少分类错误的风险。

SVM 分类的工作原理:

  • SVM 寻找的是最优超平面,该超平面能最大化数据点与其间的间隔,以达到分类的目的。
  • 在二维平面上,SVM 寻找一条直线将数据点分为两个类别;在三维或更高维度空间中,寻找的是一个超平面。

想象一下:

你有两组不同颜色的点,比如红色点和蓝色点,SVM 的目标就是找到一条线,能够把这两种颜色的点分开。而且,它不仅仅是随便找一条线,而是找到那条能让红点和蓝点离得最远的线。这条线让两边的点之间的距离尽可能大,这样即使有新的点进来,也更容易知道该属于哪一类。

如果不能用一条线分开怎么办?

有时候,数据可能不能用一条简单的线分开,比如点分布得很复杂。SVM 会用一种“技巧”把这些点映射到一个更高维度的空间,在那个空间里就可以用一条线或者平面来分开它们。

  • 支持向量:那些离分界线最近的点叫“支持向量”,它们决定了分界线的位置。
  • 最大化间隔:SVM 尽量让分界线到两组点的距离最大化,这样可以让分类更加稳健,不容易出错。

    K-最近邻(K-Nearest Neighbors, KNN)

  • 核心思想:

    KNN 的主要思想是:给定一个待分类的数据点,找出它在数据集里最近的 K 个邻居,然后根据这些邻居的类别来决定它属于哪个类别。具体来说:

  • 分类任务:KNN 会根据 K 个最近邻居中,哪个类别的邻居最多,就把待分类的点归为该类别。
  • 回归任务:KNN 会根据 K 个最近邻居的数值进行平均,得到预测结果。

想象一下:

假设你想知道一个人喜欢什么类型的音乐,但是你不知道答案。你就去问他周围几个朋友(比如问 3 个人,也就是 K=3)。如果这 3 个人中有 2 个人喜欢摇滚音乐,那么你可能会猜测这个人也喜欢摇滚音乐。这个“靠近的人”就是他最“近的邻居”。

工作流程:

你选择一个 K 值,比如 3,5,或者更多,表示你要看这个人最靠近的 K 个朋友。 找最近的邻居:看看这个人最接近哪几个人(通过“距离”来计算谁最近)。 投票决定类别:根据这些邻居中大多数喜欢的音乐类型,来推断这个人喜欢什么。


特征向量稀疏

什么是特征向量?

特征向量是指用于表示数据点的一组特征值,通常是一个多维的数值向量。每个维度表示一个特征,数值代表该特征的值。


卷积神经网络

卷积神经网络的工作原理:

卷积神经网络就像是一步步解读图片的机器,它先从局部细节入手,逐层提取越来越复杂的特征,最终得出图片的整体理解并做出判断。


循环神经网络

 RNN :有记忆力的网络

举例:

假设你在读一句话:“我今天吃了一个苹果。” 看到“苹果”这个词时,你已经看过前面“我今天吃了一个”,所以你知道这里指的是水果。RNN 就是这样工作的,它通过记住之前看到的词,帮助理解后面的词。

RNN 的工作方式:

  1. 循环连接:RNN 的特别之处在于它的“循环结构”。它会把当前时间步的输入和之前的“记忆”结合起来。也就是说,RNN 的输出不仅依赖于当前输入,还依赖于之前的输入,这样它就能理解序列的上下文信息。

  2. 记住信息每个时间步的输出都会被传递到下一个时间步,像接力一样。因此,RNN 在处理当前输入时,也考虑了之前的输入,就像人在理解一段对话时,总是会记住前面说过的内容。

应用场景:

  • 文本生成:RNN 可以根据之前的文字生成新的文字,比如你在手机上打字时,它会根据你输入的前几个字,预测你想输入的下一个字。
  • 机器翻译:RNN 能够处理一整段话,从一门语言翻译成另一门语言,因为它能够理解句子结构。
  • 语音识别:当你讲话时,RNN 能够根据之前的语音内容来更准确地理解你当前说的词。

但 RNN 也有问题:

普通的 RNN 在处理特别长的序列时,会遇到“遗忘问题”,它不太擅长记住非常远的上下文信息。为了解决这个问题,有一些改进版本,比如 LSTM(长短期记忆网络)和 GRU(门控循环单元),它们可以更好地记住长期信息


图神经网络

“图”

在这里,“图”并不是我们平时看的那种图片,而是由点和线组成的结构:

  • 节点(点):表示图中的元素,比如社交网络中的每个人、地图上的每个地点,或者分子中的原子。
  • 边(线):表示节点之间的关系或连接,比如朋友关系、两地之间的道路,或原子之间的化学键。

举例:猜你认识 共同好友

GNN 的基本思想:

  1. 消息传递:每个节点会从它的“邻居节点”那里获取信息,并结合自己的信息进行更新。这就像在社交网络上,你不仅仅知道自己的信息,还会参考朋友们的信息。

  2. 节点更新:每个节点通过不断地从邻居处获取信息,然后更新自己。这是 GNN 学习的过程,最终每个节点会有一个包含它自己和周围邻居信息的表示。

  3. 全局信息:GNN 不仅仅看单个节点,它能够综合整个图的结构,理解各个节点和它们之间的关系。这让它能够处理非常复杂的网络结构。

GNN 的应用:


TextCNN

理解:

你可以把 TextCNN 想象成一个“理解文本的滤镜”。它通过一系列“卷积操作”来扫描文本的不同部分,并从中提取出关键信息,帮助识别文本的类别。

TextCNN 的工作原理可以分为几个简单的步骤:

举例

假设你有一段评论:“这个产品真的很好用!” TextCNN 会把这句话转换成数字表示,然后通过卷积层识别出句子中的重要部分,比如“很好用”。最后,模型根据这些关键信息判断这段评论是“正面”评论。


动态 K 最大池化

把动态 K 最大池化想象成一场比赛,选出“最重要的词”。假设你有一段话,通过卷积操作提取了很多特征(可能是句子中的一些单词、短语)。但是,这些特征太多了,你不可能全都用上。这时,池化操作就相当于进行“筛选”。

举例:

总结:

动态 K 最大池化是一种灵活的池化方法,它会根据数据的结构,在每个区域里选出前 K 个最重要的值,而不是只选一个。这有助于保留更多关键信息,尤其在处理像文本这样的数据时很有用。


One-hot

理解:

举个例子:

你有三种水果:苹果香蕉橙子。我们可以通过独热编码把它们变成三维向量:

  • 苹果 → [1, 0, 0]
  • 香蕉 → [0, 1, 0]
  • 橙子 → [0, 0, 1]

BOW

理解:

举例:

总结:


Word2vec

如果两个单词在意思上很相似,它们在这个空间里就会靠得很近;如果意思不同,它们就会距离远一点。

举例

Word2Vec 的两种训练方式:

总结:


池化(Pooling)

理解:

常见的池化方式

池化的作用


全连接层(Fully Connected Layer,简称 FC 层)

理解:

工作方式

总结:

全连接层就是神经网络中的决策层,它把前面提取到的特征全部组合在一起,并根据这些信息做出最终的判断。在分类任务中,它会决定数据属于哪个类别,比如识别图片是“猫”还是“狗”。


TF-IDF(Term Frequency-Inverse Document Frequency)

理解

TF-IDF 的组成

举例

假设我们有三篇文章:

  1. "苹果好吃,苹果很甜。"
  2. "香蕉好吃,苹果不如香蕉。"
  3. "葡萄酸,苹果甜。"

对于文章 1 来说,“苹果”的 TF 会很高,因为它出现了多次;同时,“苹果”在所有三篇文章中都出现了,所以它的 IDF 可能不会太高。但如果某个专有名词只在一篇文章中出现过,它的 IDF 就会很高,表明它对这篇文章有独特的重要性。

TF-IDF 的作用:


GloVe

通俗解释:GloVe 就像给每个单词打标签,只不过标签不是文字,而是由很多个数字组成的向量(通常是 50 维、100 维或更多)。

GloVe 的特别之处是,它不仅考虑单词在句子中的局部关系,还结合了整体语料库中所有单词的统计信息,因此能捕捉更丰富的语言语义。​​​​​​​


举报

相关推荐

0 条评论