docker拉取 jdk 8-CFANZ编程社区

迁移学习

迁移学习的应用场景：

相似任务的模型迁移：例如，在一个拥有大量标注数据的任务上训练模型（如ImageNet图像分类任务），然后将该模型用于其他类似的图像识别任务（如医疗图像分类）。
预训练和微调：常见的做法是在一个大规模数据集上预训练模型（例如，BERT、GPT等），然后对特定任务进行微调。预训练的模型通过学习大量基础知识，微调时只需要针对特定任务进行少量调整即可。
跨领域迁移：如果在某个领域的数据有限，通过在不同领域的相关任务上进行迁移学习，仍能获得良好的性能。例如，从自动驾驶数据集中学习的模型可以帮助无人机图像分类任务。

通过迁移学习，AI系统能够更好地适应多样化的任务和场景，并提高其通用性和实用性。

特征选择

特征选择有助于简化模型、提升效率，并且增强模型的解释性。

特征工程

特征工程的主要任务包括：

数据清洗：处理缺失值、异常值和重复数据，确保数据质量。
特征构建：从现有数据中创建新的特征。例如，时间戳可以转换为年、月、日等信息，或通过两个变量的比值生成新的特征。
特征转换：将原始特征进行缩放、标准化、对数变换或归一化，以便更好地匹配模型的输入要求，特别是对于某些距离度量敏感的模型（如K近邻、SVM）。
特征编码：将类别型特征转换为数值型特征（如独热编码、标签编码）以便模型可以处理。
特征选择：通过选择最具相关性或信息量的特征，减少数据维度，提升模型的性能。
特征提取：通过降维技术（如主成分分析 PCA）或深度学习方法（如卷积神经网络 CNN）来提取有效特征。

特征工程的质量直接影响机器学习模型的性能，它需要结合领域知识、数据分布以及模型的需求来进行优化。一个好的特征可以显著提升模型的效果，甚至比选择复杂的算法更为重要。

朴素贝叶斯分类方法

为什么叫“朴素”？

朴素贝叶斯有个简单的假设：这些线索（特征）是互不相关的。也就是说，它假设乌云和气温是独立的，彼此不会影响。虽然这在实际生活中不一定是真的，但算法在很多情况下还是很管用的。

举个例子：

假设你想知道一封邮件是不是垃圾邮件。你可以根据邮件中的关键词来判断，比如“免费”、“中奖”、“折扣”等。朴素贝叶斯会查看历史数据中这些词语在垃圾邮件中出现的频率，然后根据这些关键词的出现情况，计算邮件是垃圾邮件的概率。如果这些词频率很高，系统就会判断这封邮件很有可能是垃圾邮件。

支持向量机

主要概念：

超平面：在 SVM 中，超平面是将不同类别数据分开的线（在二维空间）或面（在高维空间）。SVM 的目标是找到一个最大化类别间间隔的超平面。
支持向量：支持向量是指离超平面最近的训练数据点。这些点对于定义分类边界（超平面）至关重要，超平面是由这些点决定的。
最大间隔（Margin）：SVM 的目标是找到一个决策超平面，使得两个类别的最近样本点之间的距离最大化。这个距离称为间隔（Margin）。SVM 会在所有可能的超平面中，选择那个能最大化间隔的超平面，因为这可以减少分类错误的风险。

SVM 分类的工作原理：

SVM 寻找的是最优超平面，该超平面能最大化数据点与其间的间隔，以达到分类的目的。
在二维平面上，SVM 寻找一条直线将数据点分为两个类别；在三维或更高维度空间中，寻找的是一个超平面。

想象一下：

你有两组不同颜色的点，比如红色点和蓝色点，SVM 的目标就是找到一条线，能够把这两种颜色的点分开。而且，它不仅仅是随便找一条线，而是找到那条能让红点和蓝点离得最远的线。这条线让两边的点之间的距离尽可能大，这样即使有新的点进来，也更容易知道该属于哪一类。

如果不能用一条线分开怎么办？

有时候，数据可能不能用一条简单的线分开，比如点分布得很复杂。SVM 会用一种“技巧”把这些点映射到一个更高维度的空间，在那个空间里就可以用一条线或者平面来分开它们。

支持向量：那些离分界线最近的点叫“支持向量”，它们决定了分界线的位置。
最大化间隔：SVM 尽量让分界线到两组点的距离最大化，这样可以让分类更加稳健，不容易出错。
K-最近邻（K-Nearest Neighbors, KNN）
核心思想：

KNN 的主要思想是：给定一个待分类的数据点，找出它在数据集里最近的 K 个邻居，然后根据这些邻居的类别来决定它属于哪个类别。具体来说：
分类任务：KNN 会根据 K 个最近邻居中，哪个类别的邻居最多，就把待分类的点归为该类别。
回归任务：KNN 会根据 K 个最近邻居的数值进行平均，得到预测结果。

想象一下：

假设你想知道一个人喜欢什么类型的音乐，但是你不知道答案。你就去问他周围几个朋友（比如问 3 个人，也就是 K=3）。如果这 3 个人中有 2 个人喜欢摇滚音乐，那么你可能会猜测这个人也喜欢摇滚音乐。这个“靠近的人”就是他最“近的邻居”。

工作流程：

你选择一个 K 值，比如 3，5，或者更多，表示你要看这个人最靠近的 K 个朋友。 找最近的邻居：看看这个人最接近哪几个人（通过“距离”来计算谁最近）。 投票决定类别：根据这些邻居中大多数喜欢的音乐类型，来推断这个人喜欢什么。

特征向量稀疏

什么是特征向量？

特征向量是指用于表示数据点的一组特征值，通常是一个多维的数值向量。每个维度表示一个特征，数值代表该特征的值。

卷积神经网络

卷积神经网络的工作原理：

卷积神经网络就像是一步步解读图片的机器，它先从局部细节入手，逐层提取越来越复杂的特征，最终得出图片的整体理解并做出判断。

循环神经网络

RNN ：有记忆力的网络

举例：

假设你在读一句话：“我今天吃了一个苹果。” 看到“苹果”这个词时，你已经看过前面“我今天吃了一个”，所以你知道这里指的是水果。RNN 就是这样工作的，它通过记住之前看到的词，帮助理解后面的词。

RNN 的工作方式：

循环连接：RNN 的特别之处在于它的“循环结构”。它会把当前时间步的输入和之前的“记忆”结合起来。也就是说，RNN 的输出不仅依赖于当前输入，还依赖于之前的输入，这样它就能理解序列的上下文信息。
记住信息：每个时间步的输出都会被传递到下一个时间步，像接力一样。因此，RNN 在处理当前输入时，也考虑了之前的输入，就像人在理解一段对话时，总是会记住前面说过的内容。

应用场景：

文本生成：RNN 可以根据之前的文字生成新的文字，比如你在手机上打字时，它会根据你输入的前几个字，预测你想输入的下一个字。
机器翻译：RNN 能够处理一整段话，从一门语言翻译成另一门语言，因为它能够理解句子结构。
语音识别：当你讲话时，RNN 能够根据之前的语音内容来更准确地理解你当前说的词。

但 RNN 也有问题：

普通的 RNN 在处理特别长的序列时，会遇到“遗忘问题”，它不太擅长记住非常远的上下文信息。为了解决这个问题，有一些改进版本，比如 LSTM（长短期记忆网络）和 GRU（门控循环单元），它们可以更好地记住长期信息。

图神经网络

“图”

在这里，“图”并不是我们平时看的那种图片，而是由点和线组成的结构：

节点（点）：表示图中的元素，比如社交网络中的每个人、地图上的每个地点，或者分子中的原子。
边（线）：表示节点之间的关系或连接，比如朋友关系、两地之间的道路，或原子之间的化学键。

举例：猜你认识共同好友

GNN 的基本思想：

消息传递：每个节点会从它的“邻居节点”那里获取信息，并结合自己的信息进行更新。这就像在社交网络上，你不仅仅知道自己的信息，还会参考朋友们的信息。
节点更新：每个节点通过不断地从邻居处获取信息，然后更新自己。这是 GNN 学习的过程，最终每个节点会有一个包含它自己和周围邻居信息的表示。
全局信息：GNN 不仅仅看单个节点，它能够综合整个图的结构，理解各个节点和它们之间的关系。这让它能够处理非常复杂的网络结构。

GNN 的应用：

TextCNN

理解：

你可以把 TextCNN 想象成一个“理解文本的滤镜”。它通过一系列“卷积操作”来扫描文本的不同部分，并从中提取出关键信息，帮助识别文本的类别。

TextCNN 的工作原理可以分为几个简单的步骤：

举例

假设你有一段评论：“这个产品真的很好用！” TextCNN 会把这句话转换成数字表示，然后通过卷积层识别出句子中的重要部分，比如“很好用”。最后，模型根据这些关键信息判断这段评论是“正面”评论。

动态 K 最大池化

把动态 K 最大池化想象成一场比赛，选出“最重要的词”。假设你有一段话，通过卷积操作提取了很多特征（可能是句子中的一些单词、短语）。但是，这些特征太多了，你不可能全都用上。这时，池化操作就相当于进行“筛选”。

举例：

总结：

动态 K 最大池化是一种灵活的池化方法，它会根据数据的结构，在每个区域里选出前 K 个最重要的值，而不是只选一个。这有助于保留更多关键信息，尤其在处理像文本这样的数据时很有用。

One-hot

理解：

举个例子：

你有三种水果：苹果、香蕉和橙子。我们可以通过独热编码把它们变成三维向量：

苹果 → [1, 0, 0]
香蕉 → [0, 1, 0]
橙子 → [0, 0, 1]

BOW

理解：

举例：

总结：

Word2vec

如果两个单词在意思上很相似，它们在这个空间里就会靠得很近；如果意思不同，它们就会距离远一点。

举例

Word2Vec 的两种训练方式：

总结：

池化（Pooling）

理解：

常见的池化方式

池化的作用

全连接层（Fully Connected Layer，简称 FC 层）

理解：

工作方式

总结：

全连接层就是神经网络中的决策层，它把前面提取到的特征全部组合在一起，并根据这些信息做出最终的判断。在分类任务中，它会决定数据属于哪个类别，比如识别图片是“猫”还是“狗”。

TF-IDF（Term Frequency-Inverse Document Frequency）

理解

TF-IDF 的组成

举例

假设我们有三篇文章：

"苹果好吃，苹果很甜。"
"香蕉好吃，苹果不如香蕉。"
"葡萄酸，苹果甜。"

对于文章 1 来说，“苹果”的 TF 会很高，因为它出现了多次；同时，“苹果”在所有三篇文章中都出现了，所以它的 IDF 可能不会太高。但如果某个专有名词只在一篇文章中出现过，它的 IDF 就会很高，表明它对这篇文章有独特的重要性。

TF-IDF 的作用：

GloVe

通俗解释：GloVe 就像给每个单词打标签，只不过标签不是文字，而是由很多个数字组成的向量（通常是 50 维、100 维或更多）。

GloVe 的特别之处是，它不仅考虑单词在句子中的局部关系，还结合了整体语料库中所有单词的统计信息，因此能捕捉更丰富的语言语义。

docker拉取 jdk 8

迁移学习

特征选择

特征工程

朴素贝叶斯分类方法

为什么叫“朴素”？

举个例子：

支持向量机

主要概念：

SVM 分类的工作原理：

想象一下：

如果不能用一条线分开怎么办？

K-最近邻（K-Nearest Neighbors, KNN）

核心思想：

想象一下：

工作流程：

特征向量稀疏

什么是特征向量？

卷积神经网络

卷积神经网络的工作原理：

循环神经网络

RNN ：有记忆力的网络

举例：

RNN 的工作方式：

应用场景：

但 RNN 也有问题：

图神经网络

“图”

举例：猜你认识 共同好友

GNN 的基本思想：

GNN 的应用：

TextCNN

理解：

TextCNN 的工作原理可以分为几个简单的步骤：

举例

动态 K 最大池化

举例：

总结：

One-hot

理解：

举个例子：

BOW

理解：

举例：

总结：

Word2vec

举例

Word2Vec 的两种训练方式：

总结：

池化（Pooling）

理解：

常见的池化方式

池化的作用

全连接层（Fully Connected Layer，简称 FC 层）

理解：

工作方式

总结：

TF-IDF（Term Frequency-Inverse Document Frequency）

理解

TF-IDF 的组成

举例

TF-IDF 的作用：

GloVe

通俗解释：GloVe 就像给每个单词打标签，只不过标签不是文字，而是由很多个数字组成的向量（通常是 50 维、100 维或更多）。

举例：猜你认识共同好友