[翻译论文]A novel embedded min-max approach for feature selection in nonlinear Support Vector Machine classification（2021）
一种用于非线性支持向量机分类中特征选择的新型嵌入式最小-最大方法
Asunci´ on Jim´ enez-Cordero

DOI: 10.1016/j.ejor.2020.12.009

文章目录

摘要：
关键词：
1.介绍
2.支持向量机
3特征选择问题
4.实验装置
5.数值经验
- 5.1 准确度结果
- 5.2 特征选择结果
5.3结果的可解释性
6.结论和未来的工作
参考文献

摘要：

近年来，特征选择已成为多个机器学习领域的一个具有挑战性的问题，特别是在分类问题中。支持向量机 (SVM) 是一种众所周知的应用于（非线性）分类的技术。文献中提出了各种方法来选择 SVM 中最相关的特征。不幸的是，它们要么处理线性分类设置中的特征选择问题，要么提出在实践中难以实施的临时方法。相比之下，我们提出了一种基于最小-最大优化问题的嵌入式特征选择方法，其中寻求模型复杂性和分类精度之间的权衡。通过利用对偶理论，我们等效地重新构造了最小-最大问题，并使用现成的非线性优化软件毫不费力地解决它。我们的方法的效率和实用性在几个基准数据集上进行了测试，包括准确性、所选特征的数量和可解释性。

关键词：

机器学习，最小-最大优化，对偶理论，特征选择，非线性支持向量机分类

1.介绍

在每天收集大量信息的大数据时代，确定这些数据中哪些是真正重要的问题是一项具有挑战性的任务。事实上，近年来，收集数百甚至数千个特征的进程数量已大大增加。在这里，一个特征被定义为过程的一个单独的和可测量的属性。因此，希望应用机器学习技术从数据中检索知识，或者等效地知道哪些是信息量最大的特征，即执行特征选择。因此，难怪特征选择算法正在流行，[5, 21]。

特征选择的目标是去除最不相关和冗余的特征以获得最优的特征子集。特征选择具有三个主要优点：首先，它通过构建更简单的模型来增强结果的可解释性，[6, 28]。其次，它减少了噪音并产生更清晰、更易理解的数据，[8, 11]。最后，由于减少了过度拟合，它可以提高预测性能 [7, 20]。

[12] 中对不同的特征选择方法进行了全面描述，包括一些示例和对其稳定性的简要讨论。有关此主题的最新调查，请参阅 [22, 24]。

特征选择技术可以应用于回归 [4] 和分类算法 [5, 32]。在本文中，我们专注于著名的支持向量机（SVM）二元分类问题的特征选择方法，[13]。简而言之，SVM 旨在找到使不同类别的训练点的最小距离最大的超平面。

特征选择技术通常分为过滤器、包装器和嵌入方法，[12]。过滤器方法作用于数据，而不考虑将用于从中提取知识的机器学习技术。因此，它们通常用作预处理步骤。他们根据从数据中计算出的评分函数对所有特征进行排名，并过滤掉排名较低的变量。虽然过滤器方法在计算上快速且简单，但它们完全忽略了与学习方法的交互。

Wrapper 方法旨在找到提供最佳预测性能值的变量子集。在包装方法中执行两个步骤。首先，选择一个特征子集，其次，根据基于机器学习问题的评分函数评估该子集的质量。重复这个过程，直到满足某个停止标准。在这里，学习机就像一个黑匣子，但它以某种方式指导最终结果。然而，由于大部分计算时间都花在了模型的训练上，这种类型的特征选择方法很少被应用。

最后，嵌入式方法同时训练模型并执行特征选择。即，学习部分和特征选择部分同时进行。因此，它们可以被视为比过滤策略更“聪明”的方法，因为它们与预测模型交互，并且比包装方法更快，因为每次选择特征子集时都不需要训练学习模型。我们提出的非线性SVM分类的特征选择方法属于这一类。

目前在技术文献中有几篇关于 SVM 的嵌入式特征选择方法的作品。例如，在线性设置中，[30] 提出了一个模型，该模型等效于用“1-范数”而不是通常的“2-范数”解决 SVM 问题的原始问题。 [14] 中的作者制定了一个优化问题，该问题通过二分法自动调整要使用的特征数量，同时考虑到这个数量不能超过预先固定的值。 [19] 中提出了一个混合整数线性规划，其预算约束限制了要使用的特征数量。

此外，还包括两个连接连续变量和二进制变量的大 M 型约束。为了保证如此大的 Ms 值足够紧，作者提出了几种策略，这些策略意味着在解决特征选择程序之前解决额外的优化问题。据我们所知，[18] 是第一篇使用双层问题执行嵌入式特征选择方法的论文。使用 Karush-Kuhn-Tucker 条件对其进行重新表述，其宽松版本使用现成的非线性求解器求解。 [2] 的作者扩展了 [18] 中的工作，通过在上层问题中添加新的二进制变量来控制所选特征的数量。

关于非线性 SVM 的嵌入式模型，它们大多基于正则化方法，在 SVM 学习目标和生成的分类模型的复杂性之间进行权衡。例如，[25, 35] 用特征向量的 0-“范数”近似来惩罚 SVM 问题的对偶的目标函数。提出了一种应仔细调整六个超参数的临时策略作为求解策略。在[29]中制定了四种基于正则化的方法。 DC（凸函数差分）技术被提出来解决它们。 [3] 中给出了另一种正则化策略，其中在目标函数中添加了一个“1 惩罚项”。为了解决这样的问题，内核相对于特征权重被线性化以获得双凸问题（在分类和特征选择变量中），然后在交替算法中使用梯度技术来解决这个问题。

上述文章提出了具有连续变量的正则化方法。相比之下，在 [33] 中构建了一个带有二进制变量的正则化模型，指示是否删除了一个特征。特别是，[33] 的作者通过在模型中引入二进制变量来执行特征选择，该模型最小化了硬边距 SVM 的留一法误差的半径边距界限。然后放宽 {0, 1} 变量以通过基于梯度的方法解决所提出的优化问题的惩罚版本。在这样一个新模型中，目标函数现在包括一个惩罚，它通过一个方便调整的参数来控制保留特征的数量。他们还添加了一个约束来固定要使用的变量的数量。至于使用二进制变量来确定是否删除特征的方法，我们应该强调[26]的工作，其中建立了具有二进制变量的混合整数非线性模型。二进制变量根据基于内核的分类器迭代更新。

综上所述，上述方法可分为两类。
第一种方法处理线性中的特征选择问题SVM，因此，它们无法处理非线性可分离数据集。第二组参考文献选择了非线性 SVM 分类中最相关的特征，代价是需要具有有限性能保证的临时解决方案算法。据我们所知，关于该主题的现有研究工作都没有提出可以使用现成的优化软件无缝解决的非线性 SVM 分类的特征选择方法。

在本文中，我们提出了一种用于非线性 SVM 分类的新型嵌入式特征选择技术，该技术可以使用现成的优化软件有效解决。我们的技术涉及解决最小-最大优化问题，其中我们平衡两个目标，即通过特征权重的范数使用的特征数量，以及用SVM 边距。通过对偶理论，我们将这个问题重新表述为一个单级等价问题，可以由现成的非线性求解器有效处理。通过这种方式，我们避免了使用繁重的临时解决方案策略，此外，这些策略通常依赖于多个超参数的调整。在不同数据集中执行的数值经验表明，我们的方法产生的结果与替代的最先进方法相似甚至更好，并且具有更简单和易于实施的独特优势。

本文的其余部分结构如下：第 2 节简要介绍了有关 SVM 的基本定义和概念。第 3 节阐述了提出的优化问题，并解释了如何解决它。第 4 节专门介绍数据集、实验和比较算法，第 5 节详细介绍了所执行的数值经验。我们在第 6 节结束时给出了一些结论和可能的扩展。

2.支持向量机

我们专注于二元分类问题：给定两组标记数据，目标是基于以下方法预测未观察点的标签从训练点中提取的知识。更准确地说，考虑个体S 的样本。对于每个个体 i∈ S，我们关联对 (xi, yi)，其中xi ∈ RM是表示特征的 M 维向量，并且 yi ∈ {−1, +1 } 表示个体 i 的标签。主要目标是找到一个分类规则，使用 x 提供的信息来预测一个新的看不见的标签x。

文献中已经开发了几种策略来处理二元分类问题。参见 [17] 进行审查。在本文中，我们应用了众所周知且广泛使用的方法，称为支持向量机 (SVM)，[13]。软边距 SVM 问题的原始表述如下：
在这里插入图片描述

误分类的点。

下面的线性分类规则是从问题 (1) 的最优解中推导出来的：当且仅当 y^(x) + b ≥ 0 时，一个新的看不见的点 x 被分类到第 1 类，其中 y^(x)是所谓的评分函数，定义为：

y^(x)=w′x (2)

SVM 不仅可以处理线性二元分类问题，还可以通过核技巧处理非线性可分离训练点。关键思想是通过特征图 φ : RM → X 将原始数据 xi 转换到更高维空间 X ，其中数据变为线性。因此，问题 (1) 可以用变换后的数据φ(xi) 写成如下：
在这里插入图片描述
因此，得分函数 (2) 被修改如下所示：

很明显，非线性情况可以简化为线性情况，只需设置 φ(x) = x。不幸的是，φ 的表达式通常是未知的，因此问题 (3) 在实践中无法解决。然而，这个问题是通过诉诸（3）的双重表述来处理的：
在这里插入图片描述
问题 (5) 最大化具有线性约束的二次凹目标函数。因此，它可以用标准的凸优化求解器来求解。此外，作为问题 (3) 的拉格朗日对偶重构的结果，它认为超平面法向量 w 的系数可以用 α变量表示，如下所示：
在这里插入图片描述
因此，(4) 中的得分函数 y^(x) 变为：

请注意，问题（5）的解决和（7）中分数函数的评估都不取决于计算 φ 的值（其显式形式未知），而是取决于计算点的值乘积

这极大地简化了通过 SVM 对非线性分类规则的计算。事实上，选择一个所谓的核函数 K : RM × RM → R 就足够了，作为这样的点积，即：
在这里插入图片描述

因此，得分函数（7）可以写成：
在这里插入图片描述
问题（5）可以改写为：

直观地说，核函数隐含地使我们能够访问（可能是无限维的）特征映射族 φ(·)，而无需实际使用它们。在下一节中，我们将详细说明我们如何通过自动执行特征选择的能力来丰富问题 (10)。

3特征选择问题

本节详细介绍了在分类时选择最相关特征的建议方法。特别是，在第 3.1 节中，我们制定了一个 min-max 优化程序来解决特征选择问题。 3.2 节解释了如何重新表述这样一个问题，然后用 3.3 节中的现成软件解决。

3.1特征选择的最大最小公式

对偶公式 (10) 中的核技巧表明，对于在某个特征空间 X 中线性分离数据，不需要知道映射的显式表达式

在这里插入图片描述
但是相关的点积或核 K(xi, x’) = φ(xi)0φ(x’), ∀i,’.实际上，可以认为由同一内核再现的所有映射 φ(·) 是等价的，[27]。因此，难怪非线性 SVM 问题的成功高度依赖于对内核的仔细选择。在这种情况下，我们的方法旨在识别一个内核，使 SVM 能够仅使用信息量最大的特征来分离数据（尽可能多地）。
在这里插入图片描述
根据这个论点，接下来考虑一组根据有限维向量 γ 参数化的内核 Kγ(·,·)。该家族中的每个成员都在特征空间 Fγ 中再现了特征映射φ(·) 的目录。我们现在可以重新制定非线性 SVM 的原始版本来解释这个额外的自由度，如下所示：
在这里插入图片描述
我们还寻找最佳的γ，即最佳的函数空间Fγ，它最大化了SVM软边距。

不出所料，问题 (11) 是棘手的，现在不仅因为特征图 φ(·) 的特定形式是未知的，而且因为我们没有根据参数向量的特征空间 Fγ 的明确表达γ。在应对这一挑战的第一步中，我们再次求助于非线性 SVM 的对偶公式，即：

在这里插入图片描述

与（11）相反，问题（12）的好处是我们确实可以根据有限维参数向量 γ 有一个内核 Kγ(·,·) 的显式表达式。例如，在本文中，我们将使用带宽参数 γ ≥ 0 的各向异性高斯核，它以其灵活性而闻名，并采用以下形式：

在这里插入图片描述
特别是，各向异性高斯核将允许我们以自然的方式通过特征加权来执行特征选择。实际上，使用 (13) 中的表达式，每个特征的重要性可以很容易地通过 γj 的值来衡量。更准确地说，γj 趋于零的值意味着相关特征 j 在分类中不起作用。相反，较大的 γj 值表明特征 j 对于获得良好的分类结果至关重要。
在这里插入图片描述
然而，问题 (12)（或等价于问题 (11)）的一个主要缺点是，由参数向量 γ 引入的额外自由度可能会产生训练数据的过度拟合。事实上，众所周知，在高斯核 (13) 中趋于无穷大的 γj 值会导致这种麻烦的现象。因此，我们需要以某种方式惩罚问题 (12) 中较大的 γ 值。同时，如果 γj =0, ∀j，则核表达式 (13)对于样本中的所有个体对都等于 1，即 Kγ(xi, xA) =1, ∀i, l。因此，通过结合 SVM分类规则 (2)、评分函数 (9)和约束 (12b) 很容易检查，在这种情况下，新的未见过个体的预测标签将始终与 b 的符号一致，导致分类性能不佳。
在这里插入图片描述
因此，很明显在模型复杂度和分类精度之间存在权衡。换句话说，需要一个同时最小化特征权重和最大化精度的模型。为此，我们修改问题（12）以提出最小-最大优化问题（14），其中在两个目标之间进行权衡，即特征权重向量 γ、kγkpp 的 p-（伪）范数，对于 p ≥ 0，SVM 问题 (10) 的目标函数有待优化。与每个目标相关的重要性是根据参数 C2 来衡量的，它平衡了模型的复杂性和分类精度，其值取决于用户的偏好。接近 0 的 C2 值有利于样本内预测精度高的模型，即使要使用的特征数量很大。相反，C2 值趋于 1 会导致模型的特征数量减少，但代价是牺牲一些准确性。

在这里插入图片描述
与技术文献中用于非线性 SVM 分类的其他嵌入式方法相比，我们的模型 (14) 没有像 [26, 33] 中那样通过二元变量选择最相关的特征。相比之下，我们通过连续变量的特征加权来进行特征选择。这样，我们不仅避免了与整数编程相关的困难，而且还了解了一个特征是否相关，以及它的重要性程度。

在这里插入图片描述
此外，[3,25,29] 中提出的所有模型都会在对偶 SVM 问题 (10) 的目标函数内惩罚特征向量的大小。然而，我们的目标是找到导致最大 SVM 余量的 γ。这意味着在 γ 上最小化 1 2kwk2 + CP i∈S ξi 在 w 和 ξ 上的最小值，如 (11) 所示，或者等效地，在 γ 上最小化 P i∈S αi− 1 2 P i,‘αiα’ yiy’Kγ(xi, x’) 在 α 上，如在 (12) 中。由于我们仍然想利用内核技巧，我们需要选择后者并相应地引入正则化项，如（14）所示。这产生了我们提出的用于特征选择的最小-最大方法。

3.2模型重构

问题 (14) 通常是一个非常难以解决的非凸优化问题。本节的目的是重新表述这样的问题，以便通过现成的软件解决它。

首先，我们将问题 (14) 等价地改写为题词形式

在这里插入图片描述
问题（15）可以看作是一个双层优化问题，上层问题旨在以较少的特征获得良好的分类结果，而下层问题侧重于分类任务。实际上，较低级别的问题表明决策变量 z 的下界是对偶 SVM 问题 (10) 的最优解。

为了解决问题（15），我们提出了一种基于低级对偶问题的重新表述，它利用了支持向量机问题（10）是具有二次目标函数和仿射约束的凸优化问题的事实。因此，强对偶成立，并且较低级别的问题 (15b) - (15d) 可以等效地被其对偶替换，[10]。实际上，强对偶性还允许我们使用来自数学编程的参数来证明 (14) 中的外部最小化是合理的：最大化 SVM 软边距涉及最小化目标函数 (11a)，而目标函数 (11a) 的值与原始和双重最优处的双重目标（12a）。因此，我们要在 γ 上最小化对偶目标（12a）。
在这里插入图片描述
然后我们开始构建较低级别问题的拉格朗日函数。为简单起见，以下将使用矩阵表示法。我们将 Gγ := diag(y)Kγdiag(y) 定义为 SVM 问题的二次形式，diag(y) 表示向量 y 在其对角线上的矩阵。此外，e 表示一个充满适当维度的向量，约束 (15c) 和 (15d) 旁边括号中的变量是它们对应的对偶决策变量。使用这种表示法，下层问题的拉格拉吉函数计算如下
在这里插入图片描述

为了计算低级问题的对偶的目标函数，需要计算 L(α, ν, λ0, λC) 相对于 α, ∇αL(α, ν, λ0, λC) 的梯度和让它消失，即：

因此，SVM 问题 (10) 的对偶公式为：

目标函数 (19a) 的第二项旨在最小化 z，z 是问题 (18) 的最佳目标值的下界变量。因此，最优决策变量z可以用问题（18）的最优值代替，问题（19）写成：
在这里插入图片描述
问题 (20a)-(20c) 是双层优化问题 (15) 的单层等价重构。它是强非凸的，因此，如果使用非线性优化求解器，我们只能渴望获得局部最优解。在这方面，我们的数值实验表明，包括约束 (20d)，尽管是多余的，但有助于非线性求解器更快地达到良好的局部最优解，尤其是对于较大的 C2 值。在第 3.3 节中，我们详细阐述了一种基于现成优化软件的简单但有效的求解策略。

3.3解决策略

本节的目的是详细说明为解决问题 (20) 而采取的策略。我们提出了一种基于网格搜索方法和标准现成求解器的通用高效方法。

首先，我们必须澄清，为了避免过度拟合并获得稳定的结果，将个体 S 的整个样本分为训练和测试子样本分别用 S~ 和 Stest 表示。重复这个过程k 次，使得两次不同迭代的测试样本之间没有共同个体。其次，针对用户定义的超参数 C2 的固定值求解所提出的特征选择方法。

解决问题 (20) 的第一步是确定超参数 C 并为非线性现成求解器找到 γ 变量向量 γini 的适当起点。在本文中，我们选择标准 SVM 问题 (10) 提供的最佳 γ，其中不进行特征选择，即，当假设所有特征发挥最佳预测时，给出最佳预测的 γ 值相同的作用，因此在核函数 (13) 中设置 γj = γ, ∀j。为了这个目标，已经实施了 N 折交叉验证。在每次迭代中，样本 S~ 被分为训练数据和验证数据，分别表示为 Str 和 Sval。因此，对于在先前选择的网格中变化的固定 (C, γ)，问题 (10) 在Str 中求解，其中 γj =γ,∀j。对于固定的γ 值，优化问题 (10)是凸的，可以使用商业优化软件解决。选择的对 (C*, γini)被选择为在N 次折叠上最大化 Sval的平均准确度的一对。

在这里插入图片描述
一旦确定了 C 的最优值和初始解 γini，则在 ~S 中求解下层问题 (18) 的对偶公式，以获得初始决策变量 αini、νini、λ0,ini 和 λC,ini。对于固定的 C 和 γ，这个问题也是凸的，可以用商业优化软件解决。

接下来，我们针对相同的值C∗ 并使用初始决策变量作为起点解决样本S~中的问题 (20)。为此，我们使用现成的非线性求解器。为了保证我们使用对于所有特征 j 所获得的 γj 全局最优的 α 决策变量，然后我们针对这样的 γ 向量求解 S~ 中的凸问题 (10)。
最后，我们的方法的效率是通过使用相应的决策变量 α 和 γ 计算样本 Stest 的准确度来衡量的，这些决策变量是先前通过分别解决问题 (10) 和 (20) 确定的。
算法 1 中勾画了我们对样本 S 的特定划分的求解策略的伪代码。
总之，所提出的解决方案策略需要解决 N 个凸优化问题，对于每一对 (C, γ)，一个固定 C* 的凸优化问题和一个非凸优化问题。这里不需要费力和复杂的临时方法。

4.实验装置

本研究中进行的所有计算实验都在本节中详细介绍。第 4.1 节专门描述我们分析中使用的数据集。第 4.2 节解释了所进行的实验。最后，第 4.3 节介绍了与我们的方法进行比较的算法。

4.1数据集

我们使用了四个数据库，即乳腺、糖尿病、淋巴瘤和结肠直肠，所有这些都可以从 [31] 下载。表 1 包括每个数据库中主要类别的个体数量、特征数量和个体百分比。

在这里插入图片描述

糖尿病可能是一个非线性可分离的数据集，正如 [1] 所证实的，我们在下面的数值实验也揭示了这一点。

众所周知，结肠直肠癌含有异常值，[9]。事实上，如果去除这些异常值，分类准确度会提高 8-9 个百分点。关于异常值对我们方法的影响的讨论第 5节详细介绍了与其他策略的比较。为此，我们将 [16] 中确定的 11 个人（共 62 个人）视为异常值。

4.2实验描述

本节详细介绍了为评估和基准测试我们的方法而进行的实验，这将在第 5 节中表示为 MM-FS。

作为预处理步骤，每个数据集的特征已经过归一化，使得每个特征都属于区间[-1, 1]。算法1 已经运行以显示所提出方法的效率和有用性。事实上，为了得到稳定的结果，算法 1 中给出的实验已经进行了 k = 10 次。更具体地说，整个样本 S 已被分成 10 倍。在每次迭代中，将 10 个折叠中的 1 个用作测试样本。剩余的9 个折叠形成 S~ 样本。注意没有通用两个不同迭代的测试样本之间的个体。

在这里插入图片描述
在算法 1 中计算初始解时，将 9 折进一步细分为 N = 5 折，因此 Str 和 Sval 分别包含这 9 折中的数据的 4 5 和 1 5 。问题 (10) 在 Str 上解决，如算法 1 所示。在 5 折交叉验证过程之后重复此过程。初始解的γ网格为{10−4, . . . , 104} 并且超参数 C 在集合 {10−4, . . . , 10−1, 1, 2, . . . , 9, 10, . . . , 104}。在目标函数 (20a) 的第一项中选择的 p 值为 p = 1。

如第 3.1 节所述，这里我们假设超参数 C2 应该由用户选择。因此，在本文中，我们不提供针对单个 C2 值的方法的结果，而是提供样本外准确度与在一定范围内为不同 C2 值保留的特征数量的曲线。如果要根据特定用户的标准选择 C2 的值，则将按照在该特定标准方面在验证样本中获得的最佳结果来选择它，就像文献中通常所做的那样。
此外，我们表明我们的方法能够实现具有少量特征的模型，即使丢失了一些准确性。为此，对于固定的 C2，我们提供了一条曲线，其中根据所选特征的数量来估计样本外预测百分比的成功率。

为了构建这条曲线，我们进行如下操作。假设我们只想在 SVM 分类模型中保留 F 信息量最大的特征。为此，我们做了一个列表，其中每个特征 j 根据算法 1 给出的 γ 的第 j 个分量 γj 进行排序。然后，我们将排序中最重要的 F 个特征与它们各自的 γj 并解决问题(10) 在样本 ~S 中，对于所有未选择的特征，γj = 0。这个过程是按折叠执行的，我们计算 Stest 中我们的方法在所有折叠中正确分类的那些个体的百分比。最后，这个百分比与 F 值一起在曲线中产生一个点。
此外，为了测试我们的方法生成可解释的 SVM 分类模型的能力，我们还提供了我们的方法识别为最重要的那些特征的名称，并将它们与被认为是最有意义的特征进行比较。技术文献。总而言之，我们的实验提供了：i）我们的方法能够通过改变网格中的 C2 {0.01, 0.1, 0.2, . . . , 0.8, 0.9, 0.99}; ii) 我们的方法的分类准确率百分比，因为特征逐渐按重要性顺序进行考虑，以及 iii) 讨论了所选特征的可解释性水平。
所有实验均在具有 21 Tb RAM 内存的集群上进行，运行 Suse Leap 42 Linux 发行版。模型在 Python 3.7 和 Pyomo 5.2 中编码，并在 24 小时的时间内使用 Cplex 12.6.3 解决凸问题，使用 Ipopt 3.12.8 解决非凸问题。

4.3比较算法

已使用三种替代方法来比较我们的建议。第一个，表示为 NO-FS，对应于没有进行特征选择时提供的解决方案，即当特征的重要性由 (13) 中的唯一值 γj = γ, ∀j 给出时。也就是说，NO-FS方法归结为算法1初始解给出的分类结果。

第二种方法，称为 KP-FS，在 [25] 中提出。该模型基于对偶 SVM 问题的正则化，其中在目标函数中添加了 0-“范数”的近似值作为惩罚项。这个问题是使用启发式交替算法解决的，该算法需要仔细调整几个超参数。

KP-FS 提供的结果基于 ad-hoc 解决方案策略。出于这个原因，参考文献[25]给出的特征选择方法被称为KP-FS ad-hoc。此外，为了比较，我们还使用现成的求解器运行了特征选择模型 KP-FS。这种比较策略被命名为现成的 KP-FS。应定义 KP-FS 现成方法中使用的一些设置参数的值。例如，出现在 0-“范数”近似中的 β 参数按照作者的建议设置为 5。交替方法的两个步骤都已使用现成的软件解决。事实上，第一步的凸优化问题是使用 Cplex 12.6.3 解决的，而 Ipopt 3.12.8 已经运行以解决第二步的非线性优化问题。交替方法的最大迭代次数设置为五。为了避免陷入局部最优，在第二步中执行了一个包含三个运行的多启动。正则化参数 C 取集合 {10-4, . . . , 10−1, 1, 2, . . . , 9, 10, . . . , 104} 和超参数 C2 范围在集合 {0.01, 0.1, 0.2, . . . , 0.8, 0.9, 0.99}。

第三种方法，由 MILP-FS 表示，已在 [19] 中提出。[19] 的作者使用混合整数线性问题 (MILP) 解决线性 SVM中的特征选择问题，其中预先选择了最大数量的选择特征。他们设计了两种策略来解决由此产生的 MILP，即启发式方法和精确程序。在这两种情况下，都需要解决额外的优化问题。

正如在 KP-FS 方法中发生的那样，MILP-FS 方法中提出的求解策略基于 ad-hoc 过程。出于这个原因，这种方法将被称为 MILP-FS ad-hoc。我们还建议使用现成的优化求解器来求解 MILP-FS 模型。这种比较算法被命名为现成的 MILP-FS。在这种方法中，SVM 参数 C 也在集合 {10−4, . . . , 10−1, 1, 2, . . . , 9, 10, . . . , 104}，尽管我们的实验表明 C 参数在求解 MILP 模型时似乎没有发挥重要作用。控制要选择的最大特征数量的预算参数 B 依次设置为 10、50、5 和 50，用于数据库乳房、结肠直肠、糖尿病和淋巴瘤。用于大 -M 约束的下限和上限在数据集结肠直肠、糖尿病和淋巴瘤中固定为 -1 和 1，在数据库乳房中固定为 -200 和 200。此 MILP 模型使用 Cplex 12.6.3 和默认选项求解。

将整个数据集划分为 KP-FS 现成的和 MILP-FS 现成的样本〜S 和 Stest 的执行方式与我们的 MM-FS 方法相同。不幸的是，我们不知道 [25] 和 [19] 中分别用于 KP-FS ad-hoc 和 MILP-FS ad-hoc 方法的确切样本划分。因此，第 5 节中为这些策略提供的结果是 [25] 和 [19] 中给出的结果的逐字记录。

5.数值经验

接下来，我们详细说明我们进行的数值实验所提供的结果。更准确地说，在第 5.1 节中，我们将使用我们的方法获得的结果在分类准确性方面与前面描述的其他算法进行了比较。 5.2 节讨论了仅在分类中使用最重要的特征时的预测结果，最后，5.3 节关注所选特征的可解释性。

5.1 准确度结果

正如第 4.2 节所述，我们不提供单个 C2 值的输出结果，而是提供前缀网格中的所有 C2 值的输出结果。特别是，图 1 显示了所有数据库的曲线，其中表示了权重 γ 的范数与 10 倍上分类良好的百分比。不出所料，在四个数据集中，我们可以看到 C2 的值越大，权重 γ 的范数越低。另一方面，就 C2 值而言，平均测试精度不像 γ 范数那样具有如此平滑的行为。这是由于两个原因。首先，因为目标函数 (20a) 的第二项没有使准确度最大化，而是由 SVM 边际给出的它的代理。其次，模型（20）的性能在样本数据~S上进行了优化，这提供了一个不完整的现实视图。因此，这种性能不一定能推广到测试集 Stest。

这些数字的主要内容是非常接近 0 或 1 的 C2 值会导致测试集中的准确度水平较低。较低的 C2 值会产生复杂的模型，这些模型往往会过度拟合数据并降低样本外性能。这在结直肠和淋巴瘤数据集中尤为明显，其中特征数量与个体数量之间的比率更大。相反，高 C2 值会产生过于简化的模型，无法捕捉可用特征的所有解释力。

在这里插入图片描述
表 2 显示了使用我们的方法的测试样本中的最佳准确度结果以及达到这种准确度的 C2 值。我们还包括在所有比较的测试样本中获得的准确度结果第 4.3 节中介绍的 ative 算法。我们记得，NO-FS、KP-FS 现成和 MILP-FS 现成方法中使用的样本划分与我们的 MM-FS 方法中考虑的完全相同。此外，KP-FS ad-hoc 和MILP-FS ad-hoc 方法的准确性分别直接取自 [25] 和 [19]。在这方面，淋巴瘤数据集有未在 MILP-FS ad-hoc 中使用，因此，其准确度结果不可用。此外，数据库结直肠癌和淋巴瘤不能通过 KP-FS 现成的方法在 24 小时内解决。

我们观察到，所提出的 MM-FS 方法获得了与 NO-FS方法相似的准确度结果，其中所有特征具有相同的权重。换句话说，我们的方法能够通过选择具有最高分类能力的特征来成功地提取数据的相关信息。有趣的是，在某些情况下，例如对于结肠直肠和淋巴瘤数据库，我们的方法消除不相关特征提高了预测准确性。

值得注意的是，我们的方法利用可用的现成优化软件，提供的结果可与所有数据库的 KP-FS 和 MILP-FS 的临时实现所给出的结果相媲美，除了结肠直肠，这将在稍后讨论。

关于现成的比较算法 KP-FS，结果表明我们的 MM-FS 方法在数据库乳房和糖尿病方面明显更好。特别是，当使用现成的软件求解 KP-FS 模型时，所有特征的 γ 变量都趋于零，导致不准确的预测，其中所有元素都使用主要类别的标签进行分类。在淋巴瘤的情况下，甚至不可能在 24 小时的期限内获得局部最优解。使用现成的 MILP-FS 获得的结果略好于淋巴瘤数据集的 MM-FS 方法。相比之下，我们的建议比现成的 MILP-FS 略好一些。最后，可以看出，对于糖尿病数据集，我们的 MM-FS方法比现成的 MILP-FS 提供了明显更好的结果。事实上，现成的 MILP-FS 只是正确地预测了主要类别。这很可能是因为现成的 MILP-FS 仅限于线性分类器，而糖尿病数据集却不是线性可分的，如 4.1 节所示。

我们推测，在将我们的 MM-FS 策略与算法 KP-FS ad-hoc 和 MILP-FS ad-hoc 进行比较时观察到的数据集结肠直肠癌的差异是由于该数据集只有 62 个人的大量异常值，包含。不幸的是，没有对治疗发表评论[25] 或 [19] 中的异常值。然而，我们的猜想基于以下两个事实：i）如果从数据集中删除这些异常值，我们方法的性能与 KP-FS ad-hoc 和 MILP-FS ad-hoc报告的性能相当分别在 [25] 和[19]中； ii) 现成的估计准确度MILP-FS的变体与我们的方法相同。
最后，我们没有报告现成的方法 KP-FS 的估计准确度值，因为它在 24 小时限制内没有提供解决方案。

5.2 特征选择结果

在本节中，我们评估我们的方法在尽可能不损害分类准确性的情况下选择数据集中最相关特征的能力。为此，接下来，我们展示了一系列实验的结果，在这些实验中，我们分析了非线性支持向量机的性能，该支持向量机仅考虑我们的方法识别的最相关特征及其各自的 γ 值。因此，未选择特征的 γ 值设置为零，如第 4.2 节所述

在这里插入图片描述
图 2：对于 MM-FS 方法的不同数量的排序特征，在样本 Stest 上估计超过 10 倍的分类良好的百分比图。

图 2 显示了所提出的方法在 10 个测试集（每折叠一个）上针对不同数量的排序特征的分类准确度。每个子图都属于一个数据库。这些结果对应于提供表 2中指示的最高分类准确度的 C2 值。

图 2 表明我们的方法可以生成具有少量特征的模型，而只是牺牲了一点分类性能。例如，对于乳房数据集，需要30 个特征中的 4 个才能达到 97% 的准确率，而对于数据库糖尿病，这就是发生的情况，其中使用最相关的特征只会导致预测能力下降不到 2%。具有大量特征的结直肠和淋巴瘤数据库的结果也很显着。事实上，仅考虑 2000 年中 10 个最相关的特征，就在结直肠数据库中获得了最佳准确度结果，而仅考虑 1% 的要在淋巴瘤数据集中获得 96.87% 的分类良好的元素，总特征量（4026 个中的 40 个）是必需的。

5.3结果的可解释性

为了评估 MM -FS 的可解释性，我们在表 3 中比较了我们的方法相对于技术文献中指出的相关特征确定的五个最重要的特征。在我们的方法中，这些特征是根据它们的相关性来呈现的。例如，对于乳房数据集，特征半径最差和纹理最差是最重要的特征，也是第二重要的特征。我们在括号中引用了用于所有数据库的基准方法，淋巴瘤除外，因为没有文章报告与该数据库最相关的特征。在这里插入图片描述
我们可以在表 3 中观察到，我们的方法确定为相关的大多数特征在技术文献中也被认为是重要的。在乳房数据集的情况下，除了识别已知的重要特征，[15]，我们的方法还认为相关特征平滑度最差和对称性最差。在数据集糖尿病中也发生了类似的情况，其中选择特征葡萄糖、体重指数和糖尿病谱系等与确定新患者是否患有糖尿病有关。这一结论与文献[34]中得到的结论一致。最后，这里提出的模型能够从数据集结肠直肠癌的 2000 个可用特征中找到 2 个已在文献中检测到的基因 [23]，这些基因对结肠癌的诊断很重要。除了这些信息之外，MM-FS 方法还选择了另外三个相关基因。

因此，与基准方法相比，我们的提议具有竞争力，不仅在分类准确性和特征排名方面，如第 5.1 节和第 5.2 节分别所示，而且在可解释性方面。

6.结论和未来的工作

本文处理非线性 SVM 分类中的特征选择问题。为此，提出了一种新颖的嵌入式特征选择方法，该方法通过无缝平衡模型复杂性和分类准确性的最小-最大优化问题。与现有的 ad-hoc 方法不同，所提出的模型可以使用标准的现成优化软件有效地解决，这要归功于利用对偶理论的等效重构。

数值经验表明，我们的特征选择方法能够根据其预测能力选择特征并对其进行排序，与考虑所有特征时获得的分类性能相比，保留了相似的样本外准确度结果。此外，对各种数据库的数值测试表明，当使用现成的软件解决时，所提出的方法明显优于用于特征选择的最先进的嵌入式方法，并且在使用临时策略解决时与它们相当。吉斯。最后，我们的方法产生可解释的分类模型并正确识别文献中报道的相关特征。

在本文中，我们将自己限制在高斯核中。尽管如此，这里提出的模型可以扩展到其他内核系列，