0
点赞
收藏
分享

微信扫一扫

梯度提升

DOI:10.3389/fnbot.2013.00021 如果感兴趣的,还请看原文,本文只是简单的介绍了一下

摘要

梯度推进机器是一系列强大的机器学习技术,在广泛的实际应用中取得了相当大的成功。它们可以根据应用程序的特定需求进行高度定制,例如学习不同的损失函数。本文给出了梯度推进方法的教程介绍,重点关注建模的机器学习方面。理论信息由描述性示例和插图补充,涵盖了梯度推进模型设计的所有阶段。讨论了处理模型复杂性的注意事项。提出并全面分析了三个梯度增强应用的实例

1.引言

在不同的机器学习应用程序中出现的一个常见任务是从数据中构建非参数回归或分类模型。在特定领域设计模型时,一种策略是根据理论构建模型,并根据观察到的数据调整模型参数。不幸的是,在大多数现实生活中,这种模型是不可用的。在大多数情况下,研究人员甚至无法获得专家对输入变量之间潜在关系的初步猜测。如果应用非参数机器学习技术(如神经网络、支持向量机或任何其他自行决定的算法)直接从数据中建立模型,则可以避免模型的缺乏。这些模型是以监督方式构建的,这意味着必须事先准备好具有所需目标变量的数据。数据驱动建模最常用的方法是只构建一个强预测模型。一种不同的方法是为某些特定的学习任务建立一个桶或模型集合。人们可以考虑建立一套像神经网络这样的“强”模型,这些模型可以进一步组合在一起以产生更好的预测。然而,在实践中,集成方法依赖于组合大量相对较弱的简单模型来获得更强的集成预测。这种机器学习集成技术最突出的例子是随机森林(Breiman,2001年)和神经网络集成(Hansen和Salamon,1990年),它们在不同领域获得了许多成功的应用(Liu等人,2004年;舒和烧伤,2004年;Fanelli等人,2012年;齐,2012)。常见的集成技术如随机森林依赖于集成中模型的简单平均。boosting方法家族基于一种不同的、建设性的系综形成策略。boosting的主要思想是向集合中顺序添加新模型。在每个特定的迭代中,根据迄今为止学习的整个集合的误差来训练新的弱基础学习器模型。第一个突出的提升技术是纯算法驱动的,这使得对其属性和性能的详细分析相当困难(Schapire,2002)。这导致了许多关于为什么这些算法要么优于所有其他方法,要么由于严重的过度拟合而不适用的猜测(Sewell,2011)。为了与统计框架建立联系,推导出基于梯度下降的助推方法公式(Freund和Schapire,1997年;弗里德曼等人,2000年;弗里德曼,2001年)。这种增压方法的公式和相应的模型被称为梯度增压机。该框架还提供了模型超参数的基本理由,并为进一步梯度推进模型开发奠定了方法基础。在梯度推进机器(简称GBMs)中,学习过程连续拟合新模型,以提供对响应变量的更准确估计。该算法背后的主要思想是构造新的基学习器,使其与整个集成相关联的损失函数的负梯度最大相关。应用的损失函数可以是任意的,但是为了给出更好的直觉,如果误差函数是经典的平方误差损失,则学习过程将导致连续的误差拟合。一般来说,损失函数的选择取决于研究人员,到目前为止,损失函数的种类非常丰富,并且有可能实现自己的特定任务损失。这种高度灵活性使GBMs高度可定制化以适应任何特定的数据驱动任务。它在模型设计中引入了很大的自由度,从而使选择最合适的损失函数成为一个反复试验的问题。然而,boosting算法实现起来相对简单,允许人们尝试不同的模型设计。此外,GBM不仅在实际应用中,而且在各种机器学习和数据挖掘挑战中也显示出相当大的成功(Bissacco等人,2007;哈钦森等人,2011年;皮特曼和布朗,2011年;约翰逊和张,2012年)。

从神经机器人的角度来看,集成模型是一种用于不同预测任务的有用实用工具,因为与传统的单个强机器学习模型相比,它们可以始终提供更高精度的结果。例如,集成模型可以有效地将EMG和EEG传感器读数映射到人体运动跟踪和活动识别。然而,这些模型也可以为神经形成和记忆模拟的模型提供有价值的见解。虽然人工神经网络具有分布在人工神经元连接中的学习模式的记忆,但在增强集成中,基础学习者扮演着记忆介质的角色,并连续形成捕获的模式,逐渐增加模式细节的水平。增强集成的进步可以在大脑模拟领域中找到富有成效的应用,因为集成形成模型可以与网络增长策略相结合。特别地,如果基础学习者被认为是网络的节点,这在连接体的上下文中将意味着神经元,那么将有可能构建具有各种图形属性和拓扑的集成,例如在生物神经网络中发现的小世界网络。为了推进增强集成模型的高级神经机器人应用,有必要首先定义这些模型的方法和算法框架。在本文中,我们将为GBMs的新手提供方法的正式描述和模型设计的考虑因素,这些都在许多实际示例中进行了说明。本文重点关注GBM建模的机器学习方面,因此本文的方法论部分旨在为具有适当统计背景的读者提供帮助。在第二节中,我们详细描述了增强方法和梯度增强算法。在第三节中,我们讨论了GBM设计机会。在第四节中,正则化问题涉及更深入地了解模型超参数之间的依赖关系。第五节提供了模型解释的考虑因素。第六节给出了GBMs的应用实例。第七节给出了总体的性别平等管理讨论和未决问题,随后是第八节的结论。

2.方法

在本节中,我们将介绍由Friedman(2001)最初提出的GBMs的基本方法和学习算法。本教程被认为是对GBMs的介绍,因此算法及其属性的严格数学证明不在本文讨论范围内。总之,我们可以用公式表示梯度推进算法的完整形式,如最初由Friedman(2001)提出的。具有所有相应公式的推导算法的精确形式将在很大程度上取决于∁(y,f和h(x,θ)的设计选择。人们可以在Friedman(2001)中找到这些算法的一些常见示例

梯度提升_拟合

3.二次抽样过程

为GBM引入的最简单的正则化过程是二次采样。二次抽样程序已证明可以提高模型的泛化性能,同时减少所需的计算工作量(Sutton,2005年)。这种方法背后的思想是在拟合过程中引入一些随机性。在每次学习迭代中,仅使用随机部分的训练数据来拟合连续的基础学习者。训练数据通常是在没有替换的情况下采样的,然而,就像在自举中一样,替换采样是另一种可能的设计选择。二次抽样程序需要一个称为“袋分数”的参数Bag fraction是不大于1的正值,它指定了每次迭代中要使用的数据的比率。例如,bag = 0.1对应于每次迭代仅采样和使用10%的数据。二次采样的另一个有用特性是,当没有理由一次使用所有潜在的海量数据时,它会自然地使GBM学习过程适应大型数据集。当数据量(由数据点的数量N来衡量)没有实际意义时,设置默认值bag = 0.5对于许多实际任务来说是一个合理的结果。如果感兴趣的是最佳袋分数,则可以通过比较不同参数值下的预测性能来简单地估计它。然而,人们还应该考虑减少样本量对模型估计的影响。如果点数变得太低,由于缺少自由度,可能会得到一个不太合适的模型。因此,在减少样本量之前,一些基本的健全性检查分析是必不可少的。由于样本量减少,注意“大数据”论点也很重要。一般来说,如果使用了足够的数据,用于拟合基础学习者的数据越多,估计就越准确。因此,当有大量数据时,可以考虑在用于拟合每个基础学习者的点数和每个基础学习者实现的精度提高之间进行权衡。人们很容易达到一种情况,即让大量基础学习者以较低的bag率学习会更有效率。这意味着,与具有较大袋子的较少量更仔细匹配的基础学习者的集合相比,具有较大数量的基础学习者和较低袋子的GBM集合将达到期望的准确度。

举报

相关推荐

0 条评论