其实,机器学习的创新点很多...
例如,残差收缩网络把降噪算法集成进深度学习的内部,在特征学习的过程中,自动消除冗余信息,从而提高在含噪数据上的效果
那么,你可能会说,究竟如何才能想出创新点呢?
首先你需要好好地精通机器学习的框架思路。
例如,如下图(为嘛不清楚~明明是我自己做的矢量图。。。),作为基础,你该知道,从某个角度来看,机器学习算法是为了学习一个还原真相(ground-truth)g(x)的映射函数y(x)。为了学习到这个映射函数,通常不同的机器学习算法总在讨论两个事情。一个是y(x)是在多大的假设空间中搜索的,另一个是如何在给定的假设空间中搜索到一个合适的函数作为y(x)的设定。后一个疑问通常需要结合损失函数和优化技术来实现。所以在这里我们看到了三个关键点:假设空间,损失函数和优化技术。
然后你练习一下把几乎所有的机器学习算法总结为上面三个关键点刻画的框架下的special case。例如逻辑回归:假设空间=x线性函数;损失函数=交叉熵损失函数(也对应于负似然函数);优化技术=梯度下降等;又例如决策树:决策树对假设空间的局限非常小,损失函数的定义也可以很灵活。决策树的主要思想对应于用一个贪婪的启发式搜索方式把一个假设(决策区域的划分)给学出来。而带正则化项的算法(例如LASSO)则可以看做是损失函数的优化(有时候也可以看做是假设空间的约束)
所以到这里你可以想一想,是否可以通过设计创新并合理的假设空间,或损失函数,或最优假设的搜索方式来实现一个新的机器学习算法。
-- 恭喜你,到这一步,你可能成为了一个研究机器学习算法并拥有一定创新能力的入门级别者
其次,你可以好好钻研一下统计理论。有太多传统机器学习算法都得益于统计理论的发展。其实机器学习的思想也可以从概率分布的角度去阐述,如下图:
机器学习对于要刻画的x与t之间的真相函数g(x)常常被统计理论用一个概率分布p(x,t)来刻画。于是机器学习算法的目标就变得很纯粹了:概率分布函数的估计。通过机器学习理论里的“决策论”这个知识点,我们可以推出机器学习算法的目标总是聚焦于对t的后验概率分布p(t|x)的估计上。而一个通用的估计这个分布的方法就是参数化这个分布,也就是假设它符合某个分布族。然后利用最大似然估计或最大后验估计技术将参数给估计出来做点估计。或者更高级一点做贝叶斯估计。
体会到这里,你需要又开始将传统的机器学习算法用统计理论的角度去解释看看。例如Ridge Regression实际上对应于将p(t|x, w)假设为一个高斯分布,线性权重向量w作为分布的参数。然后配合一个高斯分布作为w的先验分布。那么对w的最大后验估计就变成了Ridge Regression。也就是平方损失加上二范数正则化那个损失函数。
之后,贝叶斯网络那一套的理论你就可以好好地学一学,然后把高斯混合分布,LDA,等等算法给尝试用统一的混合模型的解决思路给带一带。
再然后,结合你对于统计理论的理解,就可以好好地想一想如何突破地设计创新的机器学习算法了,例如是不是试着用一用新的概率分布族来作为数据的分布假设,当然也需要推出在这个假设下如何对分布的参数进行求解(这可能需要你精通EM,变分法,Gibbs近似采样等技术)
-- 恭喜你,到这一步,你可能成为了一个研究机器学习算法并拥有一定创新能力的中级级别者
以上其实都是作者对于在一些传统机器学习算法的改进思路。其余一些往更高一些地方进军的方向包括对深度神经网络,强化学习,优化技术的专门的创新想法。留待以后补充。
感谢你一字一句看完,如果觉得对你有一点点帮助请:
1. 点赞:让更多人看到这篇文章(收藏不点赞,都是耍流氓)
2. 企鹅号: 657678608
如需创新点代做可直接联系我,可以代做CV,NLP方向的创新点哦~