上篇文章发出来之后,出现了这样的反响:
所以,今天我们来点有颜色的图片和内容……
前文说到,通过决策树可以有效的识别回归的窗口,但是如果仅仅把决策树当成局部回归的探索性工具来用,就有些大材小用了……
树的算法和概念最早由Earl B.Hunt(1933年 - 2016年,美国心理学家和人工智能专家,华盛顿大学计算机科学系兼职教授,国际情报研究学会的前任主席),在1966年就提出来的,下面这位就是Hunt教授
图片来源:wiki百科https://en.wikipedia.org/wiki/Earl_B._Hunt
决策树为什么一直在统计学领域里面不愠不火,而到了机器学习领域里面,就突然炙手可热呢?不是一直说,机器学习以及人工智能不就是统计学么?(1月17日,华为创始人兼CEO任正非在深圳接受央视记者专访时候的原话)
这里如果要涉及到机器学习、人工智能和统计学的异同的话,产学研三界,恐怕得有几百本书来论述这个问题,实际上虾神我也不是做理论研究的,在这种大方向的议题上,也翻不出啥花样来,我这里就通过一个简单的说明,来看看这两个问题。
统计学整体作为一门学科,实际上它的范围更大,他是属于数学领域里面的一个重要组成部分,而机器学习更多时候,被看成是一种算法,所以机器学习更多时候是计算机学科里面的东西。
比如我们通过一个简单的例子来聊聊:使用苹果的各项数据为自变量,最后判断是否是苹果作为因变量来进行回归(为什么我会想到草地养护和石榴种植的问题捏?一定是幻觉,1024……)
统计学的核心,在于在如此多的苹果中,选定需要参与回归的样本(统计抽样,是统计学的一个核心内容),统计抽样里面,有一个理论,就是抽样的样本,到达一定的平台期之后,再增加样本的数量,对最终的分析结果并不会出现更大的影响。
最终通过这些样本的参数,总结出苹果的各项特征对于苹果的判定模型,这个一个回归建模的过程,就是属于统计学的范畴,之后,我们拿一个样本来,进行判断:
这个判定,就是属于机器学习的范畴了。
那么,什么人工智能呢?
上面这个小小的段子,实际上体现了人类的思维与机器思维一种本质性的不同,人的思维,对于形象和比喻比较容易接受,就像我们小学时候老师教写作文的时候,对于描写来说,比喻具有更好的效果。
(说到这里,虾神一直记得老师打的一个比喻:描写一个老人,在外貌描写的时候,一个同学洋洋洒洒的写了几百字:皮肤的颜色呈现一种黄褐色,深深的皱纹,没有一点湿润的光泽……而另外一个同学就写了一句话:像风干的橘皮一样皮肤……)
所以,从原理算法来说,机器学习,基础理论基本上运用的都是统计学的思想和理论,而它本身,主要集中在“学以致用”的用上面。
统计学的回归里面,不可能要求模型符合每个样本的特征……青苹果和红苹果,都属于苹果,只要符合大致需求,那么出现的那些问题,是属于残差拟合的范畴内。统计学里面,对于过拟合,一直持有否定态度。
上面是一些关于统计学与机器学习的一些思考,上篇文章说了我们会用Python来对决策树的使用进行一个示例,下面进入Python代码时间:
今天要介绍的Python决策树方法包,是Python机器学习领域里面最出名的sklearn包里面的一个方法:DecisionTreeRegressor。
关于这个如雷贯耳的包,我就不多做介绍,下面来看看怎么用的:
(源代码在虾神的github仓库中找,地址见文章最底)
关于决策树以及各种包的使用,大家可以查阅相关的文档,以后有机会还会继续再说。
需要源代码的同学可以到以下位置下载:
https://github.com/allenlu2008/PythonDemo
待续未完