0
点赞
收藏
分享

微信扫一扫

如何成为一位数据科学家(图灵访谈)

学习笔记,仅供参考,有错必纠
机器学习似乎比其他计算机科学学科都要难,特别是对于数学不太好的程序员而言。你对这些程序员有什么样的建议呢?

我建议应该先自学基本的概率、统计,以及线性代数。你不需要学一个学期那么长的课,这些基础知识就会让你有很大收获。有很多在线资源,比如Kahn academy视频。(我在56.com和Kahn academy找了一下有很多英文的,也有一些中文的。)也有一些比较容易起步的书,我比较熟悉有美国英文版的“teach yourself”(自学)系列, “statistics for dummies”(傻瓜统计), “probability refresher”(概率补习),“statistics demystified”(统计解惑)等等。

我其实认为这里面其实很有商机。Kahn academy视频很不错,因为它们都很短,但遗憾的是这些视频都是英文的。我看见的中文线性代数视频都很长。如果你能做出像Kahn academy那样的中文视频,我觉得是会非常受欢迎的。



  • 如何进阶学习机器学习?对于初学者是否有一个类似于路线图的东西?你有什么推荐书单吗?

我会读Witten 和 Frank所著的​​《数据挖掘:实用机器学习工具与技术》​​​,这里面涉及的数学很少,但是又对普通算法做了很好的介绍。我觉得紧接着就该读Tan, Steinbach, 以及Kumar的​​《数据挖掘导论》​​。

当然,这些书都很厚,如果你想马上就搞明白一些东西,估计就不想读这些大部头了。如果要把某个算法弄明白,我会在网上找很多教程。比如Adboost算法,我认为多读一些不同的教程比只读一个,深入钻研要好很多。

最后我觉得应该多动手玩玩实例。问问你自己:如果我改变这个数据,结果会是怎么样的呢?



  • 对于有些人来说“算法”才是机器学习真正有趣的地方,但是机器学习里面总有一些苦活累活不那么有意思,比如数据预处理。你是怎么完成这些“不那么有趣”的工作的?

当然,肯定有无聊的工作,所以你一定要把这部分工作自动化,这样你就不需要重复做这些无聊的工作了。这样做也会让你变成一个更好的软件开发者。



  • 数据科学家被评为世界上最火的工作之一,你认同吗?您本人作为一个数据科学家,有什么可以和我们分享的经验吗?要成为一个数据科学家需要有什么条件?

我认为数据科学家现在确实很好找工作。什么是数据科学家呢?我认为数据科学家是介于统计学家和软件工程师中间的一种工作。公司、个人、NPO,甚至运动队都需要根据数据来做决策。他们需要可以分析数据的人。这需要我之前提过的两种条件。人们不需要单纯的统计学家,这些人可能对于争论自己到底用不用贝叶斯定理更感兴趣,人们需要的是真正能做实事的人。

所以我也建议大家多动手做一些东西。这是什么意思呢?创造一些项目,收集数据,预处理数据,然后做一些数据分析,展示数据,最后向公众展示这些数据。如果你做了很多这样的事情,那么你就有一个可以用来向你未来老板或者其他人展示的档案夹。几乎我书里的每个例子都可以用来做成一个网站或者智能电话app,这些都是你可以示人的资本。



  • 很多大(数据)公司,比如Google, Facebook 和 Baidu都投入很多精力在深度学习上。你认为深度学习会在未来取代“人工特性+机器学习”的方法吗?

不,我不认为深度学习会取代人工特性+机器学习。有很多领域,深度学习确实很擅长,比如识别图片。但是仍然有很多领域现存算法的表现更胜一筹。

举报

相关推荐

0 条评论