曾以产研角色和企业管理者的身份亲自经历过PC互联网和移动互联网两段发展历程,现在面临新的一波AI浪潮时,联想起互联网对各个行业/企业的赋能甚至颠覆,十分笃定AI重塑行业/企业也一定是大势所趋。
对于很多企业和个人而言,源于对AI知识的匮乏和对其应用价值的不了解,AI只是意味着一个务虚层面的名词,是一种大家都追逐的“高级”趋势,一种对企业和产品的“包装”方式……。而对于那些有技术敏感度、愿意去了解并探索AI的企业和个人,懂得如何从业务场景的解析、业务场景的抽象、数据的收集、算法的选择、AI产品的研发,以这些落地的环节将业务场景和AI进行结合,产生用户价值及商业价值,以形成竞争中的先发优势。
对于AI,我个人的学习经历和体验是:已经看过很多AI相关的书籍和资料,良莠不齐,算是填鸭式教育阶段。各种AI概念地充斥在脑海中,仍然有种云雾之中的感觉,但知晓了人工智能的历史发展脉络:不同的理论引领的不同研究方向及周期兴衰;明晰了AI的很多基础概念,如机器学习只是人工智能的一种核心技术,而深度学习又是机器学习的子集,神经网络是实现深度学习的基础模型;图像识别、语音识别、自然语言处理是深度学习的应用等等 。另外,这种填鸭式教育的好处是:当我们去探索实践一些实际的场景+AI的应用时,能够利用目标引导性将这些散乱的知识进行梳理、关联,从而形成明晰的层次结构。
总体而言,我认为对AI最有效的学习过程是先饱和式摄取,再精细化攫取,而后进行实践应用。在此,想根据自己的AI学习历程给大家学习思路及资料推荐。
通过书籍和视频课程学习
人工智能有关的商业书籍,理解难度——容易
- 《智能时代》作者是吴军老师,吴军老师那本荡气回肠讲述科技革命史的《浪潮之巅》相信很多人都读过。而本书出版于2016年,那时人工智能处于萌芽期。书中有一段话:"这是最好的时代,也是最坏的时代。是要顺势而上,还是逆势而下,在于我们自己的选择。"
- 《未来简史》《今日简史》是尤瓦尔•赫拉利的作品,很多人应该都会听说或阅读过他那本讲述人类发展史的《人类简史》,而这两本书则大量探讨了未来机器智能发展应用,以及人类和机器智能可能面临的冲突和危机。
- 《人工智能》《AI·未来》 是两本李开复老师的书籍,浅显易懂。技术层面的东西很少,主要讲述个人、社会与人工智能的关系和思考。
- 《人工智能革命》 感觉还不错的一本集人工智能历史、技术、人物的科普书籍,虽然被评价讲的很浅,但我认为定位科普书籍恰恰合适。从这本书中了解到了一部很棒的英剧《黑镜》,追了几季,算是意外所得吧。^_^
人工智能有关的理论书籍,理解难度——中等
- 《科学的极致:漫谈人工智能》本想当本工具书读,发现视野感觉很宏大,哲科思维浓厚,需慢慢理解。。
- 《人工智能导论》 类似于教科书的学术书籍,比较中规中矩,涵盖面广泛,适合做人工智能学习入门引导。
- 《裂变:秒懂人工智能的基础课》书的组织和脉络较好, 如学习人工智能需要掌握哪些数学基础;目前最火热的机器学习,人工神经网络,深度学习又是怎样的;神经网络实例;深度学习之外的人工智能有哪些,机器学习并不是人工智能的全部;人工智能的应用场景。这种层层递进的讲解脉络让自己对人工智能的框架有了较清晰的认识。另外作者也是上面《人工智能革命》的作者,文笔很好,兼具科技与人文主义。
以下推荐的技术书籍个人认为不需要较深的技术背景便可阅读,非技术人员可跳过算法解析和代码部分
人工智能有关的技术应用书籍和视频课程,理解难度——中上
- 《集体智慧编程》 豆瓣评分8.7的高分,但是阅读者寥寥。我觉得在AI和大数据大热的时代,一个晦涩的书名就会让大家错失一本优秀的书籍,想对“机器学习”与“计算统计”进行了解和实践的朋友推荐阅读,其中的应用场景很贴近生活(比如商品偏好推荐、房价预测,约会匹配、金融场景……),书中所附代码也是可以执行的……,理解此书中所附代码最好有所实践。
- 《推荐系统实践》国内第一本讲推荐系统的书籍,大量讲述了推荐系统在业务场景的应用。
- 《Scikit-Learn与TensorFlow机器学习实用指南(影印版)》豆瓣评分9.6的高分,让自己对机器学习又有了清晰系统化的理解,章节中案例及代码也非常棒,具备实践性和可执行性。
- 《吴恩达机器学习课程》,《吴恩达深度学习课程》,非常出名且较易理解的机器学习入门视频课程,课时有些多,需要有持久的学习耐心(~ ̄(OO) ̄)ブ
清晰基本的概念
由于现在机器学习几乎成了AI的代名词,也就成为了大家重点的学习领域,所以先分享一些机器学习的基础概念知识,希望通过这些知识大家也能简单了解机器学习,及其应用层面的价值。
机器学习的定义
- 广义的定义:1、机器学习是通过编程让计算机从数据中进行学习的科学(和艺术)。2、机器学习是让计算机具有学习的能力,无需进行明确编程。
- 工程性的定义:计算机程序利用经验E学习任务T,性能是P,如果针对任务T的性能P,随着经验E不断增长而P也随之增长,则称为机器学习。
广义上机器学习可以解决什么问题?
- 需要进行大量手工调整或需要拥有长串规则才能解决的问题:机器学习可以简化代码、提高性能。
- 问题复杂,传统方法难以解决:使用良好的机器学习技术可以找到解决方案。
- 环境有波动:机器学习算法可以适应新数据。
- 从复杂问题和大量数据(数据挖掘)中发现非预期的关系/趋势,带来更好的处理问题的方式。
机器学习的具体分类和应用
1. 监督学习
监督学习就是机器在学习的过程中需要人类进行操作监督。人类准备好用于训练的数据,并对数据做标记(打标签),最后用做好标记的数据去训练机器。
应用
分类——例如,为了让机器能准确识别红绿灯,就需要准备很多张红绿灯的图片,并将每张是红绿灯的图片进行标注,通过用这些标注好的图片来训练机器,可使机器具备识别红绿灯的能力;如人对大量的邮件进行标注(是否属于垃圾邮件),并用这些标注数据去训练机器。机器就能从中总结出垃圾邮件的规律,从而具备识别垃圾邮件的能力。
回归——预测目标值,如通过大量二手车的特征(里程数、车龄、品牌等)及相应价格的历史数据训练,来预测一辆新二手汽车的价格。
2. 无监督学习
人类准备训练数据,但不对数据做标记,而是让机器尝试寻找出其中隐含的模式和规律。其实人类不对数据做标记的原因主要有两个:一是人类对有些数据缺乏足够的先验知识,因此难以对其做出标注;二是标注成本太高。
应用
- 聚类——假设利用博客访客的大量用户数据,检测相似访客的分组。
- 可视化和降维——给算法大量复杂且不加标签的数据,算法输出数据的2D或3D图像。
- 异常检测——例如检测异常的信用卡转账以防欺诈,检测制造缺陷,或者在训练之前自动从训练数据集去除异常值。
- 关联规则学习——挖掘大量数据以发现属性间有趣的关系。
3. 半监督学习
半监督学习是介于监督学习和无监督学习之间的一种机器学习,它使用的数据包含有标签和无标签两种。在实战中,通常无标签数据远远多于有标签数据。
4. 强化学习
强化学习不要求预先给定数据。它的过程是机器对环境进行观察,选择和执行动作,获得奖励(负奖励是惩罚)。然后它必须自己学习哪个是最佳方法(策略),以得到长久的最大奖励。策略决定了它在给定情况下应该采取的行动。如AlphaGo围棋战胜人类和无人驾驶汽车就是一个典型强化学习的应用。
5. 深度学习
深度学习是目前机器学习中最重要的一个分支,其概念源于人工神经网络的研究,含多个隐藏层的多层感知器。深度学习的“深”是指它的模型层次多且深。深度学习的模型有很多种,如CNN(卷积神经网络)、RNN(递归神经网络)等。CNN是目前计算机视觉领域的主要算法。RNN及其衍生算法(LSTM长短期记忆网络和GRU门控循环单元等算法)适合语音识别、机器翻译等应用场景。
机器学习的四个主要挑战是什么?
- 训练数据不足。机器学习需要大量的数据,才能让多数机器学习算法正常工作。即便对于非常简单的问题,一般也需要数千的样本,对于复杂的问题,比如图像或语音识别,你可能需要数百万的样本。
- 没有代表性的训练数据。
- 低质量的数据。如果训练集中的错误、异常值和噪声太多,系统检测出潜在规律的难度就会变大,性能就会降低。
- 不相关的特征。避免进来的是垃圾,出去的也是垃圾。
如何实践
首先在具体的业务中找出一个AI应用场景,前面的资料学习中会有很多很多AI适用场景的介绍,相信总有一款适合你们当前的业务。我个人觉得有两种业务场景一般我们都会遇到:
- 预测性分析:这种分析要分析出业务的未来走势,比如公司每个季度的季报中对下一个季度乃至全年的营收预计、 对用户增⻓的预测等。一般使用逻辑回归等拟合算法根据不同的模型进行预测并持续迭代。
- 个性化分析:最典型的就是用户画像、产品推荐、精准营销等。一般要用到人工智能和机器学习算法。例如,常用的推荐算法有协同过滤、矩阵分解、聚类、深度学习等。
我们用AI来来解决这些问题,需要设计、构建一个模型。
- 模型与算法:所谓的模型构建就是用代码把模型实现出来。对我们大多数企业和人员值得庆幸的是,现在的AI算法基本都有较成熟框架、开源实现和工具库,不需要我们自己编写,我们更多的是需要深入理解问题,然后将问题抽象成机器可预测的问题,明确业务目标和模型预测目标,选择合适的模型;
- 模型与算力:模型训练的本质就是进行大量的计算。同样让我们大多数企业和人员高枕无忧的是,现在有成熟稳定的CPU、GPU、NPU硬件或者算力平台来为我们提供算力资源;
- 模型与数据:刚刚构建完成的模型是没有任何智能的,我们需要用数据对模型进行训练,让模型快速“进化”出智能。我们需要采集数据、对数据进行筛选和清洗、进行特征工程、构建训练集、测试集等,这往往是现实中工作的核心,也是最耗时的工作。