0
点赞
收藏
分享

微信扫一扫

今天聊聊如何用机器学习赚钱的事儿


IT有得聊”是机械工业出版社旗下IT专业资讯和服务平台,致力于帮助读者在广义的IT领域里,掌握更专业、实用的知识与技能,快速提升职场竞争力。

笔记

PAGE1

人工智能、机器学习、深度学习这些都是当前科技界的最炙手可热的话题。我们看到了AlphaGO打败了李世石,又打败了柯洁,机器学习在其中居功至伟,但是这些技术到底如何在市场上为人们创造价值,创造利润呢?总不能只下围棋吧?央视《第一时间》栏目7月4日刚刚推荐的这本《实用机器学习》就用最直接的、最精辟的阐述方式帮大家解答这个问题。



让我们举个书中的例子

l  机器学习的应用产生了什么价值?

l  企业如何通过机器学习获得更多的利润?

l  顾客如何获得更多精准化、个性化的服务?

今天聊聊如何用机器学习赚钱的事儿_商业

       假定你管理一个小型借贷公司,向陷入困境的个人小型企业贷款。早些时候公司每周收到为数不多的申请,你可以用几天的时间人工审核每个请求,并对每位申请人进行背景调查,以决定是否放款。这个流程的示意图「如图1」所示。你早期的客户对你的反应时间和服务十分满意,你公司的名誉也不胫而走。


今天聊聊如何用机器学习赚钱的事儿_机器学习_02

图1 微型贷款的审批流程


 但随着你公司的声名鹊起,申请的人越来越多或许每周收到几百份申请。对于这些猛增的申请你企图加班加点完成它,但等待办理的还是越来越多。某些申请人在焦虑等待的过程中可能会转投到你的竞争对手那里。很明显企图人工处理每个申请不是一个好的办法。

 那你该怎么办呢?先让我们介绍用于申请审核的两种方法:人工分析和商业规则。对于每种方法,我们详细分析其实现技术并突出它不能达到你扩展业务的目的。

1

人工分析:雇佣更多的分析员

 你决定雇佣其他的分析员把你解脱出来。起初的几周,你们两个加班加点,但申请数量仍然持续增长,为了跟上申请增长的需求,你必须雇佣两个以上的分析员。随着业务的发展,这种增加雇员的方法并不能解决持续发展的问题:所有新增贷款的收益全都用于了新增的雇佣人员,而不是用于关键的微型借贷基金。按照申请的增加雇佣更多的人员,这种方式阻碍了你的业务发展。

 除了开销增加的弊端外,人工处理还带来了有意无意的主观偏见。为了确保申请处理的一致性,你对审批过程研发一套指导规则并对新员工进行培训,但这增加了开销并且可能无法消除这种偏见。

2

采用商业规则

 想象一下1000份贷款已超过偿还日期,70%按时偿还,如图2所示。


今天聊聊如何用机器学习赚钱的事儿_数据_03

      图2 经过几个月运作收到2,500份贷款申请,批准了1000份,其中700份申请及时尝还,300份贷款拖欠。这些初始数据对于构建贷款评估体系是至关重要的。


 现在你必须注意贷款申请和偿还之间的关系了。特别是,你经过人工调查得到一系列过滤规则,过滤出一批“优良”信贷可以按时偿还。通过对几百个贷款申请的人工分析,得到了判断借贷信誉好坏的丰富经验。通过反思和回溯测试还款状况,你注意到信用背景调查数据的几个趋势:

   1.大多数的贷款超过7500美元信贷额度的借款人拖欠。

   2.大多数没有支票账户的借款人按时偿还贷款。


 现在你可以通过这两条规则设计一套过滤机制,削减人工处理的贷款申请的数量。

 你首先要过滤的信用额度超过7500美元的借贷请求。第二个过滤规则是自动接受任何没有支票账户的申请人。使用这两个规则,你可以把业务扩大到原来的两倍而不必雇佣其他人员,因为你只要处理新增申请的52%。另外,对于1000份已知结果的申请,你期望过滤规则错误拒绝率在4.2%左右(每1000份申请中错误拒绝42份),错误接收率在4.6%左右(每1000份申请中错误接收46份)。

       随着业务的增长,你希望系统能接收或拒绝越来越多的申请,从而免遭拖欠的损失。为了做到这一点,你必须增加新的商业规则,很快你就遇到几个问题:

   1.人工发现有效的过滤规则变得越来越困难——这不是不可能的——因为过滤系统的复杂性在增加。

    2.商业规则变得如此复杂和不透明,测试它们,剔除老的不相关的规则变得几乎不可能。

    3.你的规则构建毫无统计学严谨性。你虽然非常确信更好的分析数据能得到更好的“规则”,但又不能肯定。

    4.因为贷款偿还模式随着时间的变化而变化——或许随着申请人群的变化而变化——规则系统不能适应这种变化。为了适应这种变化,规则系统必须不断的调整。


所有商业规则方法的缺陷可归结一点:规则系统不能从数据中自动学习。

 最终,你决定在微型信贷申请评估过程中采用全自动、数据驱动的决策方法。机器学习是一个不错的选择,因为它的处理过程是全自动的,可以适应不断增长的业务需要。另外,它不同于商业规则,机器学习直接从数据中学习最优的决策而不是任意的编写好的决策规则。这种从基于规则到基于机器学习的决策过渡意味着你的决策更精确,而且随着借贷的增多精确性会得到提高。可以确信你的机器学习系统可用最少的处理换来优化的决策。

 图3示出了历史数据训练机器学习的模型。在收到新的借贷申请时,从申请数据中可立即预测出将来可能的偿还情况。


今天聊聊如何用机器学习赚钱的事儿_商业_04图3基本机器学习工作流程,以微型贷款为例

 机器学习模型决定对于每个贷款申请如何用于最佳的贷款预测。通过查找并使用训练集中的模式,机器学习产生一个模型(现在你可以认为这是一个黑盒),用于根据申请者的数据预测每个申请的结果。

 下一步是选择要使用的机器学习算法。机器学习的类型有很多,从简单的统计模型到更复杂的方法都有。在此我们比较两个例子:第一个是简单参数化模型,第二个是分类树的非参数集合,不要被这些术语所困扰。你很快就会发现,机器学习使用很多算法和方式对它们进行分类。

 几乎所有传统的统计商业模型都属于第一类。这些参数化模型使用简单固定的方程来表示输入和结果的关系。数据用于学习这些方程中未知项的最佳的值。比如线性回归、逻辑回归和自回归模型都属于这一类。回归模型在第3章详细描述。

       在本例中,你可以使用逻辑回归来模拟贷款审核流程。在逻辑回归中,每一笔贷款的偿还概率的对数(对数几率)被建模为一个输入特征的线性函数。例如,如果一个新的申请包含3个相关特征——申请人的信用额度、学历和年龄——那么逻辑回归试图用这个方程预测申请人将会拖欠的对数几率(我们称之为y):

今天聊聊如何用机器学习赚钱的事儿_机器学习_05


      方程中每个系数(在本例中为β0、β1、β2和β3)的最佳数值是从1000个训练样本中学习获得的。

      你需要更灵活的模型,它可以自动发现复杂的趋势和数据结构,而不必事先知道关系模式的样子。这正是非参数化机器学习算法的用武之地。

      回到微型借贷问题,扩大你商业规模的最好选择是采用一个非参数化机器学习模型。这个模型能够发现和你手工处理一样的规则,但很有可能有一些不同,因为需要优化统计结果。更有可能的是,机器学习模型将自动发现你没有发现的输入变量和期望结果之间其他更深层次的关系。

      除了能够提供自动化的工作流程之外,你还能获得更高的精确度,这意味着更大的商业价值。试想一下如果机器学习模型的精确度比逻辑回归模型的高25%,在这种情况下,机器学习模型对新的贷款申请将有更低的错判率:对于不能偿还贷款的申请接收率和对于能够偿还贷款的拒绝率都会更低。总而言之,这意味着贷款的回报更高,能够使你增加贷款数量从而创造更多的商业价值。


今天聊聊如何用机器学习赚钱的事儿_数据_06

举报

相关推荐

0 条评论