0
点赞
收藏
分享

微信扫一扫

『The Book of Why』导言:思维胜于数据

前言

本书的内容将会围绕着一门新科学展开,它的名字是“因果推断(causal inference)”。

在这个大数据、深度学习所主导的强人工智能时代,以数据为中心的观念深入人心,仿佛只要有充足的数据便足以解决所有问题。

目前自然语言处理领域愈发巨大的预训练模型,便是这种观念的一种具象化。爆炸式增长的参数量,超大规模的语料,然而 数据真的是万能的吗?

数据可以告诉我们服药的病人比不服药的病人康复得更快,但是却不能告诉我们为什么会这样。或许,服药的人选择吃这种药是因为他们支付得起,即使不服用这种药,照样能恢复得这么快。

因果关系,是我们认知世界的一种重要方式,模型仅仅依靠海量数据真的可以像人类一样去理解世界吗?对此我持怀疑态度。

这也是本书作者想要强调的为什么因果关系如此重要的原因,所谓“思维胜于数据”,利用数据终究只是找规律,真正重要的是其背后的思维。


关于因果的数学语言

比如,气压计读数B与实际大气压P的关系可以用方程式 B = k P B=kP B=kP表示。三个变量中的任意一个在数学上都没有凌驾于其他两个之上的特权。那么我们该如何表达“大气压的变化导致气压计读数的变化”这一确凿的事实?这正是科学家们在尝试表达一些明显的因果关系时所面临的困难。

此前的我们无法在科学的范围内找到途径明确地表述这些因果关系,没法用数学与公式去描述这些显而易见的事实。

因果推断这门新科学的贡献就在于催生出了一种简单的数学语言,用以表达我们已知和欲知的因果关系


因果关系演算法

因果推断的数学工具名为“因果关系演算法”,其由两种语言组成。

  • 其一为因果图(causal diagrams),用以表达我们已知的事物。

因果图并非唯一的因果模型,这些因果模型都用于描述在环境中控制并塑造数据生成的因果力量(描述出数据的生成过程)。

  • 其二为类似代数的符号语言,用以表达我们想知道的事物。

这种符号式的问题语言,用于表述想要回答的问题。例如,如果想要知道药物D对病人生存期L的影响,可以写作 P ( L ∣ d o ( D ) ) P(L | do(D)) P(Ldo(D)),此处的do算子表明我们正在进行主动干预而非被动观察,这一概念是经典统计学所无法涉及的。

这里所调用的干预算子 d o ( D ) do(D) do(D),确保观察到的病人存活期L的变化能完全归因于药物本身,而没有混杂其他影响寿命长短的因素。

在数学上,自愿服药的病人生存期L的观测频率记作 P ( L ∣ D ) P(L | D) P(LD),这就是统计学教科书中常用的条件概率。但观察到(seeing)与进行干预(doing)有着本质的区别,它解释了我们不认为气压计读数下降是风暴来临的原因。观察到气压计读数下降意味着风暴来临的概率增加,但人为迫使气压计读数下降对风暴来临的概率并不会产生影响。

因果革命最重要的成果之一就是解释了如何在不实际实施干预的情况下预测干预的效果:定义do算子以便提出正确的问题;使用一种无需实际实施干预便可模拟干预行动的表达方式,这种表达方式是因果推断科学独有的,称为"反事实"(counterfactual)。


因果推断引擎

由于这是一个些许复杂的流程,且涉及很多必要的说明,此处便不再复述,只摘取对我有启发意义的部分语句。

而深度学习的目标便是从有限的样本泛化到无限的总体。

因果模型所具备,而数据挖掘和深度学习所缺乏的另一个优势是 适应性,被估量是在检查数据特性之前仅仅根据因果模型计算出来的,无论变量之间的数值关系如何,都适用于与定性模型适配的数据。




以上,便是我对本书导言部分的摘录+个人总结。

个人认为,在深度学习中,我们设计模型、算法等均是一个融入人类先验知识的过程,我们让模型在一定先验知识的辅佐下从数据中发现规律,解决问题。比如由于语言变长序列的特性,我们使用RNN而不是CNN处理语言。但是这种先验知识强度有限,无法囊括我们对世界的所有认知。

而因果关系作为我们认知世界最重要的方式之一,很多时候单从数据上难以挖掘得到。这时候便会很自然的想到将因果关系使用数学语言表达,作为一种更强的先验知识融入到深度学习模型之中,这极有可能是迈向强人工智能的重要阶梯。

举报

相关推荐

0 条评论