这是一本什么书?

《为什么》是一本讲因果理论的书,说起来可能有点感觉深奥。实际上因果理论,我们在日常生活中经常遇到,就是问 “为什么”。这本书就是用理论的方式回答“为什么”这个问题,也就是弄清楚一件事情的原因和结果。这个事情如此直白,以至于 3 岁小孩都会提问为什么,或在被提问时候能够回答,但是这个问题难住了计算机科学家许多年。

在计算机科学,特别是人工智能领域,一直存在两个分支,分别是“连接主义”和“符号主义”,连接主义是想模拟人大脑神经元的运作,用一个网络结构将一个个“神经元”连接起来,这里每个神经元是一个简单的计算单元,这个思想后来发展成了神经网络,包括现在正火的深度神经网络;而符号主义,是想通过规则来模拟人脑的推理工作,从数理逻辑开始发展,也就是希望抓住人思维中理性的部分。但是因为人推理是非单调的(即知道得越多,能得到的结论可能越少),同时需要的推理规则非常多并在不断的演化,这一学派从提出一来,基本上一直解决的是一些玩具问题,除了专家系统有一点点知名度之外并没有获得太大的发展。

因果理论说起来应该算作符号主义的领域。其实现在的学科发展已经不太严格区分符号和连接了,而是两者在逐渐的融合。历史上有很多关于因果推理的逻辑系统和理论,例如默认逻辑,因果逻辑等,但是都没有发展出来一个可以计算的系统,而一个理论的提出和完善,需要得到大量数据的验证。本书其实提出了一个可以计算的因果理论系统。

连接主义的缺陷

如果先不考虑因果,只考虑目前火热的大数据以及机器学习等领域,实际上目前各种系统能得到的结论都是比较浅显的,说白了只能得到一种相关关系。相关即是说某几个事物之间有关联,至于这个关联是什么,深度学习等技术无法解释。

因果关系,正好是相关关系的一种,并且是一种特殊的相关关系。他具有 3 个层次,第一层次就是“观察”,也就是发现一个事物和另一个事物相关,这正是当前所有的大数据系统所做的事情。给你数据,你从数据中发现规律,也正是人们思考事情的第一步。当然从数学角度讲,观察到事实,还需要进行归纳,归纳后还需要验证,才能知道是不是获得了因果关系,后面两步,是人们普遍具有的能力,但是当前的数据系统无法获得这样的认知。即使这样,大数据系统在某些领域也足够好用,能解决现实世界的很多问题。一个经典的例子是“啤酒与尿布”,某大型超市发现在一段时间内,经常有人同时购买啤酒和尿布,因此把这两样东西摆在一起,果然,两样产品销量都得到了提升。如果说他俩存在因果关系,即认为啤酒影响尿布或者尿布能影响啤酒,这显然是荒谬的。因此,更可能的解释是这两者都同时受到另一个因素的影响。这个故事最终的解释是,在家照顾孩子的妇女往往叫丈夫下班后买尿布,而这些人在买尿布时会顺手买自己需要的啤酒。

第二个层次是“干预”,即回答:“如果采取了某个行动,结果会是什么样子?”例如起火了,会产生烟雾,因此烟雾报警器会响,那么如果此时我将火灭掉,会怎么样?在现在大数据系统里面,数据只有起火,烟雾报警器会响这样的正例,因此也只能得到这样的相关性。无法得到,在烟雾报警器响了之后,灭火就能解除警报这样的“反例”。从人的思维角度,将起火,烟雾,报警作为一条因果链条,那么可以很自然的发现,只要我们切断这条链路,就能让报警器不响。

第三个层次就是“反事实”。第二层次只是在推理中加入那些没发生的事实,整个系统依然是相容的。而一旦加入反事实,从严格意义中讲,我们得到了一个不相容的系统,这样的系统无法使用严格的逻辑推理来解释,因为他能够得出任何逻辑结论,这是非单调推理需要处理的问题。但是这一层次也正是人们思维中的一部分,经常会听到人说:“要是我不 xxx 就好了?”,这正是这一层次需要解决的问题。

因果理论的难点

历史上有很多科学家研究过因果问题,几乎所有的逻辑学分支都想解决这样的问题,但很少有人取得了较大的进展。当连接主义盛行的时候,人工智能和统计学已经快合成一体了,很长一段时间之内,统计学因为处理不好因果关系,会选择性的无视和忽略他。

但是现实中因果的意义重大,如果没有因果性,那么很多问题我们无法从源头解决。例如一款新药上市,如何确认它确实对需要治疗的症状有效果?发生了一件有损公共健康的事情,例如某地发生了疫情,其原因是什么?这些都依赖因果思维,可以说因果思维就是人类社会运行的基本方式。

但是,因果分析是困难的,首先是因为认知的缺陷,我们只能看到我们能看到的东西。例如对于微生物,如果不是科技的进步,是没办法发现和认知的。另一方面我们也许无法获取到我们想要的数据,即使获得了数据,数据也可能不全,或者会给我们错误的解释。“啤酒与尿布”的例子就是一个典型,发现了这种相关,我们无法对其进行干预,例如我们增加啤酒的量,尿布并不能随之增加或减少,而只有我们发现了背后的关系,才能利用这种相关性。上述例子中就是将这两样放到一起,使得这些下班的丈夫在购买啤酒和尿布时候更加的方便和顺畅,从而提升了销量。

而因果理论中可能处处都是这些藏在背后的因素,这些因素被称作“混杂因子”,在研究和分析中怎么去除这些“混杂因子”,正是书中的重点内容。长久以来,去掉混杂因子的有效方法就是随机对照实验,但是根据书中理论和系统来看,只要基于正确的因果模型,就有简单可行的办法来去掉混杂因子。

因果模型的获取

虽然作者对大数据以及统计并不是很感兴趣,但是因果分析首先需要一个因果图,然后在图的基础上去验证数据。因果图的获取其实是一个非常重要的问题。事实上,通过数据分析,我们得到相关性,甚至将数据按照各个因子去分类获取,这是模型获取的第一步。我们不会,也没有能力凭空捏造一个模型,这些模型都需要数据的支撑来分析和验证。所有基于大数据的现有统计技术是第一步,在此基础上进一步分析得到因果图,进而在图的基础上进行本书说讲的因果分析。

这本书的内容当然不止于此,我觉得最厉害的点在于,基于一个因果模型,定义了一套计算方法,按照这些方法计算出来的数据,能够与符合同一个模型的统计和大数据得到一样的结果。这正是让人膜拜和仰望的。

这只是这本书粗读下来的结果,对于其重点内容,需要细细品读,等重读之后再次更新读书笔记。