调研圈人物
丰言丰语谈数据(二):数据怎能不谈因果
回复:0  浏览:368
  • 楼主小天 
  • 2018-08-09 16:50

数据、市场营销、跨界、开脑洞

《涅槃经》讲:“业有三报,一现报,现作善恶之报,现受苦乐之报;二生报,或前生作业今生报,或今生作业来生报;三速报,眼前作业,目下受报。”我们明白了业有三报的道理,不仅知道干坏事作恶之人,终有报应,而且能真正做到多行善积德,不干坏事的而终得福报的结果。

做数据分析工作也类似,有些事情影响很快、很广,所以我们很容易观察到他们之间的因果关系;然而有些事情产生的原因或是相应的结果是在不同的时空,那么要观察他们之间的关系就相对不容易。因为不容易,所以研究人员就会倾向放弃。近年来很火的一本书《大数据时代》,里面不也提到:在大数据时代知道“是什么”就够了,不需要知道“为什么”。这样的提议,让我这一个从事研究分析的的老兵感到不安。接下来,想从心理学和统计学的角度来简单讨论一下,为什么我还是希望大家多去研究因果,而不要只看相关。



从心理学的角度


找原因是人类高级智慧活动的重要表现。亚里士多德是古希腊自然哲学的集大成者,其著名的“四因说”就是在说明事物形成的原因。四因里面有一个“目的因”说的是:事物的存在总有它的目的,会不断的向目的演化。如果说一件事物的存在是没有目的,那是亚里士多德不能接受的。所以,当我们做数据分析的时候,我们说这两个数据存在统计学上的相关,但是没有问为什么,没有归因分析,我想这也是多数人无法接受的。


以著名的“尿布与啤酒”为例,这是一个大数据分析的案例,按照只要相关不要因果的说法,商场只要跟着数据的结果做就行了,不要研究为什么。但是这毕竟违背常理,所以还是有人去研究为什么。主要是因为那段时间都是爸爸去买尿布,所以买了尿布就顺手拿了啤酒。这个原因分析十分有价值,让我们清楚知道:如果这个市场是妈妈去买尿布,那么肯定就不能把啤酒放在旁边。要是没有这个原因分析,贸然的建议客户执行这样的摆放策略,可想而知,在美国以外的国家,其结果一定不如预期。


从统计学的角度


统计学上的“相关”会面临两个问题,第一个是虚假相关。数据的观察上,我们会发现:冰淇淋融化、柏油路变软、路上昏倒的人变多,这三个变量有高相关。还是按照只要相关不要因果的说法:要减少路上昏倒的人,我们要做的事就是生产不融化的冰淇淋,或是让柏油路变得更硬。当然,我们一眼就能看出这些举措是没有效果的。这三件事有个共同的原因,就是气温升高了。为了让昏倒的人减少,我们应该要提醒民众注意避暑。


第二个问题是显著性检验的问题。从数学上来看,当你的数据量十分庞大的时候,你做任何的显著性检验都会得到显著的结果,也就是说,万物皆有关系。依照目前多数企业数据收集的能力,数学上发现相关是一种常态。但是就像前面的例子,多数情况下,只看相关不能解决问题。


从显著性检验衍生出来的还有模型过度拟合(overfitting)的问题。由于数据量的庞大,所以在建模时很容易找到相关的变量放入模型里,造成的结果就是模型看起来预测力很高,但是通常很快就不适用了。


著名的“谷歌流感趋势(GFT)”就是过度拟合的例子。2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。2009年,GFT没有能预测到非季节性流感A-H1N1;在2011-2012季,GFT预测的发病率是实际值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是实际值的两倍多了。