「沈艳:大数据分析的光荣与陷阱――从谷歌流感趋势谈起」正文
【摘要】本文从谷歌流感趋势2009年前后表现差异谈起,讨论了大数据分析容易面临的大数据自大、算法演化、看不见的动机导致数据生成机制变化等陷阱,以及对我国大数据产业发展的借鉴。本文认为,为健康发展大数据产业,我国需要防范大数据自大风险、推动大数据产业和小数据产业齐头并进,并强化提高大数据透明度、审慎评估大数据质量等方面的努力。
一、谷歌流感趋势:未卜先知?
“谷歌流感趋势”(Google Flu Trends,GFT)未卜先知的故事,常被看做大数据分析优势的明证。2008年11月谷歌公司启动的GFT项目,目标是预测美国疾控中心(CDC)报告的流感发病率。甫一登场,GFT就亮出十分惊艳的成绩单。2009年,GFT团队在《自然》发文报告,只需分析数十亿搜索中45个与流感相关的关键词,GFT就能比CDC提前两周预报2007-2008季流感的发病率。
也就是说,人们不需要等CDC公布根据就诊人数计算出的发病率,就可以提前两周知道未来医院因流感就诊的人数了。有了这两周,人们就可以有充足的时间提前预备,避免中招。多少人可以因为大数据避免不必要的痛苦、麻烦和经济损失啊。
此一时,彼一时。2014年, Lazer等学者在《科学》发文报告了GFT近年的表现。2009年,GFT没有能预测到非季节性流感A-H1N1;从2011年8月到2013年8月的108周里,GFT有100周高估了CDC报告的流感发病率。高估有多高呢?在2011-2012季,GFT预测的发病率是CDC报告值的1.5倍多;而到了2012-2013季,GFT流感发病率已经是CDC报告值的双倍多了。这样看来,GFT不就成了那个喊“狼来了”的熊孩子了么。那么不用大数据会如何?作者报告,只用两周前CDC的历史数据来预测发病率,其表现也要比GFT好很多。
2013年,谷歌调整了GFT的算法,并回应称出现偏差的罪魁祸首是媒体对GFT的大幅报道导致人们的搜索行为发生了变化。Lazer等学者穷追不舍。他们的估算表明,GFT预测的2013-2014季的流感发病率,仍然高达CDC报告值的1.3倍。并且,前面发现的系统性误差仍然存在,也就是过去犯的错误如今仍然在犯。因为遗漏了某些重要因素,GFT还是病得不轻。
为什么传说中充满荣光的大数据分析会出现如此大的系统性误差呢?从大数据的收集特征和估计方法的核心,我们可以探究一二。
二、新瓶装旧酒:过度拟合
大数据时代的来临,为数据收集带来了深刻变革。海量数据、实时数据、丰富多样的非结构数据,以前所未有的广度进入了人们的生活。但是不变的是,在统计分析方法上,数据挖掘(Data mining)仍然是统计分析的主要技术。而数据挖掘中最引人注目的过度拟合(overfitting)问题,由于下文提到的各类陷阱的存在,远远没有解决。
我们先用一个故事来解释何为过度拟合。假设有一所叫做象牙塔的警官学校致力于培养抓小偷的警察。该校宣称,在他们学校可以见到所有类型的普通人、也能见到所有类型的小偷;到他们学校来学习就能成为世界上最厉害的警察。但是这所学校有个古怪,就是从不教授犯罪心理学。
象牙塔的教学方式是这样的:将人群随机分为十组,每组都是既有普通人又有小偷。学员可以观察到前九组所有人,也知道谁是普通人谁是小偷。学员要做的是,根据自己从前九组中了解到的小偷特征,从第十组中找出小偷。比如学员从前九组观察到小偷更喜欢在给孩子买尿布的时候也买啤酒,那么在第十组观察到有人在买尿布时也买啤酒,就作为一个嫌疑条件。完成这个过程之后,学校再将人群打散重新分成十组,如此循环往复,之后学校进行测试。测试方式就是再次将人群随机分为十组,看谁能最快最准根据前九组的信息找出第十组的小偷。冠军即象牙塔最棒警察,可以派到社会上抓小偷了。
一段时间后,问题来了:象牙塔最棒警察在象牙塔校内总能迅速找到小偷,可一旦出了象牙塔, 该警察就老犯错抓、该抓不抓的错误。他抓小偷的表现,甚至比从来没有来象牙塔学习的人还要差。
在这个故事里,象牙塔最棒警察就相当于根据大数据的数据挖掘方法、机器学习之后挑选出来的最优模型。小偷相当于特定问题需要甄选出的对象,比如得流感的人、不干预就会自杀的人、赖账的人。前九组的人就相当于用于训练模型的训练数据;第十组人则相当于检验训练结果的检验数据。不教授犯罪心理学就意味着抓小偷并不需要理解小偷为什么会成为小偷,类似于在数据分析中只关心相关关系而不关注因果关系。训练最佳警察的过程,就类似于运用机器学习技术, 采用训练数据来训练模型,然后采用检验数据来选择模型,并将预测最好的模型作为最佳模型,用于未来的各类应用中 。
最后,警察在象牙塔内能快速抓小偷而校外不能,就是过度拟合问题。由于在学校通过多次重复练习,学员小偷的特征已经烂熟于心,因此无论怎么随机分,都能快速找到小偷并且不出错;这就相当于训练模型时,由于已经知道要甄选人群的特征,模型能够对样本内观测值作出很好的拟合。由于象牙塔学校判断小偷的标准主要看外部特征而不去理解内在原因,比如小偷常戴鸭舌帽,那么当社会人群里的小偷特征与象牙塔人群有很大差别时,比如社会上的小偷更常戴礼帽,在象牙塔内一抓一个准的鸭舌帽标准,到社会就变成一抓一个错了。也就是说,在样本内预测很好的模型,到样本外预测很差。 这,就是过度拟合的问题。
从过度拟合角度,可以帮助我们理解为什么GFT在2009年表现好而之后表现差。在2009年,GFT已经可以观察到2007-2008年间的全部CDC数据,也就是说GFT可以清楚知道CDC报告的哪里发病率高而哪里发病率低。这样,采用上述训练数据和检验数据寻找最佳模型的方法时标准就很清晰,就是不惜代价高度拟合已经观察到的发病率。 Lazer 等人发现,GFT在预测2007-2008年流感流行率时,存在丢掉一些看似古怪的搜索词,而用另外的5000万搜索词去拟合1152个数据点的情况。
2009年之后,该模型面对的数据就真正是未知的,这时如果后来的数据特征与2007-2008年的数据高度相似,那么GFT也该可以高度拟合CDC估计值。但现实是无情的,系统性误差的存在,表明GFT在一些环节出了较大偏差而不得不面对过度拟合问题。
从上面的故事可以看到,产生过度拟合有三个关键环节。第一,象牙塔学校认定本校知道所有普通人与所有小偷的特征,也就等于知道了社会人群特征。第二,象牙塔学校训练警察,不关心小偷的形成原因,而关注细致掌握已知小偷的特征。第三,象牙塔学校认为,不论时间如何变化,本校永远能保证掌握的普通人和小偷的行为特征不会发生大规模变动、特别是不会因为本校的训练而发生改变。
在大数据这个新瓶里,如果不避开下面的三个陷阱,就仍然可能装着数据挖掘带来的过度拟合旧酒:大数据自大、算法演化、看不见的动机导致的数据生成机制变化。
三、大数据分析的挑战
(一)陷阱一:“大数据自大”
Lazer等学者提醒大家关注 “大数据自大(big data hubris)”的倾向,即认为自己拥有的数据是总体,因此在分析定位上,大数据将代替科学抽样基础上形成的传统数据(后文称为“小数据”)、而不是作为小数据的补充。
如今,大数据确实使企业或者机构获取每一个客户的信息、构成客户群的总体数据成为可能,那么说企业有这样的数据就不需要关心抽样会有问题吗?
这里的关键是,企业或者机构拥有的这个称为总体的数据,和研究问题关心的总体是否相同。《数据之巅》一书记载了下面这个例子:上世纪三十年代,美国的《文学文摘》有约240万读者。如果《文学文摘》要了解这个读者群的性别结构与年龄结构,那么只要财力人力允许,不抽样、直接分析所有这240万左右的数据是可行的。但是,如果要预测何人当选1936年总统,那么认定“自己的读者群”这个总体和“美国选民”这个总体根本特征完全相同,就会差之毫厘谬以千里了。事实上,《文学杂志》的订户数量虽多,却集中在中上层,并不能代表全体选民。与此相应,盖洛普根据选民的人口特点来确定各类人群在样本中的份额,建立一个5000人的样本。在预测下届总统这个问题上,采用这个小数据比采用《文学文摘》的大数据,更准确地把握了民意。
在GFT案例中,“GFT采集的搜索信息”这个总体,和“某流感疫情涉及的人群”这个总体,恐怕不是一个总体。除非这两个总体的生成机制相同,否则用此总体去估计彼总体难免出现偏差。
进一步说,由于某个大数据是否是总体跟研究问题密不可分,在实证分析中,往往需要人们对科学抽样下能够代表总体的小数据有充分认识,才能判断认定单独使用大数据进行研究会不会犯“大数据自大”的错误。
(二)陷阱二:算法演化
相比于“大数据自大”问题,算法演化问题(algorithm dynamics)就更为复杂、对大数据在实证运用中产生的影响也更为深远。我们还是借一个假想的故事来理解这一点。假定一个研究团队希望通过和尚在朋友圈发布的信息来判断他们对风险的态度,其中和尚遇到老虎的次数是甄别他们是否喜欢冒险的重要指标。观察一段时间后该团队发现,小和尚智空原来遇到老虎的频率大概是一个月一次,但是从半年前开始,智空在朋友圈提及自己遇到老虎的次数大幅增加、甚至每天都会遇到很多只。由于大数据分析不关心因果,研究团队也就不花心思去追究智空为什么忽然遇到那么多老虎,而根据历史数据认定小智空比过去更愿意冒险了。但是研究团队不知道的情况是:过去智空与老和尚同住,半年前智空奉命下山化斋;临行前老和尚交代智空,山下的女人是老虎、遇到了快躲开。在这个故事里,由于老和尚的叮嘱,智空眼里老虎的标准变了。换句话说,同样是老虎数据,半年前老虎观测数量的生成机制,和半年后该数据的生成机制是不同的。要命的是,研究团队对此并不知情。
现实中大数据的采集也会遇到类似问题,因为大数据往往是公司或者企业进行主要经营活动之后被动出现的产物。以谷歌公司为例,其商业模式的主要目标是更快速地为使用者提供准确信息。为了实现这一目标,数据科学家与工程师不断更新谷歌搜索的算法、让使用者可以通过后续谷歌推荐的相关词快捷地获得有用信息。这一模式在商业上非常必要,但是在数据生成机制方面,却会出现使用者搜索的关键词并非出于使用者本意的现象。
这就产生了两个问题:第一,由于算法规则在不断变化而研究人员对此不知情,今天的数据和明天的数据容易不具备可比性,就像上例中半年前的老虎数据和半年后的老虎数据不可比一样。第二,数据收集过程的性质发生了变化。大数据不再只是被动记录使用者的决策,而是通过算法演化,积极参与到使用者的行为决策中。
在GFT案例中,2009年以后,算法演化导致搜索数据前后不可比,特别是“搜索者键入的关键词完全都是自发决定”这一假定在后期不再成立。这样,用2009年建立的模型去预测未来,就无法避免因过度拟合问题而表现较差了。