大数据时代的现实生活

 

  作者:艾伯特·巴拉巴西 

  ●改变我们生活的科学革命停留在了自然科学的边界上,从没有逾越而触及人类。  

  ●如果我们像研究自然现象一样研究人类,我们就能够预测人类行为。  

  ●一旦收集到足够多的数据,就可以提出这个基本的问题:我们的可预测性有多高?并且会得到一个令人震惊的答案。 

  人类不愿被放在显微镜下观察 

      某种程度上来讲,有关人类行为的统计确实有很重要的意义。大量有关人类行为的数据该怎样为我们所用呢?我是一个物理学家,也可以说是一个自然科学家,我认为自然现象是可以被解析、描述,被量化的,并且是可以预测、可以控制的,这一点无可厚非。这是科学家应该做的,也是推动科学家研究的动力。那么,如果我们用人类来代替之前提到的自然现象呢?刚才那句话将变成:人类是可以被解析、描述,被量化,并且是可以预测、可以控制的。这显然是一个会令人感到非常恐慌的陈述。  

      然而,我们无须恐慌,这其实是一个好消息。在科学领域有一个我们从不去探讨的小秘密,改变我们生活的科学革命停留在了自然科学的边界上,从没有逾越而触及人类。  

      我们不会阻止科学家去预测电子移动轨迹,却不愿预知电子危机、金融危机等;我们不介意科学家去研究基因,却不愿预知战争、重大的危机等。原因非常简单。人类和细菌或其他有机体有一个根本的不同,即细菌不会因为被放到显微镜下而恼怒,月亮也不会因为飞船登陆到它的表面而提出控诉。  

  预测需要数据 

      想要预测,必须要掌握大量数据,那些说自己不需要数据就可以作预测的人不是看手相的就是商业顾问。  

      在对人类行为的预测方面,我们现在拥有了大量数据的支持。我们发出的每封邮件都留下了一个人的社会关系、爱好等生活线索。银行了解我们的支付能力、品味、购买意愿以及购物地点。虽然我们常常选择不去想这些,但事实是我们已经将自己放在了记录事实的多倍显微镜下,这些数据细节让他人可以迅速了解我们的生活。  

      《爆发》讲的就是数据统计给掌控人类行为的研究带来的改变。这里面包括方方面面的数据,其中之一是隐私方面的数据。《爆发》一书虽然提到了隐私,却不是在讲隐私。它讲的是我们的社会正在变成一个大实验室,自动收集的数据揭示了人类行为模式。  

      说到人类行为,我首先要解释一个问题:“为什么一个物理学家要关注人类行为?”事实是,物理学家关心人类行为,是想了解其背后复杂的系统。这里有很多复杂的体系值得研究。大脑是一方面,还有经济、细胞,以及计算机系统。去年我们发现,要了解个人行为,社会是最好的平台。这些数据帮助我们了解到每个人的日常行为,比如每一个神经元每一刻都在做什么,或者说每一个基因都有什么作用。因为这套个人统计数据统计了每个人的行为,包括他们的行为模式、运动模式,以及方方面面,所以如果你想实用一些,并且相信每一个复杂体系都是相似的,那么你就在朝着掌握更多数据、取得更大进展的方向前进。过去的五年、十年中,人类社会朝着逐步变成一个本源的复杂体系、一个便于我们掌控的体系的方向发展,但这是一个漫长的过程。 

      所谓“爆发”,是一个人人都在遵循的行为模式,如果你观察现实生活中人们的行为模式:什么时候发邮件,什么时候打电话,什么时候浏览网页,你一定会发现确实存在这样的模式,我们在这一方面掌握了大量数据。这些行为都不是随机的,而是聚集,最终爆发。也就是说,你会在一段很短的时间里发出大量邮件,然后在接下来很长一段时间里什么都不做,然后接下来又是一个爆发,打电话也是一样。所以,在过去十年我们关于人类行为一个很重要的发现就是,人类行为不是随机的,而是聚集带来的爆发。而最重要的是这些行为都遵循“幂律分布”。  

      当然没有人认为自己的行为模式是随机的,这从来就不是问题所在。问题是,随机行为的特点是什么?爆发是特点之一,而且爆发也会将我们引向下一个问题,这个我在前面也提到了。如果我们像研究自然现象一样研究人类,我们就能够预测人类行为。  

      预测本身其实就是一个令人感到恐惧的词。我们要预测什么?我们要预测今晚会梦到什么吗?我们要预测下次升职是什么时候吗?或者预测我们会偶遇谁?所有这些预测都需要数据的支持,需要大量数据的支持。我们作预测的能力取决于我们掌握多少数据,有了这些数据我们才能说预测的可能性有多大。所以,几年前我开始思考这个问题时,我决定从收集人类行为轨迹的相关数据开始,即我们在哪里,接下来又要去哪里。我当时没有收集他人数据的渠道,却又非常好奇作预测的可能性,所以我决定从收集自己的数据开始。  

  进入大数据时代 

      其实,很多人行为轨迹的数据都被收集了。现在还有人不用手机吗?当然,人们不会自欺欺人地去否认这个事实:即你的手机厂商知道你每一时刻都在哪里。他们不仅知道你的位置信息,还知道你打的每一通电话(为了统计话费)。他们不仅知道你在哪里,也知道其他成千上万的客户在哪里。所以,相对于我所收集的关于自己的数据,他们掌握的数据要丰富很多。有了这些数据,人们就可以对不同的个体进行比较。当然,手机商很担心这些数据会外泄,因为他们要保持用户对他们的信任,同时外泄信息还会受到法律的处罚。但是近几年,他们逐步意识到这些数据的价值所在,于是开始将数据提供给研究者和其他公司。我的研究小组也得到了大量有关人类行为轨迹和通话模式的信息,信息的主人当然是匿名的,我们不知道主人是谁,也不知道他们的电话号码。我们只是将他们看做在宇宙中移动的小个体,就像组成汽油的溴一样。  

      有了这些数据,我们终于可以问:人类行为的可预测性是多少?人的行为可以预测吗?  

      我们之前提出的问题之一是:人们每天会移动多远?答案很简单。如果你想要查一查移动这么远的人有多少,这是一个典型的行车距离,大部分人都会移动这么远。你会发现大部分人倾向于在一个相对小的范围内移动。当然也有少数住在城郊的人会移动一段相当长的距离,移动范围较小的人的数量对比移动范围较大的人的数量正好符合一个精确的“幂律分布”。所以,如果你掌握了大量数据,就可以预测有多少人是旅行者,有多少人在很远的地方上班,有多少人大多数时间待在附近,或是在家中工作。这是我们研究的第一步。这已经表明,在研究一个庞大的人群时,我们会发现不同人的行为是迥异的。下一步,我们用得出的行为轨迹算出每个人的熵。  

      什么是熵呢?整个体系的熵是零,就是说这个系统的状态很明朗,你知道每一个点在哪里,每一个点的位置都是完全确定的,这也就是我们所说的:“熵为零。”熵是衡量随机性的值。原则上,如果可以根据个人过去出现的地点写出数据挖掘运算法则,那么就可以百分之百地精确算出他将出现的地点,他的可预测性是1,也就是说这个人的运动完全没有随机性。他每天在同一时间往返于家和单位。  

      我们认为人与人之间的行为模式存在很大差异,很多人的行为很难被预测,因为他们的生活丰富,并且行动无计划性。但是还有一些人可能更容易被预测,这种人是我们一开始就提到的,他们的行为发生在一个确定范围内。于是我们分别计算出了这些人的平均值,并将他们的可预测性标记在图中。我们测量的是大批手机用户的可预测性,首先应该注意到的就是这个预测基数很大,峰值是93,也就是说,对于一个普通人来讲,如果我们知道他过去去过的地方,原则上有93%的可能性可以准确预测出他接下来将出现的地方。而且所有人的可预测性都高于80%。  

      因此,一旦收集到足够多的数据,就可以提出这个基本的问题:我们的可预测性有多高,并且会得到一个令人震惊的答案?如果我们谈到对未来的预测,我们可以说:“如果我们拥有足够的数据,是不是所有事情都是可以预测的?”这是我们现在要思考的问题。  

  (作者系美国东北大学荣誉教授,复杂网络科学研究中心主任,《爆发》一书作者。本文译者为湛庐文化。)  

  资料来源:《中国科学报》记者胡珉琦(2012-09-24 B3 观点)