大数据,对普通 老 百姓而言,已经不再是一个 陌 生的词语。在这个海量信息的时代,大数据无时无刻不在影响 、惠及、改变着我们的生活。如何利用大数据,恐怕将决定着你未来生活的模样。
近来,一部名为《纸牌屋》的政治惊悚美剧火遍互联网,不过,人们一定不知道,备受好评的男主角凯文·史派西并不是制片方决定的。
该片的投资、制作方———美国视频网站Netflix 利用其在美国近2700万订阅用户每天在网站产生的3000 多万个网络点击行为,通过分析这些海量数据,结果显示拥有高点击率的凯文·史派西最适合成为主角,而同时获得数据“青睐”的还有鬼才导演大卫·芬奇。
事实上,早在 2012 年初,用来形容信息大爆炸时代产生的海量信息的词语“大数据”就开始进入普通人的视野,如今,大数据又开始注入电视剧行业。对这些海量数据的处理究竟给人们的生活带去了多大的改变。
大数据到底有多大
全球每天通过 Internet 网络传输的电子邮件多达2100亿封;Facebook 每月新增10亿照片和1000万个视频;腾讯公司注册用户超过 7亿,同时在线人数超过1亿......
根据互联网数据中心的报告,2012 年全球的数据总量为2.7Zb(1Zb 相当于十万亿亿字节),预计到2020 年,全球的数据总量将达到35Zb。
中国科学院信息工程所副研究员王伟平说,目前为止,没有谁能准确说出大数据到底有多大,但可以肯定是的,这些海量数据的规模已经让目前主流的数据库软件无法承受。
除此之外,大数据的数据类型和来源众多,又高速流转,同时,相较于数据的数量,它们所含有的价值却是相对稀疏的,获取有用信息犹如大海捞针。因此,这一切都要求开发新的数据处理模式对海量信息进行撷取、管理和处理等。
2012 年 3 月 29 日,奥巴马政府宣布投资 2亿美元启动“大数据研究和发展计划”,美国政府已经把“大数据”上升到了国家战略的层面。华尔街日报更是将大数据、智能制造和无线网络并列为当代三大技术变革。
“在这个数据为王的时代,如何挖掘、利用数据显然已经成为了各个行业、企业竞争的焦点。”王伟平坦言。
关键词检索预测流感
全球规模最大的搜索引擎 Google 一直是大数据处理技术研发的引领者。王伟平告诉《中国科学报》记者,2009 年 H1N1 流感暴发之前的几周,Google 公司的工程师们在《自然》杂志上发表了一篇论文,它令公共卫生官员们和计算机科学家都感到震惊。
原来,他们在文中解释了谷歌预测到冬季流感的传播,并且具体到特定的地区和州,而这种预测比美国疾控中心要提前一到两周。
其实,这是 Google 在 2008 年底推出的一项大数据处理的应用服务———“流感趋势”。该服务可以帮助人们了解自己所在地区(限美国境内)的流感病例暴发情况,从而提前采取预防措施,避免感染。而“流感趋势”正是通过搜索引擎对关键词的监测来实现的。
王伟平解释,官方发布的疾病流行信息往往要经过层层上报,而老百姓很可能在去往医疗机构之前就已经将“咳嗽”、“发烧”等与流感有关的信息放到了互联网上。Google 通过对这些关键词进行监测,并通过地图将这些关键词被检索的趋势显示在其所对应的地区。相应的关键词密度越高、越频繁,该地区暴发流感的可能性就越大。
这就不难理解,通过 Google 的“流感趋势”对流感进行的预测,其速度甚至比美国疾控中心还要快。尽管,这类预测服务可能存在误差,美国疾控中心表示,这将是对现有监测工具的一种补充。
尿布与啤酒放在一起更好卖
而要说到大数据挖掘在商业中的应用,就不得不提到零售巨头沃尔玛的经典案例。
在一家实体超市,通过怎样的物品摆放才能更有效地方便顾客采购,并让顾客在不知不
觉中多购买呢?王伟平说,这一切都要归功于沃尔玛的交易数据分析。
沃尔玛数据仓库里集中了其各门店的详细原始交易数据,在这些原始交易数据的基础上,沃尔玛利用 NCR 数据挖掘工具对这些数据进行分析和挖掘。他们意外发现,跟尿布一起购买最多的商品竟然是啤酒。
此后,市场调查人员、分析师在经过调查分析之后明白了隐藏在“尿布与啤酒”背后的一种购物行为模式。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有 30%~40%的人同时也为自己买一些啤酒。这是因为,美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就在门店内将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。
数据左右美国大选
不过,让大数据成为 2012 年热议焦点的最大“功臣”恐怕还是美国总统奥巴马。就在奥巴马成功击败对手罗姆尼,再次赢得美国总统选举的当天,《时代》杂志就发表文章称,奥巴马获胜背后的秘密正是数据挖掘。
相较于 2008 年的第一次选举,这一回,竞选团队在最初的一年半时间里就把各种数据合到一起,制作了一个包含各类信息的大数据库。新的大数据库并不会直接告诉竞选团队如何寻找选民,但是数据挖掘团队却能利用这个数据库来进行选情分析,并针对不同类型的选民测试不同的宣传策略。
他们通过 4 个来源的民调数据来详细分析关键州的选民。比如,通过对俄亥俄州 2.9 万选民的民调数据,他们可以深入分析各个族群的选民在任何时刻的趋势。而在总统候选人的第一次辩论之后,他们分析出哪些选民倒戈,哪些没有。
在选举期间,竞选团队每晚要实施 6.6 万次模拟选举,正是这些模拟选举推算出了奥巴马在摇摆州的胜率,并让他们得以通过这些数据来分配资源。
此外,这次竞选活动中,竞选团队也首次尝试在 Facebook 上复制传统的上门宣传活动。在最后几周,下载相关应用的人们会收到带有他们在摇摆州的友人图片的信息,告诉他们只需点击一个按钮,就能鼓励这些朋友们登记参选、早点投票或是参与民调。收到信息的人们当中有五分之一会有所响应,这很大程度上是来自熟人效应。
与依赖传统的外部媒体顾问的做法不同,竞选团队还利用数据挖掘从而决定对广告的购买。他们通过一些复杂的模型来精准定位不同选民,出人意料地购买了一些冷门节目的广告时段,而没有采用在本地新闻时段购买广告的传统做法。可事实上,广告效率相比 2008 年提高了 14%。
同时,奥巴马当初决定在社交新闻网站Reddit 上与网民互动时,很多高级顾问对此也表示不解。可实际情况是,数据分析告诉了他们,Reddit 上有很多动员对象。
在王伟平看来,其实,奥巴马获胜的法宝,简单概括就是利用数据挖掘了解他的每一个潜在支持者的个性化需求,并提供了精准的服务。
安全问题与生俱来
大数据处理就像是一场新的革命,无论是在商业、政治还是公共服务领域。王伟平认为,
自己目前还很能看到被大数据所包围的未来生活究竟会变成怎样。“在群体智能的时代,大家都有可能从海量数据中发现需求和商机。”
比如,在未来,企业可以通过智能手机、平板电脑等移动设备收集用户数据,再通过大数据技术加以分析,可以帮助一成不变的零售业和广播电台等行业更加了解用户的真实需求。西雅图创业公司 Placed 就率先尝试了对这种数据的利用。
该公司推出的 Panels 服务,可以让企业全天追踪应用用户的地理位置,由此得出哪些百货商店最受人欢迎,哪些类型的商家流量增加最多,哪些商家之间的关联性最强或最弱等。
此外,就在本月 3 日,英国首个综合运用大数据技术的医药卫生科研机构在牛津大学正式揭牌,该中心包括“靶标发现研究所”和“大数据研究所”两个机构,旨在通过搜集、存储和分析大量医疗信息,确定新药物的研发方向,探索特定疾病的新疗法,同时减少药物开发成本。
而近日,摩根士丹利分析师斯科特·德维特、乔丹·蒙纳罕和尼桑特·福尔玛还表示,谷歌相信通过大数据产品来帮助广告客户分析和评估广告活动效率的领域,在未来可能存在高达到数千亿美元的市场规模。
不过,清华大学计算机系教授黄连生指出,当前,人们对于大数据的“着迷”并不能掩盖存储、管理海量数据技术能力尚不足的问题。
而利用大数据创造价值,前提是要保证数据的质量。在他看来,例如在公共服务领域,即使在当前,提供的有效信息远远不足,又怎能谈得上被采集、利用呢。
此外,大数据与生俱来的信息安全问题也是服务提供方无法回避的问题。
资料来源:《中国科学报》 记者:胡珉琦 (2013-05-10 第9版 探索周刊)