书城计算机一本书读懂大数据
5253900000012

第12章 生活无处不数据,大数据真的能算命?(2)

现代工厂创建的基石是数学和统计学知识,有时候甚至仅有少许的编程和网络科学知识,这和百年之前的计算能力或是更早以前的文学很像。各种和思维类似的同行交际不再是人类价值的体现,更多的则体现在了同各类不同人的交际层面上,只有这样知识的传播才会更为深刻和广泛。从前成为优秀的生物学家先要结识众多生物学家的标准没有改变,只不过现在除了要具备深度的专业技能外,还要有大数据的广度。一个生物难题要解决,可能只要和天体物理学家或是数据试图设计师联系就不成问题了。

大数据的人才在电子游戏领域似乎最早同行业专家平起平坐,他们联手要改变这个行业。这个行业每年的净收入已经超过了100亿美元,这甚至已经超过了好莱坞的票房收入。过去游戏公司设计出一款游戏,就指望通过它来赚取高额利润。当然公司主要考虑的还是它的销售情况,或者以此推出升级版或是在此基础上推出新游戏。设计师个人的能力催生了游戏的人物、情节、物品和事件的设定,他们仿佛是在用米开朗琪罗画西斯廷教堂的画一样认真地对待自己的工作。只不过这项工作绝非艺术,而是一门科学,所以艺术家所倚靠的直觉和情感用在这个工作上是不合适的,就如同《点球成金》里的那些球探一样,他们真的已经过时了。

类似zynga推出的FarmViile,FrontierViile,FishVille以及其他一部分游戏都是交互式的。Zynga表面上是从这些游戏当中获取各类用户数据,还基于这些数据修改游戏,事实上游戏的版本非常多。公司从游戏当中收集各种数据,只要有玩家通关出现困难或是某一个关卡不对劲不愿意继续的话,数据就会为zynga发现这些问题提供依据,他们随即可以进行修改。隐藏得更深的是zynga还会针对不同用户的特点设计不同版本的游戏,类似FarmVille的版本就有几百个。

公司的分析家们观察玩家是否发现有自己的朋友使用这些产品的方式是通过颜色,他们还可以了解虚拟产品的销量是否真正增加了。例如FishVille的玩家购买透明鱼的数量已经远超过其他产品6倍的时候,公司就会利用大量出售透明鱼以获得更多的利润。在Mafia Wars中,根据数据统计显示,玩家更为青睐带金边的武器和纯白的宠物老虎。这些信息都来自数据的统计,而非一个设计师在工作室当中所能发现的。zynga的首席分析师肯·鲁丁曾经提到:“表面上看我们是一家游戏公司,但实际上我们做的却是分析公司的事情,因为公司所有的运作都基于数据而进行。”

显然这是一个具有非凡意义的转变,从前人们习惯用经验、回忆和猜测来做决定,正如W.H.奥登(Wystan Hugh Auden)在自己的诗中提到的:“知识已经退化成了混乱的主观臆想,那营养不足是来自太阳神经丛的感情。”马萨诸塞州的巴布森学院商科教授托马斯·达文波特(Thomas Davenport)曾写过多部数据分析著作,他将其称为“黄金般的直觉”。执行官们做决定的时候所依赖的是自己的直觉。可是随着预测性分析和大数据分析越来越影响管理决策后,直觉所起的决定性作用就会彻底转变。公司无论是考虑出品电影还是签下哪个艺人,整个过程都会有本质的改变。麻省理工学院商学院的教授埃里克·布伦乔尔森(Erik Brynjolfsson)曾与自己的同事们进行了一项专题研究,研究结果表明依赖数据进行决策的公司比传统依赖直觉进行决策的公司运营情况要好得多,生产率可以提高将近6%左右。从竞争力来看,随着越来越多的公司开始引进大数据,依赖大数据的公司竞争力会显著增强。

大数据的舆情服务

社交网络中人们的言行不但使尼尔森等市场调查公司感兴趣,政府机构也同样对此有强烈的兴趣。古往今来,治理国家很重要的一点就是要关注社会舆论,这是政府了解治理效果的一个重要渠道,更是发现人心向背的关键。所以不论是什么样的政府都对公共舆论十分关心。这一点也催生了另一种新型服务——“舆情”,即分析公共话题的热点、趋势以及对此的对策等等。

现代社会,人们闲聊、传话的重要媒介就是微博。从前人们的习惯是在街头巷尾与人闲聊,如今的人们通过微博来发表自己的行为,有时候打个喷嚏全世界的人都会知道。例如“微博女王”姚晨,她的微博粉丝有3000多万,有时候简单的一句“早上好”转发量就会高达2066次,还会有3739条的评论。这不过是即时的一个数据,在书籍出版之后,这个数字还会不断增加。

微博成为舆论场源自其巨大的传播和扩散效应。中国人民大学舆论研究所的一项研究表明,2011年舆情最大的信息来源就是微博,已经达到了20%以上。从此各级政府就以微博作为自己关注舆论走向的主要阵地。

同样应运而生的还有舆情服务。目前很多公司在提供舆情服务,譬如上市公司中的拓而思,人民网等等。通常来说省政府购买了舆情服务后,市政府也会跟着买,这是由于市长想在省长之前获得舆情信息。同理,县政府,包括大一点的镇政府都会紧接着来购买舆情服务。一般公司提供的舆情服务都相对简单,通常是定期为政府提供网上的舆论热点分析,很简单的一份材料而已。

如果只是基本的报告,显然无法在舆情服务产业的升级过程中赢得胜利。在复杂严峻的舆情形势面前,企业和政府所需的还有舆情监测、舆情预警、舆情分析报告、应对处置、顾问咨询、舆情培训等多重服务。最高级的舆情服务应当是从现有的大众言论中挖掘接下来可能出现的舆论热点,提前介入其中,做到以恰当的方式来引导舆论,这才是防患于未然。“事后诸葛亮”无论如何都比不上干脆让某件舆情事情不发生,这就是上医治未病的道理。

舆情服务的最高级别必须依靠大数据分析等相关技术,少了大数据的支持一切就都实现不了。中小舆情公司之所以难以升级成功,最大的技术难度就在于此。高级舆情报告在于即时性、全面性和前瞻性。缺少数据中心、缺少采集、分析大数据的技术以及成熟的舆情分析团队的话,要达成如此高质量的舆情反应几乎是不可能的。

舆情若是从“信息聚合”角度作为一个产业的话,当中定有无限巨大的空间。消费者对产品、公司、品牌的意见和反馈都包括在舆论当中,即便出现了负面的舆论也会成为公司改变公众形象的重要机会。所以说公司潜在客户或者潜在广告受众,他们的舆论可以是正面的,也可以是负面的。就此而言,譬如尼尔森等市场调查公司、拓而思这样的舆情服务公司,未来的发展空间是巨大的。实际上,舆情服务不仅限于技术活,更是一个跨多个学科的综合服务工种。它依赖大数据统计和分析,同时如果想在这个领域有所作为的话,还需要社会学家、心理学家、传播学家、数据科学家的共同服务。

大数据预测你的下一步行动

法庭上总是要求个人对自身行为负责。审判员在经过审理之后才会做出最公正公平的判决。可是到了大数据时代,为了维护个人动因想法,公正的概念要重新定义了——人们自由选择自我行为。简而言之,个人要对自己的行为而非倾向负责,这是应当做到的。

这自由权利在大数据之前是显而易见的,而这确实明确到不需说明。事实上法律体系当中总是通过人们过去的行为来判断其是否该为此行为负责,这是其运作的规则。只不过在大数据时代人们的行为就可以预测了,并且预测的结果是非常准确的。这使得我们对人们的评定不再依赖实际行为而是预测的行为。

确保了个人动因,政府对个人行为判定的基础是来自真实行为而非只依赖大数据的分析这点我们就可以确认了。因此政府追求的不能是依赖大数据分析而预测到的未来行为,而只能是过去的真实行为。再或者,政府对过去行为的追究过程中也不能只单纯地借助于大数据分析。比如借助大数据分析可以对两家涉嫌价格操纵的公司进行大致判定,随后监管机构再使用传统的方式对此立案侦查。显然,大数据的作用在于可以预测其是否可能犯罪,而不能对其是否有罪进行判定。

政府领域之外也适用相似的原理,例如关乎个人利益的公司重大决策——雇用和解雇,再有就是按揭和信用卡的是否准发。假如要单纯依赖大数据做出决策的话,前提必须是有非常到位的特定防护措施。

第一原则是公开原则。由于结果会直接影响个人,所以用来预测分析的数据和算法系统必须公开。

第二原则是公正原则。算法系统必须是经由第三方专家公证过的可靠、有效的系统。

第三原则是可反驳原则。个人对预测进行反驳的具体方式也要明确(这一点和科学研究当中必须披露所有可能影响最终结果的传统很相似)。

确保个人动因防范“数据独裁”带来的危害是最为重要的,而这危害正来源于数据被我们赋予了原本没有的意义和价值。

同样重要的还有保护个人责任。正因为这一点的吸引人,无论社会做出哪一种和他人有关的决策,决策者们都不需要再承担责任和风险。反之,风险管理成了管理的重点,实际上就是对可能性所进行的风险评估。所有看起来客观的数据,可以帮助去除决策中的情绪化和特殊化的部分,评价者主管的评价被数据运算法则代替,而决策的严肃性也无须通过追究责任的方式来显示,更准确地应该称作“客观”的风险和风险规避,这主意怎么听都感觉不错。

例如,那些被预测可能犯罪的人因为数据分析的结果被隔离,不断审查他们只为规避风险,可是事实上他们所受的惩罚来自并不需要他们承担的责任。设想一下,一个青少年被“预测警务”的运算法则预算出将来五年他可能会犯下重罪,于是政府部门就开始对其例行监视,每月都会有一名社会工作者去拜访他一次,目的是为其解决问题。假设少年身边的亲属、朋友、老师和雇主认为这种做法很是耻辱(这种情况发生的可能性很大),那么很显然这拜访就成了一种惩罚,是对尚未发生的事情的惩罚。不过要是不将其视为惩罚,而是认定为一种对未来风险的规避的话,也就是说把风险降至最低点的做法(这里所说的最小风险是破坏公共安全的最小风险),也未必见得就是一件好事。社会用干涉、降低风险的方式来代替自我行为负责的方式会导致个人责任意识的贬值。保姆式的国家才会主张预测。实际上,对个人行为所承担责任的否定就是对个人自由选择行为权力的摧毁。

国家所做出的决策如果均来源于企图通过预测来规避风险的愿望,那么个人的选择就不存在了,自主行为的权利就更不用提了。无罪,无清白,这样一来不会带来世界的进步,而是倒退。

数据也会骗人,从人的动作推导数据

美国电影《致命魔术》在片头就向观众提出了这样一个问题:“你真的看见了吗?”不少人认为自己眼见为实,可惜并非真正的观察,事实上他们没有看到真相。

“观察”究竟是什么?从事物内部寻找其相对性就是观察,简单说就是在共通性中寻找相对性。因此,一个人所说的话是真是假,如果要判断一定要基于以下两种情况:一是看,看看这个和自己说话的人是不是第一次见;二是看看日常生活中这个人是不是已经见过多次面。这些对于判断一个人说真话还是说假话有着独特的意义。熟悉的人要判断是否说谎,和判断一个素昧平生的人是否说谎相比要简单很多。问题在于后者无经验可借鉴,短时间的观察确实很难从中提取相对性。

说到这里,有两个词语不得不先了解一下:常态和时态。先理解“情态”再来说常态吧。所谓情态,藏在体内是谓“情”,展现在外的是谓“态”。《礼记·礼运篇》就曾提到人有七情,即喜、怒、哀、惧、爱、恶、欲,这些都是人内心的情态。体内有了这七种情态交织在一起,当人们的边缘系统被激发了之后,时态就会衍生出来。那些因为赌赢而欣喜若狂的人,正是边缘系统出了问题。一旦冷静下来他就会后悔刚才的表现:“太失态了,太丢人了。”

一个人的时态是最容易在观察一个人的时候发现的。一个人时态的差异,要从了解这个人的常态开始。什么是常态呢?通常有以下六种:弱、狂、哗、周旋、慵懒、媚。弱态是指那些动作温柔、说话轻声细语,有很强包容性,如小鸟依人一样的常态。狂态则是坚强好胜,不修边幅,言谈举止都如若无人在场。身边朋友一对比就会发现他有什么样的常态。问一个具有狂态的人的意见时,他总认为自己是对的,也愿意把自己的观点表达出来。弱态的人则不会这么做,意见是模棱两可的。哗态的人则大多在遇事时大手一挥,说道:“我来说,你们都别说。”周旋态的人在选择面前总有太多的纠结。慵懒态的人表现常常是非常漫不经心,不在乎一切。媚态则常常出现谄媚的行为。

日常生活中,人们会表现出不止一种单纯的态,会有多种态混合在一起。可是不管如何,凡弱且媚的人一定要远离,凡狂且媚的人,通常都比较了不起,这是一条交友法则。

一个人的常态是日常判断他的基本依据。如果要向一个慵懒态是常态的人汇报工作,发现这人突然一反常态地正襟危坐的话,那必然是非常重视这件事情。

判断是不是谎言,常态和时态必须区分。一个人的常态该如何了解呢?观察是最有效的方式。上文提到过判定熟悉的人是否说谎难度比较小,正因为了解对方的常态,而不了解常态的陌生人要做相应的判断难度要大很多。

日常生活当中还会听到变态这个词,事实上,这就是常态向时态转化而出现的异常举动或是不理智的行为。要是对常态和时态都非常熟悉的话,那么要观察一个人变态的起点和变化点就不算太难。