新書推薦:
《
启微·狂骉年代:西洋赛马在中国
》
售價:HK$
78.4
《
有趣的中国古建筑
》
售價:HK$
67.0
《
十一年夏至
》
售價:HK$
76.2
《
如何打造成功的商业赛事
》
售價:HK$
89.5
《
万千教育学前·透视学前儿童的发展:解析幼儿教师常问的那些问题
》
售價:HK$
58.2
《
慈悲与玫瑰
》
售價:HK$
87.4
《
启蒙的辩证:哲学的片简(法兰克福学派哲学经典,批判理论重要文本)
》
售價:HK$
76.2
《
云中记
》
售價:HK$
76.2
|
內容簡介: |
为什么电商平台比你自己更懂你的品位?
一条数学公式如何帮你找准自己的另一半?
找工作时,你知道自己是因为统计分析而吃了闭门羹吗?
现代社会建立在大数据的基础之上,经验和直觉已经不好使,统计文盲将难以生存。
本书以大量真实生动的案例,讲述了统计学如何化腐朽为神奇,干脆利索地解决一系列传统社会科学语焉不详的问题。在抽丝剥茧探究反直觉的真相的过程中,普及了统计学的基本概念和原则。正是因为其反直觉,甚至是反常识,才给人以恍然大悟的感觉,所以冠之以“魔鬼”。
《魔鬼统计学》与《魔鬼经济学》一脉相承,以别开生面的风格讲述身边的统计学常识,不仅趣味横生,更能改变你的思维方式。
|
關於作者: |
伊恩·艾瑞斯,计量经济学家,耶鲁大学法学院和管理学院教授,stickK.com网站的创始人,《纽约时报》“魔鬼经济学”博客的专栏作家之一。接受《黄金时间实况》《奥普拉脱口秀》《早安美国》等著名节目以及《时代周刊》《Vogue》等权威杂志的采访,成就卓著,风靡全美。
|
目錄:
|
前?言?超级数据分析师的崛起??
章?谁在替你思考???
第二章?反直觉:随机化与解??
第三章?概率治国??
第四章?医生该如何看待循证医学???
第五章?传统专家?vs?算法方程?
第六章?世界正在迅速数字化??
第七章?我们找到乐趣了吗???
第八章?未来需要的人才??
结?语??
后?记?关于革命的进一步解释??
致?谢
|
內容試閱:
|
超级数据分析师的崛起
奥利·阿森费尔特(Orley Ashenfelter)非常喜爱葡萄酒,“你只要把优质红酒放上一段时间,它就会发生一些非常神奇的事情。”奥利不仅对于葡萄酒的品鉴很着迷,而且希望知道优质葡萄酒和普通葡萄酒背后的推动力量。
“当你购买优质红酒时,”他说,“你是在进行一项投资,因为它未来很可能会变得愈发诱人。你希望知道的不是它现在的价值,而是它未来的价值,尽管你可能不会卖掉它或者喝掉它。你可以通过推迟品尝获得多少快乐呢?这是一个非常有趣的话题。”过去二十五年,这个话题占据了他的很大一部分时间。
奥利的日常工作是分析数字。他用统计量提取隐藏在大型数据集合中的信息。作为普林斯顿的经济学家,他曾考察同卵双胞胎的工资,以估计多上一年学所带来的影响。他曾考察限速差异,以估计各州对于统计寿命的重视情况。他曾在多年时间里担任美国经济学期刊《美国经济评论》的编辑。
阿森费尔特个子很高,留着浓密的白色络腮胡子,他那洪亮而友好的嗓音往往会成为会场上的主旋律。他并不胆小。你可能认为数字分析师是一些懦弱而腼腆的人,但阿森费尔特会使你迅速消除这种成见。我曾见过奥利在教室里踱步,用和蔼而热情的语气阐述一篇研讨会论文背后的原理。当他以高度赞扬的语气开始他的评论时,你就要当心了。
奥利通过分析数字评价波尔多葡萄酒品质的做法使他陷入了很大的麻烦。他 不是使用罗伯特·帕克(Robert Parker)等葡萄酒大师的“痛饮和回味”方法,而是用统计量寻找与拍卖价格高低相关的年份酒特征。
“这是显而易见的,”他说,“葡萄酒是农业产品,它会受到不同年份天气的极大影响。”根据法国波尔多地区数十年的天气数据,奥利发现,较少的收获期降水量和较高的平均夏季气温可以给人们带来品质的葡萄酒。正如彼得·帕塞尔(Peter Passell)在《纽约时报》中所说,奥利的统计方程与数据吻合得相当完美。
当葡萄成熟、汁液浓缩时,波尔多酒是好的。在夏季特别热的年份里,葡萄会充分成熟,其酸度会降低。在降水量低于平均水平的年份里,水果汁液会浓缩。所以,你往往会在炎热干燥的年份得到具有传奇色彩的年份酒。成熟的葡萄可以酿造出口感柔和的(酸度低的)葡萄酒。汁液浓缩的葡萄可以酿造出风味浓郁的葡萄酒。
奥利大胆地将他的理论简化成一个公式:
葡萄酒品质=12.145 0.00117冬季降水量 0.0614生长季平均气温-0.00386收获期降水量
没错。通过将当年的天气数据代入这个公式,阿森费尔特可以预测任何年份酒的总体品质。通过另一个更加复杂的公式,他可以更加准确地预测一百多个庄园的葡萄酒品质。“这看上去可能有一点数学成分,”奥利说,“但这正是法国人在著名的1855年分类中为葡萄酒厂排名时使用的方法。”
传统葡萄酒评论家并不接受阿森费尔特基于数据的预测。英国《葡萄酒》杂志说,“这个公式显然很可笑,不值得尊重。”纽约葡萄酒商威廉·索克林(William Sokolin)说,在波尔多葡萄酒从业者眼里,阿森费尔特的工作“介于野蛮和歇斯底里之间”。奥利时常遭到葡萄酒交易者的轻视,当他在佳士得葡萄酒部门发表关于葡萄酒的演讲时,会场后排的交易商公然对他的演讲发出嘘声。
罗伯特·帕克也许是世界上有影响力的葡萄酒作家,他也是《葡萄酒先锋》的出版人。他生动地将阿森费尔特形容为“彻头彻尾的骗子”。虽然阿森费尔特是世界上受尊重的计量经济学家之一,但是在帕克看来,他的方法“是尼安德特人看待葡萄酒的方式。它太荒谬了,简直不值得嘲笑”。帕克否认了数学公式有助于鉴别优质葡萄酒的可能性,“我不想去他家做客,喝他家的葡萄酒。”
帕克说,阿森费尔特“就像一个从不看电影、仅仅根据演员和导演判断电影好坏的影评人一样”。
帕克的观点有一定的道理。既然通过观影得到的判断更加准确,通过品尝葡萄酒得到的判断不也应该更加准确吗?但是,这里有一个问题:波尔多和勃艮第葡萄酒需要在橡木桶里存放十八到二十四个月,然后封装在酒瓶里。像帕克这样的专家在葡萄酒装进酒桶四个月以后才能开封品尝。即便此时,他们喝到的仍然只是正在发酵的非常难闻的混合物。我不知道品尝这种无法饮用的早期葡萄酒能否为品酒师带来关于葡萄酒未来品质的非常准确的信息。例如,巴特菲尔德拍卖行葡萄酒部门前主管布鲁斯·凯泽(Bruce Kaiser)说过,“早期葡萄酒变化很快,在其存放至少十年甚至更长时间以前,没有一个人可以对葡萄酒做出准确评价。”
与之形成鲜明对比的是,奥利通过分析历史数据找到了天气和价格之间的关系。他通过这种方式发现,冬季降水量每增加一厘米,预期价格往往会增加0.00117美元。当然,这只是一种趋势。不过,通过分析数字,奥利可以在葡萄收获时立即预测出未来的年份酒品质——比首次品尝提前几个月,比首次销售提前几年。由于葡萄酒期货交易频繁,因此阿森费尔特的预测为葡萄酒收藏者带来了巨大的竞争优势。
20世纪80年代后期,阿森费尔特开始在半年度简报《流动资产》上发布他的预测。他首先在《葡萄酒观察者》上用小篇幅广告宣传他的简报,逐渐积累了大约600名订阅者。订阅者来自世界各地,包括许多百万富翁和品酒专家——其中大多数人来自接受计量经济学方法的葡萄酒收藏者小圈子。罗伯特·帕克的简报《葡萄酒先锋》有三万订阅者,年费为30美元。相比之下,阿森费尔特的订阅群体显得不值一提。
1990年初,《纽约时报》头版发布了一篇关于阿森费尔特新型预测机器的文章,使更多的人接触到了他的思想。奥利公开批评帕克对于1986年波尔多葡萄酒的评估。帕克认为八六年葡萄酒“非常好,简直称得上出类拔萃”。阿森费尔特不同意这种观点。他认为这种酒的生长季平均气温低于平均水平,收获期降水量高于平均水平,因此该年份酒一定很平庸。
不过,这篇文章中真正的重磅炸弹与奥利对1989年波尔多葡萄酒的预测有关。这些葡萄酒在酒桶里只存放了三个月,还没有机会得到评论家品尝,但奥利认为它们将成为“这个世纪的葡萄酒之选”。他表示,这种酒一定“非常好”。根据他的评分标准,如果上好的1961年波尔多葡萄酒是100分,那么1989年波尔多葡萄酒将达到惊人的149分。奥利公然表示,它们的“售价不会输给过去三十五年酿造的任何一款葡萄酒”。
葡萄酒评论家被激怒了。帕克此时称阿森费尔特的定量估计“荒谬可笑”。索克林说,人们的反应夹杂着“愤怒和恐惧。奥利的确惹恼了许多人”。在几年时间里,《葡萄酒观察者》不再为奥利(和其他人)的简报发布任何广告。
传统专家团结在一起,试图诋毁奥利及其方法。他们说,奥利的方法存在缺陷,因为它无法精确预测未来的价格。例如,《葡萄酒观察者》品尝主管托马斯·马修斯(Thomas Matthews)抱怨说,阿森费尔特对于二十七种年份酒的价格预测只有三次是完全准确的。虽然奥利的“公式得到了特别设计,以拟合价格数据”,但他的“预测价格不是高于实际价格,就是低于实际价格”。不过,对于统计学家(以及其他任何稍作思考的人)来说,拥有时高时低的预测是一件好事,它是无偏估计的象征。实际上,奥利指出,帕克初对于年份酒的评价存在系统性的上偏趋势。帕克常常需要对他初的评价进行下调。
1990年,奥利做出了更加冒险的举动。在将1989年葡萄酒称为世纪年份酒之后,他发现,根据数据,1990年的葡萄酒将会表现得更好。他宣布了这一结果。事后来看,我们知道《流动资产》的预测是非常准确的。八九年葡萄酒成了非常优秀的年份酒,而九零年葡萄酒表现得更好。
你怎么能连续两年拥有“世纪年份酒”呢?原来,自从1986年以来,每一年的生长季气温都要高于平均水平。法国天气已经温暖了二十多年。这是种植柔和的波尔多葡萄的好时机,对葡萄酒爱好者来说也是一个好消息。
传统专家现在对天气的重视大大提高了。许多人从未公开承认奥利的预测威力,但他们自己的预测与奥利那个简单公式得到的结果更加吻合了。奥利仍然在维护他的网站www.liquidasset.com,但他不再制作简报了。他说,“现在和过去不同了,品酒师不会再犯可怕的错误了。坦白地说,我是在自掘坟墓。我再也没有像之前那么高的附加值了。”
阿森费尔特的诋毁者将他看作异端。他揭开了葡萄酒的神秘面纱,对他们产生了威胁。他回避了华丽而荒谬的术语(“强健”“紧实”“轻快”),为他的预测给出了理由。
葡萄酒行业毫不妥协的态度不仅与审美有关。“葡萄酒交易商和作家不想让公众获得奥利提供的那种信息,”凯泽评论道,“事情始于八六年陈酿。奥利称之为骗局,因为那一年很糟糕,下了很多雨,气温也不够高。不过,当时所有葡萄酒作家都在唱赞歌,称之为伟大的年份酒。奥利是正确的,但正确并不总是受人欢迎。”
通过维持对于葡萄酒品质的信息垄断,葡萄酒交易商和作家可以从中获利。交易商通过长期高估的初始评价稳定价格。《葡萄酒观察者》和《葡萄酒先锋》维持着葡萄酒品质主要评判者的地位,并以此获取数百万美元收入。正如厄普顿·辛克莱(以及现在的阿尔·戈尔)所说,“当一个人的工资取决于他对某件事情的不理解时,你很难让他理解这件事情。”同样的道理也适用于葡萄酒。“许多人的生计取决于葡萄酒饮用者对于这个公式的不信任,”奥利说,“他们突然之间变得有些过时了,这使他们感到愤怒。”
你可以看到一些变化的迹象。伦敦佳士得国际葡萄酒部门主席迈克尔·布罗德本特(Michael Broadbent)以外交家的口吻表述这件事:“许多人认为奥利是个怪人,我认为他在许多方面的确如此。不过,我发现他的思想和研究每年都与事实相符。他所做的事情对于希望购买葡萄酒的人相当有帮助。”
棒球界的奥利·阿森费尔特
葡萄酒品鉴这一高端行业似乎与面向大众的棒球运动相去甚远。不过,从许多方面来看,阿森费尔特为葡萄酒所做的事情与比尔·詹姆斯(Bill James)为棒球所做的事情是相同的。
詹姆斯在年报《棒球摘要》中对于棒球专家通过观察判断球员天赋的观点提出了疑问。迈克尔·刘易斯(Michael Lewis)在《魔球》中指出,詹姆斯将数据驱动型决策引入了棒球领域。詹姆斯的观点简单而有力,他认为基于数据的棒球分析优于专业观察:
肉眼无法获得评价球员所需要的知识。想想吧。你显然无法通过观察判断打击率为0.300的击球手和打击率为0.275的击球手之间的差异。这种差异相当于每两个星期相差一次打击……如果你观看两个人在一年中的15场比赛,那么打击率为0.275的击球手的击球数超过打击率为0.300的击球手的概率是40%……优秀击球手和普通击球手之间的差异是肉眼无法看到的——它只能在数据中体现出来。
和阿森费尔特类似,詹姆斯相信公式。他说,“你应该用击球手试图取得的成功衡量他,而击球手试图取得的成功是制造得分。”于是,詹姆斯提出了一个新的公式,用于衡量击球手对于得分的贡献:
制造得分=(击球数 保送数)×总垒数/(打数 保送数)
这个公式重点强调了球员的上垒率,为那些经常获得保送的球员给出了特别高的评分。球探特别讨厌詹姆斯的数字分析方法。像罗伯特·帕克那样的葡萄酒评论家通过感受口感和气味生存,而球探的眼睛则可以决定他们的生死。这是他们的附加值。正如刘易斯所说:
在球探看来,要想发掘大联盟球员,你需要开车行驶十万公里,在一百家劣质汽车旅馆里住宿,无数次在丹尼餐厅就餐,以便在四个月时间里观看二百场高中和大学棒球比赛,其中199场对你毫无意义……你会走进球场,在捕手正后方第四排铝制长椅上找到一个座位,看到其他人看不到的一些事情——至少没有人知道这些事情的意义。你只要看到这个球员一次就够了。“只要你一看到他,你就明白了。”
球探和像罗伯特·帕克那样的葡萄酒评论家的共同点不仅仅是喜欢回味和吐痰。帕克相信,他能根据一次品鉴评估庄园年份酒的质量。类似地,棒球球探相信,他们可以根据一次观赛评价高中潜力球员的质量。
在这两个领域,人们试图预测未经检验的不成熟产品的市场价值,不管它们是葡萄还是棒球选手。到底应该依靠专家的观察还是定量数据呢?这是这两个领域的核心争议。
和评论家类似,棒球球探常常使用无法证伪的委婉说法,比如“他是真正的选手”或者“他是工具型球员”。
在《魔球》中,当奥克兰运动家队总经理比利·比恩(Billy Beane)想要买入杰里米·布朗(Jeremy Brown)时,数据和传统专业知识的冲突达到了顶点。比恩读过詹姆斯的文章,决定根据数字选秀。比恩喜欢杰里米·布朗,因为他的保送频率是大学球员中的。球探讨厌他,因为他很胖。一名运动家队球探嘲笑说,如果他穿着灯芯绒服装跑步,“他就会引发火灾”。球探认为,像他这种体型根本不可能在大联盟打球。比恩完全不在乎球员的外表。他的选秀准则是“我们不是卖牛仔裤的”。比恩只想赢得比赛。球探似乎想错了。在运动家队当年征召的新人中,布朗的进步是快的。2006年9月,他代表运动家队在大联盟首次出场,取得了0.300的打击率(上垒率为0.364)。
阿森费尔特和詹姆斯初宣传数字分析结果的方式具有惊人的相似性。和阿森费尔特类似,詹姆斯起初为他的份简报《棒球摘要》发布小广告(他将《棒球摘要》适度修饰成一本书)。年,他一共卖出了七十五份。阿森费尔特遭到《葡萄酒观察者》封杀。类似地,当詹姆斯请求分享数据时,他遭到了埃利亚斯体育中心的排斥。
不过,詹姆斯和阿森费尔特在其行业里永远留下了自己的印迹。《魔球》所记载的奥克兰运动家队的长期成功以及波士顿红袜队在西奥·爱泼斯坦(Theo Epstein)的数据管理下首夺世界大赛冠军的壮举都被归功于詹姆斯的持续影响。现在,即使是传统葡萄酒作家的预测也会考虑到天气因素,而且进行相对优化,这是对阿森费尔特所做贡献的无声致敬。
两个人都促成了分析团队的诞生,这些团队拥有自己的数据分析品牌。在詹姆斯的影响下,美国棒球研究协会得以成立。棒球数据分析现在甚至拥有了自己的名字,叫作赛伯计量学。2006年,在阿森费尔特的帮助下,《葡萄酒经济学期刊》得以创刊。现在,美国甚至有了一个葡萄酒经济学家协会。阿森费尔特不出意外地成为协会首任主席。顺便一提,事后看来,阿森费尔特初的预测非常准确。我查询了拉图庄园近的拍卖价格。显然,八九年葡萄酒的价格是八六年葡萄酒的两倍多,九零年葡萄酒的价格还要更高。听到了吗,罗伯特·帕克?
酒中的真相
本书的核心观点是,数据分析在葡萄酒和棒球领域的兴起不是孤立事件。实际上,葡萄酒和棒球的案例是本书核心主题的缩影。我们正处于马车和火车相互竞争的历史性时刻,我们的直觉和经验知识正在一次又一次地输给数据分析。过去,许多决策仅仅依赖于经验和直觉的某种结合。专家凭借几十年的个人试错经历获得了神圣地位。我们相信他们知道好的行事方式,因为他们之前做过几百次同样的事情。经验型专家的角色被保留下来,而且发展得很好。如果你想知道某件事情应该怎样做,你应该询问银发老人。
现在,一些事情正在发生变化。商业和政府专业人士正在越来越多地用数据库指导他们的决策。对冲基金的故事实际上是新一代数据分析师的故事——我称之为超级数据分析师——他们分析大型数据集,以便在看似无关的事物之间发现实证关联。想为大量购买欧元避险吗?事实上,你应该卖出由二十六种其他股票和商品精心搭配而成的投资组合,其中可能包括沃尔玛股票。
什么是超级数据分析?它是影响现实决策的统计分析。超级数据分析式预测通常是大小、速度和规模的某种组合。首先,从观测值的数量和变量的数量来看,数据集合通常很大。其次,分析的速度正在加快。我们常常可以看到与数据生成同时进行的数据分析。后,影响的规模有时是很大的。这不是几个书呆子在制造戏谑式的期刊文章。超级数据分析有些是由决策者执行的,有些是为决策者执行的,这些决策者希望寻找更好的行事方式。
当我说超级数据分析师在使用大型数据集合时,我指的是非常大的数据集。企业和政府的数据集合正在越来越多地用太字节甚至拍字节(一千太字节)衡量,而不是用兆(M)字节或吉(G)字节衡量。一太字节(terabyte)相当于一千吉字节。前缀tera来自希腊语,表示怪兽。一太字节的确十分庞大,像怪兽一样。整个国会图书馆大约有二十太字节文本。本书的一个目标是让大家开始习惯这个前缀。例如,沃尔玛数据库存放了超过570太字节数据。谷歌拥有大约四拍字节存储量,它在不断对其进行分析。太字节挖掘不是巴克·罗杰斯(Buck Rogers)的幻想——而是正在发生的事情。
在一个又一个领域,“直觉主义者”和传统专家正在对抗超级数据分析师。在医疗领域,关于“循证医学”的激烈争论可以归结为是否根据统计分析选择疗法。直觉主义者不会束手就擒。他们说,数据库永远无法体现出临床专家通过一生的经历培养出来的知识,回归永远无法和拥有二十年经验的急诊室护士相比,后者可以判断一个孩子看上去是否有问题。
我们往往认为,国际象棋大师加里·卡斯帕罗夫(Garry Kasparov)之所以输给深蓝计算机,是因为国际商用机器公司的软件更加聪明。那个软件实际上是一个为不同局面排序的大型数据库。计算机的速度很重要,但是决定性的是计算机访问七十万盘大师棋局数据库的能力。卡斯帕罗夫的直觉输给了基于数据的决策。
超级数据分析师不仅在入侵传统专家的地盘并取代他们,而且正在改变我们的生活。他们不仅在改变决策方式,而且正在改变决策本身。棒球球探之所以输给分析师,不仅仅是因为分析数据比搭乘飞机前往帕路卡维尔成本更低。主要的原因在于,数据分析得到的预测结果更加准确。当然,超级数据分析师和专家并不总是存在冲突。数据分析有时会证实传统观点。世界不是的,传统专家不会永远犯错,他们的表现至少比碰运气要好。不过,数据分析仍然可以引导决策者做出不同的决策。总体而言,这种决策比之前要好。
在一个又一个领域,统计分析在完全不同的信息之中发现了一些隐性关系。如果你是政客,希望知道谁有可能为你投票以及哪种拉票方式有可能成功,那么你不需要凭空猜测、遵循经验规则或者信任头发花白的传统主义者。相反,你可以从不同特性中梳理出越来越多的可测效应,从而更好地知道哪种拉票方式效果好。数据库搜索可以揭示出传统专家从未考虑过的内在因素。
在我们周围,基于数据的决策正在变得越来越多:
租车公司和保险商拒绝向信用分数不佳的人提供服务,因为数据挖掘显示,信用分数与较高的事故概率存在相关性。
? 现在,当航班取消时,航空公司会跳过常旅客,首先向那些有可能选择其他航空公司的旅客提供开放席位。当然,这些旅客是通过数据挖掘确认的。航空公司不是遵循先来后到原则,而是根据几十项与消费者有关的因素提供服务。
? “不让一个孩子掉队”法案要求学校采用由严格数据分析支持的教学方法。在其帮助下,教师花费高达45%的课堂时间培训孩子们通过标准化考试的方法。超级数据分析甚至使一些教师转向了每句台词得到编排和统计审查的课堂模式。
直觉主义者要当心了。本书将会讲述一系列超级数据分析的故事,向你介绍执行这些分析的人物。数字分析革命不仅与棒球甚至整个体育界有关。它关乎我们生活中的方方面面。很多时候,这种超级数据分析革命对消费者有利,因为它可以帮助商家和政府更好地预测谁需要什么东西。不过,在另一些时候,消费者需要面对以统计为武器的对手。数据分析会使普通人处于极为不利的境地,因为商家可以更好地预测他们能从我们身上榨取多少利润。
史蒂文·D.莱维特和斯蒂芬·J.都伯纳(Stephen J. Dubner)在《魔鬼经济学》中提到了几十个案例,展示了对于数据库的统计分析是如何揭示隐秘因果关系的。莱维特和约翰·多诺霍(John Donohue,他是我的合著者和朋友,你在后面还会听到他的名字)指出,1970年堕胎率和1990年犯罪率这两个看似无关的数字存在重要关联。不过,《魔鬼经济学》并没有过多地谈论定量分析对于现实决策的影响程度。与之相比,本书会谈论数据分析的影响。商业和其他领域的决策者正在以你从未想象过的方式使用统计分析,以进行各种选择。
全球各行各业都在围绕现代计算机的数据库容量进行升级。万斯·帕卡德(Vance Packard)的《隐形说客》等作品展示了人们在二十世纪五六十年代的预期(和恐惧)——由大政府和大公司实施的复杂的社会工程即将控制世界。现在,这个预期突然在这一代人心中复活了。过去,我们认为大政府可以通过指挥和控制解决人类所有问题。现在,我们看到,类似的事情正在以大规模数据网络的形式出现。
章 谁在替你思考?
推荐系统使我们的生活方便多了。想知道应该租借哪部电影录像吗?传统方法是询问好友,或者查看影评人是否给出了好评。
现在,人们会上网查看根据大众行为总结出的指南。其中,一些“偏好引擎”完全就是流行事物的清单。《纽约时报》列出了“被电子邮件转发多的文章”。iTunes列出了下载多的歌曲。美味标签列出了流行的互联网标签。这些简单的过滤器常常可以使网民锁定热门的事物。
一些推荐软件还不止于此,它们试图让你知道和你相似的人喜欢什么。亚马逊告诉你,购买《达芬奇密码》的人还购买了《圣血与圣杯》。网飞根据你过去推荐过的电影向你进行推荐。这是真正的“协同过滤”,因为你的电影评分帮助网飞向其他人进行更好的推荐,而他们的评分又帮助网飞对你做出更好的推荐。互联网是这种服务的完美载体,因为互联网零售商可以用很低的成本跟踪顾客行为,并且自动聚集、分析和展示这种信息,为随后的顾客服务。
当然,这些算法并非完美。沃尔玛需要向顾客道歉,因为当他们搜索《马丁·路德·金:我有一个梦想》时,网站向他们推荐了《决战猩球》系列光盘。类似地,亚马逊也会冒犯顾客。当顾客搜索“堕胎”时,网站会问“你是说领养吗?”亚马逊之所以自动生成领养的问题,是因为之前许多搜索堕胎的顾客也搜索了领养。
不过,在网上,协同过滤器对消费者和零售商来说仍然是一个巨大的福音。在网飞,近三分之二的出租电影是由网站推荐的。在网飞的五星评分系统中,和那些在推荐系统之外租借的电影相比,推荐电影的评分要高出一颗星。
电子邮件转发多的文章清单和畅销书榜单具有集中关注度的作用,而更具个性化的推荐则具有分散关注度的优点。网飞可以向不同的人推荐不同电影。因此,在该公司的五万部电影中,超过90%的电影至少每月都会得到租借。商家可以通过协同过滤器评估克里斯·安德森(Chris Anderson)所说的偏好分布的“长尾”。网飞推荐使其顾客出现在了过去很难被发现的小众市场利基之中。
同样的事情也发生在音乐领域。在潘多拉网站上,用户可以输入他们喜欢的一首歌曲或一个艺术家的名字。然后,网站几乎可以马上播放出一支又一支具有类似风格的歌曲。你喜欢辛迪·劳珀(Cyndi Lauper)和破嘴乐队吗?好,潘多拉会为你创建一个劳珀破嘴电台,用于播放这些歌手和其他类似歌手的歌曲。在每首歌播放时,你可以点击“我非常喜欢这首歌”或者“下次不要播放这种类型的歌曲了”,以便让软件更加了解你的喜好。
这个网站为我和我的孩子们提供了很好的服务。它不仅可以播放我们每个人都很喜爱的歌曲,而且找到了我们喜爱但却从未听说过的乐队的作品。例如,我告诉潘多拉,我喜欢布鲁斯·斯普林斯汀(Bruce Springsteen)。于是,它创建了一个电台,开始播放这位老大和其他著名歌手的音乐。不过,几首歌之后,我听到了一首极其悦耳的歌曲,那是基顿·西蒙斯(Keaton Simons)的《现在》(通过手边的快捷链接,你能轻松在iTunes或亚马逊上购买这首歌曲及其专辑)。这就是长尾效应,因为像我这样的书呆子永远不可能自己去搜索这个家伙的音乐。通过类似的偏好系统,Rhapsody.com的一百万首歌曲中超过90%的歌曲每个月都会得到播放。
MSNBC.com近添加了自己的“推荐故事”功能。它用插件跟踪你近阅读的十六篇文章,通过自动文本分析预测你想要阅读的新故事。在开启你的晨间阅读时,基于十六个故事的预测具有极高的准确度,而且有点令人尴尬。例如,它为我自动推荐了《美国偶像》的文章。
不过,芝加哥法律教授卡斯·桑斯坦(Cass Sunstein)担心对于长尾的利用会带来社会成本。这些个性化过滤器越成功,我们作为公民群体的共同经历就越少。麻省理工教授、媒体技术大师尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)在这些“个性化新闻”功能中看到了《我的日报》的苗头——这种新闻出版物只向公民提供与他们的狭隘预设偏好相匹配的信息。当然,新闻的自我过滤已经出现很长时间了。副总统切尼(Cheney)只看福布斯新闻电视台。拉尔夫·纳德(Ralph Nader)只阅读《琼斯母亲》。不同的是,现在,科技正在创造出极为强大的受众审查制度。Excite.com和Zatso.net等网站开始允许用户生成“我的报纸”和“个性化新闻播报”,其目标是创建一个“由你决定新闻”的世界。谷歌新闻允许你对新闻组进行个性化设置。电子邮件提醒和新闻推送允许你选择“这是我想要的新闻”。如果愿意,我们现在甚至可以完全摆脱我们不感兴趣的那些讨厌的社会问题新闻。
所有这些协同过滤器都属于詹姆斯·索罗维基(James Surowiecki)所说的“群体智慧”。在一些背景下,集体预测比群体中每个成员能够取得的预测更加准确。例如,想象你向一个大学班级中的学生悬赏100美元,让他们对罐子里的硬币数量进行估计。通过计算他们的平均估计值,你就可以得到群体智慧。事实反复证明,这个平均估计值很可能比任何个体估计值更加接近真值。一些人的猜测值太大,一些人的猜测值太小——但是较大和较小的估计值整体上往往会相互抵销,群体的预测常常优于个体。
在电视节目《谁想成为百万富翁》中,“询问观众”得到正确答案的概率超过90%(给某个朋友打电话得到正确答案的概率则不到三分之二)。协同过滤器是一种定制版的观众调查。和你类似的人可以非常准确地猜测出你喜欢什么类型的音乐或电影,偏好数据库是改善个人决策的有力途径。
回归方程帮你找到灵魂伴侣
有一波新的预测潮流,它对群体智慧的利用超越了有意识的偏好。eHarmony的兴起意味着人们通过超级数据分析发现了新的群体智慧。传统约会服务根据人们清晰表述的有意识偏好对他们进行拉拢和配对,eHarmony则试图弄清你是哪种人,然后根据数据将你和适合你的人相匹配。eHarmony考察巨大的信息数据库,以查看哪些性格类型的人可以成为幸福的夫妻。
eHarmony创始人和推动者尼尔·克拉克·沃伦(Neil Clark Warren)在20世纪90年代后期研究了超过五千名已婚人士。他申请了一项兼容预测统计模型专利,该模型基于与性情、社交风格、认知模式和交往技能相关的29个不同变量。
eHarmony的策略依赖于超级数据分析技术之母——回归。回归是一种统计程序,它根据原始历史数据估计各种因素对于单一相关变量的影响。在eHarmony的案例中,相关变量是一对夫妇可能具有的兼容性,各种因素则是夫妇每个人的29个情绪、社交和认知特点。
回归方法是查尔斯·达尔文(Charles Darwin)的亲戚弗朗西斯·高尔顿(Francis Galton)一百多年前提出的。早在1877年,高尔顿给出了个回归估计公式。还记得奥利·阿森费尔特预测葡萄酒品质的简单公式吗?这个公式就是通过回归得到的。高尔顿的个回归估计同样与农业有关。他得出了一个公式,用于根据亲代甜豌豆的种子大小预测子代甜豌豆的种子大小。高尔顿发现,大种子的后代往往比普通种子或小种子的后代大,但是没有它们的亲代那么大。
通过计算,高尔顿得出了另一个回归公式,发现了父亲和儿子身高的类似趋势。高个子父亲的儿子比一般人高,但是没有父亲那么高。在回归方程中,这意味着儿子身高的预测值是父亲的身高与某个小于一的因数的乘积。实际上,在高尔顿的估计中,儿子身高与平均身高的差值对应于父亲身高与平均身高差值的三分之二。
在计算父母和孩子智商关系的回归估计等式时,高尔顿再次发现了这种模式。聪明父母的孩子比一般人聪明,但是不像父母那么聪明。“回归”一词与回归方法本身没有任何关系。高尔顿之所以将这种方法称为回归,是因为他估计的个事物刚好表现出了这种趋势——即高尔顿所说的“向平庸回归”——我们现在称之为“向均值回归”。
回归可以得到与数据为匹配的方程。虽然回归方程是用历史数据估计出来的,但它可以用于预测未来发生的事情。高尔顿初的方程将种子和孩子的尺寸(身高)预测为亲代尺寸(身高)的函数。奥利·阿森费尔特的葡萄酒方程预测了温度和降水对于葡萄酒品质的影响。
eHarmony得出了预测偏好的公式。与网飞和亚马逊的偏好引擎不同,eHarmony回归试图用人们可能不知道或者无法表述的个性和性格特点将兼容的人匹配在一起。实际上,eHarmony可能将你与你从未想过可能喜欢的人相匹配。这是超越个体成员有意识选择的群体智慧,它可以看到在无意识的隐性层面发挥作用的事物。
eHarmony不是试图使用数据驱动型匹配的网站。Perfectmatch也在根据迈尔斯-布里格斯性格测试的修正版本进行用户匹配。20世纪40年代,伊莎贝尔·布里格斯·迈尔斯(Isabel Briggs Myers)和她的母亲凯瑟琳·布里格斯(Katharine Briggs)根据卡尔·荣格(Carl Jung)的性格类型理论设计了一种测试。迈尔斯-布里格斯测试将人们分成16个不同的基本类型。Perfectmatch用这种分类寻找之前结成持久关系概率的性格,将拥有这些性格的人相匹配。
True.com也不甘示弱,该网站收集客户的99个关系因子数据,将结果反馈到回归公式中,以计算任何两个成员之间的兼容指数得分。从本质上说,True.com可以让你知道你和其他任何人和谐相处的可能性。
这三项服务都在利用数据进行兼容性预测,但它们的结果存在显著区别。eHarmony坚持寻找与你非常类似的人。沃伦表示:“我们一直在研究如何寻找在智力、抱负、精力、精神、兴趣方面与你非常类似的人。这是一种相似性模型。”
相比之下,Perfectmatch和True.com则是在寻找互补性格。“不管是通过经验还是出于真心,我们所有人都知道,我们有时会被和我们不同的某人吸引,甚至可以更好地和他们相处,”执掌Perfectmatch的实证主义者佩珀·施瓦茨(Pepper Schwartz)说,“所以,迈尔斯-布里格斯测试的优点不仅在于性格,而且在于匹配方式。”
这种关于结果的分歧不是数据驱动型决策应该有的现象。数据应该可以判断更加匹配的人具有相似还是互补的特点。我们很难说清谁对谁错,因为这种分析及其依据的数据是严格保守的行业机密。任何人都可以从互联网上下载我的研究数据(关于出租车小费、反歧视行动和枪支管制的研究),但互联网约会服务匹配规则背后的数据则是有专属权的。
雅虎Personals[1]的开发者马克·汤普森(Mark Thompson)指出,将社会科学标准应用于市场是不切实际的。“同行评议制度在这里是行不通的,”汤普森说,“我们用两个月时间为雅虎开发了这个系统。我们几乎夜以继日地工作。我们对五万人进行了研究。”
另一方面,匹配网站也在开始争相证明自己的说法。True.com强调,它是由独立审计机构认证过方法的网站。曾是True.com首席心理学家的詹姆斯·胡兰(James Houran)对于eHarmony的数据声明尤其不屑一顾。“我甚至没有看到他们曾为测试进行研究的证据,”胡兰说,“如果你宣称你在做一些科学的事情……你需要通知学术圈。”
作为回应,eHarmony提供了一些证据,以表明其匹配系统的有效性。该网站赞助了一项哈里斯民调,证明eHarmony目前每天可以促成大约九十场婚礼(每年超过三万场)。这当然比没有要好,但它并不是很大的成功,因为该网站有五百多万会员,这意味着你所支付的50美元会员费使你走上红毯的概率只有大约1%。其他竞争者很快指出了这个婚姻数据的不足之处。雅虎的汤普森表示,即使你“去西夫韦商店转一转”,你找到未来配偶的概率也会更高。
eHarmony还表示,它有证据表明,它所促成的已婚伴侣生活更加和谐。该网站的研究人员2006年向美国心理协会展示了他们的结论,称在相似的时间长度里,通过eHarmony认识的已婚伴侣明显比通过其他途径认识的伴侣更加幸福。这项研究存在一些严重缺陷,但令我吃惊的是,大型匹配网站不仅在用数据开发算法,而且在用数据证明算法的合理性。
不过,这些服务的匹配算法不完全是由数据驱动的。所有服务至少部分依赖于客户的有意识偏好(不管这些偏好是不是兼容性的有效预测指标)。eHarmony允许客户区别对待潜在伴侣的种族。虽然它只是在迎合客户的愿望,但是这种存在种族歧视的匹配服务可能违反了南北战争以来禁止合同中存在种族歧视的法律。想一想吧。eHarmony是一家营利公司,它向黑人客户收取50美元费用,但却拒绝像对待一些白人客户那样对待他们(将他们与相同的人匹配)。如果一些顾客希望将餐厅里的一个区域作为“盎格鲁裔专属区”,餐厅因此拒绝让西裔顾客坐在这个区域,这家餐厅就会遇到很大的麻烦。
eHarmony拒绝匹配同性伴侣的做法惹出了更大的麻烦。创始人的妻子兼高级副总裁玛丽莲·沃伦(Marylyn Warren)宣称,“eHarmony是面向所有人的,我们不存在任何歧视。”这显然不是事实。即使计算机算法根据用户对436个问题的回答认定两位男士是兼容的,该网站也不会将他们匹配在一起。这是一个可悲的讽刺。不同于其他网站,eHarmony坚持认为相似的人是好的匹配。不过,在性别上,它却认为异性相吸。在排名前十的匹配网站中,eHarmony是不提供同性匹配的网站。
eHarmony为何如此与众不同?即使在同性婚姻合法的马萨诸塞州,该公司也拒男女同性恋客户进行匹配,这似乎与它所承认的帮助人们寻找持久满意婚姻伴侣的目标不符。沃伦自诩为“热情的基督徒”,多年来一直与詹姆斯·多布森(James Dobson)的专注家庭项目合作。不管统计算法结果如何,eHarmony只愿意促成某些特定类型的合法婚姻。实际上,由于算法没有公开,因此eHarmony有可能在标准规则之上做了手脚,以支持特定客户。
不过,这些匹配服务背后有一个共同的重要思想,那就是基于数据的决策不需要局限于大众的有意识偏好。相反,我们可以研究决策结果,从数据中梳理出导致成功的因素。本章谈论的就是简单的回归是如何通过改进预测改变决策的。回归方法可以分析数据集,揭示就连专业观察也无法发现的诱因。有时,专家感觉某项因素对于某个结果具有重要的决定作用,但回归方法会发现这项因素作用不大。
举一个有趣的例子。加特·桑德姆(Garth Sundem)在《极客逻辑》一书中通过回归创建了一个公式,用于预测名人婚姻的持续时间。(结果表明,谷歌搜索条目越多,婚姻的持续性就越差——尤其是当前几项谷歌搜索条目包含挑逗性照片时!)eHarmony、Perfectmatch和True.com也在做同样的事情,但他们的目的是盈利。这些服务正在参与一种新的超级数据分析竞争。这是一种正在进行的完全不同的游戏。
赌徒的痛点可以量化
劳氏和电路城等公司也在使用同样的统计匹配方法。电路城正在用超级数据分析方法挑选应聘者。雇主希望预测哪些应聘者能够专注于工作。与试图推测应聘者智商的传统能力测试不同,现代测试更加类似于eHarmony的问卷调查,试图评估应聘者的三个基本性格特征:责任心、亲和性和外向性。数据挖掘显示,这些性格特征比传统能力测试更能预测工人的生产力(尤其是产出)。芭芭拉·埃伦赖希(Barbara Ehrenreich)在明尼阿玻利斯沃尔玛做了一项就业测试,其中一项判断题是“每家公司都能容忍特立独行者”。她打了勾,结果答错了,这令她很吃惊。回归表明,认为沃尔玛适合特立独行者的人不适合在该公司工作,很容易离职。你可能认为,沃尔玛和其他雇主应该对其无聊透顶的工作做出调整,使其不那么乏味。不过,在单调工作具有合法性的世界里,经过统计验证的测试完全可以帮助人们寻找与工作岗位为匹配的员工。
挖掘隐性预测因素不只与挑选优秀应聘者有关。它也在帮助企业降低成本,尤其是滞销库存成本。善于预测需求的企业可以更好地预测哪些商品何时会短缺。同样重要的是,企业应该知道哪些商品何时不会短缺。公司可以通过超级数据分析实现适时采购,而不是承受大量库存闲置的成本。沃尔玛和塔吉特等公司正在努力做到不让自己拥有任何多余库存。“货架上的商品就是他们的全部库存,”天睿数据挖掘公司总经理斯科特·格瑙(Scott Gnau)说,“如果我买走六罐黄玉米,货架上只剩下了三罐,就会有人立即知道此事,并确保即将前来送货的卡车装上更多玉米。事实上,当你把商品放到卡车上时,零售商也在配送中心为卡车装货。”这些预测策略可以基于非常具体的未来需求。在2004年飓风伊凡袭击佛罗里达之前,沃尔玛已经开始向飓风路径上的门店紧急配送草莓玉米饼了。沃尔玛分析了飓风袭击区域的其他门店,认为人们在飓风到来时很喜欢黏乎乎的玉米饼,因为这种手抓食物不需要烹饪和冷藏。各公司正在参与“分析竞争”,希望在数据挖掘上胜过对手,率先发现并利用隐性盈利因素。
一些超级数据分析是在公司内部进行的,但天睿等专业公司可以存储和分析很大的数据集。其中,天睿管理的数据达到了太字节量级。65%的全球零售商正在使用天睿的服务,包括沃尔玛和杰西潘尼。超过70%的航空公司和40%的银行是天睿的客户。
太字节量级的数据分析有助于预测哪些顾客可能转投竞争对手的怀抱。大陆航空公司会对能提供盈利价值的顾客跟踪每一个可能提高叛逃概率的负面体验。当经历过糟糕旅行的顾客下次搭乘飞机时,数据挖掘程序会自动介入,向机组成员做出预先通知。曾担任大陆航空公司顾客关系管理总监的凯利·库克(Kelly Cook)向《太字节杂志》解释道,“近,在从达拉斯飞往休斯敦的班机上,一名服务员来到一位顾客身边,说,‘您想喝点什么?顺便一提,你昨天从芝加哥寄送的行李被我们弄丢了,我对此深表歉意。’结果,这位顾客很生气。”
联合包裹服务公司用更加复杂的算法预测顾客何时可能转投另一家运输公司。前面我们看到的用于葡萄酒和匹配的那种回归公式被用于预测顾客的忠诚度何时面临危机。在顾客转换门庭的念头出现之前,联合包裹服务公司就会采取行动。销售员会主动给顾客打电话,留住这位顾客,解决潜在问题,从而大大降低账面损失。
哈拉斯赌场可以极其精细地预测出在持续盈利的前提下应该从客户口袋中掏走多少钱。哈拉斯的“全奖”顾客用电子卡刷卡结账,因此哈拉斯可以获取这种顾客在每家哈拉斯赌场进行的每一场游戏的信息。哈拉斯可以实时了解每个玩家每手牌(或者每一注)的输赢金额。它将这些赌博数据与顾客年龄和所在地平均收入等信息结合在一起,所有这些都发生在数据库里。
哈拉斯用这些信息预测每个赌徒在输钱后仍然愿意下次前来光顾的输钱金额。它将这个神奇数字称为“痛点”。和之前一样,这个痛点是通过将顾客属性代入回归公式得到的。例如,谢莉(Shelly)是中上阶层社区的三十四岁白人女性,喜欢玩老虎机。根据系统预测,她每个晚上的赌博痛点是损失900美元。当谢莉玩老虎机时,如果数据库发现她的损失金额即将达到900美元,赌场就会派出“幸运大使”,把她从游戏中拉回来。
“你走进赌场,刷了卡,坐在老虎机前,”天睿公司的格瑙说,“当你接近痛点时,他们会走过来说,‘我发现您今天不太顺。我知道您喜欢我们的牛排店。现在,我想请您带着太太在我们这里用餐。’于是,顾客不再感到痛苦了。他会感到很愉快。”
对一些人来说,这种操作是一种尽量从顾客口袋中反复掏钱的邪恶科学。对另一些人来说,它是提高顾客满意度和忠诚度、确保顾客获得应有回报的科学。实际上,二者兼而有之。哈拉斯正在使这种具有成瘾性和毁灭性的经历变得更加愉快,对此我很担忧。不过,由于哈拉斯的痛点预测,顾客在离开时会变得更加快乐。
哈拉斯的收益定位策略正在被不同零售市场采纳。例如,天睿发现,它的一个航空公司客户根据常旅客每年的飞行距离为其提供福利,其中白金客户获得的福利多。不过,该航空公司并没有考虑到这些顾客带来了多少利润。他们没有分析机票是不是打折票,或者这些顾客是否通过呼叫客户服务为公司带来了额外成本。重要的是,他们没有计算乘客旅行路线的票价。在天睿根据这些盈亏因素进行数据分析后,航空公司发现,几乎所有白金旅客都没有为公司带来利润。天睿的斯科特·格瑙总结道,“所以,他们在鼓励人们做出不利于公司的举动。”
太字节数据挖掘的出现意味着免费午餐时代的终结。航空公司可以将福利定位于为其带来较大利润的顾客,而不是让这些顾客补贴利润较小的顾客。不过,消费者需要当心!在这个全新的世界里,当哈拉斯和大陆航空这样的公司将关注点投向顾客时,你应该感到担心。这很可能意味着你之前支付的费用太高了。航空公司正在学会为那些带来较大利润的顾客提供升舱和其他福利,而不是仅仅向飞行距离长的顾客提供福利。例如,格瑙解释说,当你不是在网上购票,而是通过客服中心购票时,航空公司可以收取更多费用,以“鼓励人们为公司带来更多利润”。
通过这种超级个体化的消费者划分,公司还可以提供明显对社会有利的个人化服务。先进的保险方案可以利用新的数据挖掘能力定义非常细致的消费者群体,比如三十岁以上、受过大学教育、信用分数超过一定水平、没有发生过事故的摩托车手。公司为每个小群体进行回归分析,以确定与该群体保险支出关系为密切的因素。公司可以对于这种得到极大扩展的因素集合进行超级数据分析,从而为那些传统上不可保险的消费者制定价格。
超级数据分析还孕育出了新的提取科学。数据挖掘使公司可以更好地预测个体化痛点,以制定个体化价格。如果你的走人价格比我高,公司就会根据数据挖掘的结果以某种方式向你收取更高的价格。在超级数据挖掘的世界里,消费者不能像以前那样心不在焉了,你不能因为其他人关注价格就认为公司对所有人一视同仁。公司正在制定越来越复杂的策略,以不同方式对待关注价格的人和不关注价格的人。
当公司比客户更理解客户
数据挖掘有时会使企业获得相对于消费者的决定性信息优势。你可能不太清楚你在预付汽油费用时可能在油箱里留下多少汽油,但赫兹公司在分析了太字节量级的销售数据后比你更加清楚这一点。辛格勒知道你超出“不限时段分钟数”或留下一些未用分钟数的概率。百思买知道你根据延保索赔的概率。百视达知道你延期返还录像带的概率。
在上述这些例子中,各公司不仅知道某种行为的总体概率,而且可以非常准确地预测每个消费者可能具有的行为。大规模数据挖掘的力量使人想到了《诗篇》139篇开头令人毛骨悚然的话语:
你寻找我,便知道我。
你知道我何时坐下,何时站起;你从远方感受我的思想。
你晓得我的外出和躺卧;你熟悉我的一切。
我们可能拥有自由意志,但数据挖掘会使企业变成像全能上帝一样的存在。实际上,通过超级数据挖掘,公司对你的行为预测有时比你自己的预测还要准确。
不过,对于公司可能占据的优势,我们可能只需要确保消费者知道数据挖掘的存在,而不是试图阻止统计分析。这些预测模型的出现意味着公司可能需要承担新的告知义务。通常,政府只要求公司向消费者告知他们的产品或服务(“日本制造”)。现在,公司对消费者的了解有时比消费者还要多。我们可以要求公司向消费者告知关于自身的信息。在你同意为汽油预付费用之前,如果安飞士租车告诉你,与你类似的人在还车时往往会留下超过三分之一的汽油,这对你可能有利——你会知道预付汽油的有效价格是每加仑四块钱。或者,当威瑞森的统计模型认为你在使用错误的电话方案时,他们可能需要通知你。
政府也可以对它的一些大型数据集合进行超级分析,以便向人民提供关于他们自身的信息。实际上,超级数据分析也许可以真正促进政府的改革。如今的国税局几乎遭到了所有人的唾弃。不过,国税局的海量信息可以为人们提供帮助,前提是它愿意分析并公布结果。如果人们将国税局看作有用信息的来源,世界会变成什么样呢?国税局可以告诉某家小企业,它的广告支出可能太多了。或者,国税局可以告诉某个人,平均而言,他这种收入水平的纳税人会做出更多的慈善捐助,或者在个人退休账户里存上更多的钱。哎,国税局甚至可以比较准确地估计出小企业(或者婚姻)的失败概率。实际上,据我所知,维萨卡已经在根据信用卡支出预测离婚概率了(以便更好地预测违约风险)。当然,所有这些与奥威尔笔下的世界有点类似。我可能不太希望收到国税局的通知,说我的婚姻面临风险。(我们稍后会考虑所有这些超级数据分析是否真的有价值。对私密问题进行准确预测的可能性并不意味着我们应该这样做。)不过,我可能至少希望有选择地让政府对我生活的各个方面做出预测。我们可以将国税局看作信息提供者,而不是单纯的收费者。我们甚至可以将国税局更名为“信息税收服务局”。
消费者的反击
即使没有政府的帮助,企业家也在为市场带来一些新的服务,这些服务将超级数据分析作为保护消费者的工具。这些公司通过数据分析对抗商家的大规模价格分析,以帮助消费者。在这方面,航空业是特别肥沃的土壤,因为航空公司正在使用日益复杂的定价计策——他们试图在数据库中找到每一个提高收益的机会。
猜猜某个消费者做了什么?奥伦·埃齐奥尼(Oren Etzioni)是华盛顿大学的计算机科学教授。在2002年一个命中注定的日子里,埃齐奥尼在坐飞机时发现,坐在他旁边的人以很低的价格购买了机票,而这仅仅是因为他购票的时间比较晚。埃齐奥尼很气愤。他让一个学生试着预测特定航线票价在不同购票时间的变化。仅凭少量数据,这个学生就可以比较准确地预测出消费者应该立即购票还是继续等待。
埃齐奥尼充分延申了这一思想。他的做法很好地体现了面向消费者的超级数据分析如何对抗商家的数据分析式价格操纵。他创建了旅行网站Farecast.com,用于搜索当前的价格。Farecast比其他价格搜索网站走得更远。它添加了一个箭头,箭头向上表示票价可能上升,箭头向下表示票价可能下降。这种关于票价涨跌可能性的预测是有价值的,因为消费者可以知道自己是否应该抓紧时间采取行动。
“我们的作用类似于天气预报,”Farecast总裁休·克林(Hugh Crean)说,“我们并没有预言能力,未来也不会获得预言能力。不过,我们真真正正地在一定程度上做了一款帮助消费者的旅行搜索服务。”坎布里奇市福雷斯特研究公司副总裁兼首席旅行分析师亨利·H.哈特维尔特(Henry H. Harteveldt)表示,Farecast试图充当信息处理领域的旅客代言人。“Farecast像股票经纪人一样提供指导,告诉你现在应该立即行动还是继续等待。”
这家公司(初名为哈姆雷特,其格言为“买还是不买”)基于严肃的超级数据分析。它在五太字节的数据库中记录了五百亿项价格数据,这些数据是从ITA软件公司购买的,后者是一家向旅行社、网站和电脑预订服务机构销售价格数据的公司。除了捷蓝航空和西南航空(二者不向ITA提供数据),Farecast拥有几乎所有大型航空公司的信息。通过观察其他航空公司在相同路线上对于另外两个竞争者价格变化的反应,Farecast可以间接解释甚至预测捷蓝航空和西南航空的定价。
Farecast每天更新115个不同因素,用于对每个市场做出新的预测。它不仅关注历史定价模式,而且关注可能影响机票供需的一系列变量——比如油价和天气。就连超级碗的参赛队伍也是一个有用变量。该网站将所有这些信息转化成箭头,箭头向上表示价格预计将会上升,箭头向下表示价格预计将会下降。“这有点像看芭蕾舞,”哈特维尔特说,我们看不到芭蕾舞演员多年来付出的辛苦、流过的汗水和经历的挫折。我们只是在大厅里观看他们在舞台上的优雅舞蹈。对于Farecast,我们看到的是舞台上的优雅舞蹈。我们看不到数据分析,我们也不太关心数据分析。”
Farecast负责对航空公司进行太字节量级数据分析。它使用的数据库和一些统计方法与航空公司用于榨取消费者的数据库和方法是相同的。不过,Farecast并不是通过分析数据帮助弱者的服务。
其他一些服务也在出现,它们分析大型数据集合,以预测价格。Zillow.com在几个月时间里成了访问量的房地产网站之一。Zillow对于超过670万项住房价格数据进行分析,以帮助买家和卖家为住房定价。
如果你能预测住宅的售价,为什么不能预测掌上电脑的售价呢?这正是埃森哲正在做的事情。埃森哲信息技术集团研究员拉伊德·加尼(Rayid Ghani)过去两年挖掘了五万次eBay(电子港湾)拍卖的数据,以预测PalmPilots和其他掌上电脑的终售价。他希望说服保险公司甚至eBay向卖家提供价格保护保险,以保证他们将会获得的价格。加尼解释说,“你在eBay上贴出一件宝贝。接着,如果你向我支付十美元,我就可以保证它至少卖上一千美元。如果卖不上,我会支付差价。”当然,拍卖竞标者也会对这些预测感兴趣。不久以后,你一定会在常去的门户网站上看到竞标预测网站,它可以告诉你应该现在竞标还是等待下一项物品。
有时,超级数据分析也在帮助消费者顺利度过每一天。Inrix的“灰尘网络”对于五十万商业车辆的速度数据进行分析,以预测交通堵塞。今天,大量商业出租车和货运车辆装备了全球定位系统,可以实时传输关于自身位置和行驶速度的数据。Inrix将这种交通流信息与天气、事故以及学校放学和摇滚音乐会散场时间等信息相结合,以提供从A点抵达B点快方式的即时建议。
同时,加尼也在利用超级数据分析进一步提升我们购物体验的个性化水平。不久以后,超市可能会要求我们在进店时刷积分卡——此时,超市会对我们之前的购物经历进行数据挖掘,预测我们的哪些食物存在短缺。加尼认为,未来某一天,超市将成为食品采购顾问,告诉我们需要购买什么,并为当天的购物之旅提供特价优惠。
良好数据分析的简单预测力量可以应用于人们反复做同一件事情的几乎所有活动。超级数据分析可以使商业交易中的某一方获得优势,但是这一方不一定是卖家。随着越来越多的数据日益免费开放,Farecast和Zillow等代表消费者的服务会挺身而出,对其进行分析。
让人信服的回归方程
这些服务不仅可以告诉你价格的涨跌趋势,而且可以告诉你他们对于估计值的信任程度。所以,消费者不仅可以通过Farecast知道票价将会下降,而且可以知道这种预测的正确率是80%。Farecast知道,它有时拥有充分的数据,但在另一些时候没有足够多的数据,无法做出非常准确的预测。所以,它不仅可以显示猜测,而且可以显示这种猜测的可信度。Farecast不仅可以告诉你可信度,而且可以为其进行资金担保。它可以向你提供10美元的“票价守护”保险,用于保证它所提供的机票价格在一周内有效。如果无效,Farecast会补上差价。
这种为预测提供置信水平的能力是回归方法突出的特征之一。统计回归不仅可以生成预测,而且可以指出预测的准确度。没错——回归可以告诉你预测有多准确。有时,历史数据不够充分,无法做出非常准确的预测,回归方法的结果会告诉你这一点。实际上,回归可以做得更好,它不仅可以告诉你回归方程的整体精确度,而且可以告诉你回归方程中每一项的影响估计值精确度。
所以,沃尔玛可以通过就业测试回归知道三件不同的事情。首先,它知道某个应聘者留在工作岗位上的时间长度。其次,它知道这种预测的精确度。应聘者的预计工作时间可能是三十个月,但回归也会显示出应聘者工作不到十五个月的概率。如果三十个月的预测相对准确,应聘者只工作十五个月的概率就会很小,但是如果预测不准确,这个概率可能会变大。许多人想知道是否可以真正信任回归预测。如果预测不准确(可能是因为数据不佳或不完整),回归首先就会告诉你不要依赖这种预测。你上次听到传统专家提到预测准确度是在什么时候?
后,回归输出可以告诉沃尔玛,它对回归方程每个部分影响的衡量准确度如何。沃尔玛不会公布回归公式的结果。不过,回归输出可能会告诉沃尔玛,认为“每家公司都能容忍特立独行者”的应聘者比不这样想的人工作时间短2.8个月。在应聘者其他特征保持不变的情况下,与这个具体问题相关的预测是工作时间减少2.8个月。回归输出甚至可以走得更远,得出“特立独行”应聘者工作时间更长的概率。根据2.8个月预测的准确性,这个概率即反向影响可能是2%或40%。回归会开启对于自身的验证程序。它会告诉你降水增长对于葡萄酒的影响,以及这种影响是否真的有效。
世界是个数据矿
和谷歌整合全球信息的目标相比,对于消费者记录、航班价格和库存的太字节挖掘显得不值一提。据说,谷歌有五拍字节的存储容量。这相当于5,000太字节(一千万亿字节)。乍一看,搜索引擎与数据挖掘似乎没有太大关系。谷歌为互联网上的所有词语制作了索引。如果你搜索“金橘”,谷歌会直接向你发送使用这个词语次数多的所有网页列表。不过,为了帮助你找到你真正想要的金橘页面,谷歌会使用各种超级数据分析方法。
谷歌开发了个性化搜索功能,用你过去的搜索历史更加精确地猜测你的想法。如果比尔·盖茨(Bill Gates)和玛莎·斯图尔特[2](Martha Stewart)分别搜索“黑莓”,那么盖茨很可能会在结果列表前面看到关于电子邮件设备的网页,而斯图尔特很可能会看到关于水果的网页。谷歌正在将这种个性化数据挖掘应用到它的几乎每一项功能中。新的谷歌网络加速器可以极大地提高互联网访问速度,这不是源于硬件或软件技术的某种突破,而是通过预测你接下来希望阅读的内容实现的。谷歌网络加速器不断从网络上预先提取网页。所以,当你阅读某篇文章的页时,谷歌已经在下载第二页和第三页了。在你明天早上启动浏览器之前,谷歌就可以通过简单的数据挖掘预测出你希望浏览的网站(提示:它们很可能是你在大多数日子里浏览过的网站)。
雅虎和微软正在这场分析竞争中拼命追赶谷歌的脚步。谷歌已经当之无愧地成了一个动词。坦率地说,谷歌极大地改善了我的生活,对此我很吃惊。不过,我们这些互联网用户并不是某个品牌的死忠。能猜测我们心理的搜索引擎可能会赢得我们的大部分流量。如果微软和雅虎能够想办法在数据分析方面超越谷歌,它们就会很快取代它的位置。超级数据分析的胜利者将会获得网络流量带来的利益。
“坏蛋”是可以分析出来的
谷歌所有超级数据分析的开山鼻祖是其引以为傲的页面评分。在包含“金橘”一词的所有网页中,如果与某个网页相链接的网页较多,谷歌就会为它评定较高的分数。对谷歌来说,指向页面的每个链接都是对于这个网页的某种投票。不是所有投票都具有同等分量。同页面评分较低的网页(没有其他网页与之相链接)相比,重要网页投出的票具有更大的权重。
谷歌发现,页面评分较高的网页更有可能包含用户想要寻找的信息。用户很难操纵自己的页面评分。仅仅创建一系列新网页并让它们链接到你的主页是没有用的,因为只有页面评分比较高的网页发出的链接才会产生影响,而创建一个让其他网站与自己相链接的网页又没有那么容易。
页面评分系统具有网民所说的“社交网络分析”形式。这是“牵连之罪”的典型案例。执法部门也可以将社交网络分析作为法庭工具,用于确认真正的坏蛋。
我本人就做过这种数据挖掘。
几年前,我的手机失窃了。我在互联网上下载了我的手机发出和收到的通话记录。这就是网络分析发挥作用的地方。在我切断通话服务之前,窃贼打了一百多通电话。不过,大多数发出和接收的通话只与少数几个电话号码有关。窃贼向一个电话号码呼叫了三十多次,这个电话号码也曾多次打到我的手机上。当我拨打这个号码时,语音信箱称,这是杰西卡(Jessica)的手机。通话次数排在第三位的号码是杰西卡母亲的(听到她的女儿曾与失窃电话通话,她很不安)。
不是所有号码都能带来线索。窃贼曾多次呼叫当地天气服务台。不过,当我第五次拨出电话时,对方说他会帮助我找回手机。他的确做到了。几小时后,他在麦当劳停车场把手机还给了我。只要知道坏蛋拨打过的电话号码,你就有可能弄清这个坏蛋是谁。实际上,人们正是以这种方式通过手机记录找到了杀死迈克尔·乔丹父亲的两个凶手。
美国还曾使用这种网络分析方法侦察恐怖分子。据《今日美国》报道,国家安全局从2001年起开始打造一个数据库,包含了两万亿次通话记录。这相当于几千太字节的信息。通过寻找“相关人士”的通话对象,国家安全局也许可以发现恐怖主义网络成员以及这个网络本身的结构。
就像我用电话记录模式确认偷走手机的坏蛋一样,瓦尔迪斯·克雷布斯(Valdis Krebs)对公共信息进行了网络分析,发现9·11劫机事件的所有十九名犯人与中情局在袭击前已经知道的两个基地组织成员相隔不到两个电子邮件或通话的距离。当然,事后发现这种模式要容易得多,但对于大概率坏蛋的识别可能足以使统计调查员走上正确的道路。
一个涉及6.4万太字节的问题是,我们能否从某个嫌疑犯入手,根据社交网络模式分析可靠确定即将发生的阴谋?五角大楼不会宣布其数据挖掘承包商——包括我们的朋友天睿——是否取得了成功,这可以理解。不过,我作为法庭经济学家侦察犯罪欺诈的经历使我抱有乐观态度。我相信,超级数据分析可能会为国家安全做出贡献。
寻找神奇数字
几年前,时任纽约市学校建设管理局检察长的彼得·波普(Peter Pope)给我打电话寻求帮助。在一项十年计划中,建设管理局每年花费大约十亿美元,用于改造纽约市的学校。许多学校严重失修,许多资金被用于“外层”工作——即屋顶和外部维修,以维持建筑物外表的完整性。纽约市曾长期被建筑腐败和竞标操纵的丑闻困扰,因此纽约州议会设置了检察长这一新职位,以终结过高的成本和浪费。
彼得刚刚从法律系毕业,希望制订一种完全不同的公共利益法律。确保建筑拍卖和合同变更通知公开透明并不像接手死刑案件或在法院进行辩论那样光鲜,但彼得希望确保数千名学生拥有像样的读书环境。他和他的团队几乎是在冒着生命危险工作。有组织的犯罪者并不希望有人插手进来,干涉他们的事情。当彼得到来时,一切都不同了。
彼得之所以给我打电话,是因为他发现,他的一些改造项目竞标存在一种特别的欺诈。他称之为“神奇数字”欺诈。
1992年夏,梅里斯建筑公司主要所有人埃利亚斯·梅里斯(Elias Meris)遭到国税局调查。在国税局从宽处理的承诺下,梅里斯同意戴上窃听器,提供关于竞标操纵欺诈的信息,这些信息涉及学校建设管理局员工和其他承包商。梅里斯暗中为检察官录下了他与高级项目官员约翰·德朗斯菲尔德(John Dransfield)和合同专员马克·帕克(Mark Parker)的对话。
合同专员负责在项目竞标会上依次打开承包商的密封标书,宣读承包商的报价。
在“神奇数字”欺诈中,行贿承包商提交的密封标书中写有他对于这个项目能够接受的价格。在标书公开仪式上,帕克会把不法承包商的标书放到后。他知道当前竞标价格,因此会读出只比这个价格低一点的虚假竞标价。这样一来,行贿者就会获胜,但他获得的报酬只比本应获胜的竞标者少一点点。接着,德朗斯菲尔德会用修正液篡改行贿者的标书——写上帕克宣读的数字。(如果真实竞标价低于不法行贿者能够接受的价格,合同专员就不会使用修正液,他会宣读不法行贿者写下的竞标价格。)在这种“神奇数字”欺诈中,只要不法行贿者能够接受的价格低于真实竞标价,他就可以赢得合同,而且会获得尽可能多的报酬。
经过调查,波普终发现了七家存在欺诈的承包公司,涉及十一个人。当你下次考虑改造位于纽约的住所时,你应该不会选择克里斯特加佐尼斯电力承包公司、GTS承包公司、巴泰克斯承包公司、美国建设管理公司、沃尔夫穆尼尔公司、西明斯法洛蒂科集团以及CZK建设公司。这七家公司通过“神奇数字”欺诈方法赢得了至少五十三次竞标项目,标的总额超过两千三百万美元。
波普发现了这些坏蛋,但他还是给我打了电话,以了解能否通过统计分析追查其他“神奇数字”欺诈现象。我们与拍卖大师彼得·克拉姆顿(Peter Cramton)以及年轻的天才研究生艾伦·英格拉姆(Alan Ingraham)合作,进行了回归运算,以考察特定合同专员是否存在欺诈。
这简直是大海捞针。我们不知道某个专员是否会对他的所有拍卖进行操纵。事情的关键是寻找和次低竞标价差距很小的拍卖。我们控制了其他一组变量,包括竞标人数、工程师拍卖前的成本估计以及拍卖中第三低的竞标价,然后进行了统计回归。艾伦·英格拉姆发现了另外两个合同专员。在他们主持的所有拍卖中,获胜竞标价和次低竞标价的差距极小。在不知道合同专员姓名的情况下(检察长的数据仅用编号来表示他们),我们就为检察长的工作指明了新的方向。艾伦将这项工作转化成了博士论文的两个章节。检查长的调查结果是保密的,但彼得很欣赏我们的工作。他在今年早些时候向我道谢,说我帮助他们抓到了另外两个骗子。
这个“神奇数字”的故事展示了超级数据分析是如何揭示过去的。超级数据分析还可以预测你未来的需要和行动。eHarmony、哈拉斯、神奇数字和Farecast的故事共同表明,回归已经跨越了学术边界,正在被用于预测各种事情。
回归公式具有“即插即用”的特点——只要插入指定参数,就会得到预测结果。当然,不是所有预测都具有同等价值。河流不会高于源头,回归预测也不可能克服数据不足的问题。如果你的数据集合太小,任何回归都不会给出非常准确的预测。不过,不同于直觉主义者,回归知道自己的局限,可以回答郭德华(Ed Koch)很久以前的竞选问题“我做得怎么样”。
|
|