2012年12月5日星期三

Nate Silver:傻瓜,数据才是重点

Carole Cadwalladr

Nate Silver是政治圈里的超级新星——(政治圈里少有的)言之有物的人。长久以来,美国的政治评论界重要的标准是拥有(合适的)发型,(洁白的)牙齿或者符合右派(保守派)的观点。Silver完全不符合这些前提条件,他有的只是数据,许许多多的数据, 然而这些数据在总统大选之夜被证实了是政治评论里最重要的环节。

投票前,本次总统选举一直被认为因为选情太接近而无法预计哪方会获胜,许多评论员强调无论是奥巴马还是罗姆尼都有获胜的可能。(人们预计本次选举)两位候选人得得票率将是不相上下,只可惜事实并非如此,奥巴马和罗姆尼完全不是旗鼓相当。然而,这选举结果正如Nate Silver几个月来的预测。在投票当天,他预测奥巴马将有90.9%的获得大多数选举人票,如果按州计算,他准确预测了所有州的选举结果。

 “你们知道谁是今晚(选举开票夜)的赢家吗?”MSNBC新闻主播自问自答,“是Nate Silver。”

Twitter和博客界都热闹翻了。Nate Silver的处女作品《信号与杂音:预测学的艺术与科学》的销售量一夜之间增长了八倍并排到了畅销榜的第二位。媒体一致认为本次大选预测的成功并不仅是Nate Silver个人的胜利,还使所有书呆子们扬眉吐气了。Nate凭着他的数学模型单枪匹马得打败了一整个政治阶级——时政记者,政党媒体顾问,雇佣文人以及政治评论员。

Nate Silver一点也不像炙手可热的电视新星或华盛顿邮报说的言论界新宠,今年三十四岁的他反倒更像是超人变身前的形象——谦逊而不招摇。当他低着头拖着步子走近屋里,他的神情仿佛是对自己被采访而感到尴尬。

可怜的Nate, 人们对他寄以厚望。“一切像疯了一样”,他推了推眼镜架说,而然他并不认为(人们的狂热)与他关联重大,“我仿佛成了这(数据学)象征性力量的代表,然而人们对我所做事情的推崇远超了我所应得的。我必须首先说明大家应该要兼听则明,而不是把某个人的意见当成神谕。”

然而,这忠告似乎来的有点晚了。大选的第二天当他出现在Joh Stewart主持的每日秀节目时,Jon Stewart把他奉为“算法之神”。如果换了别的场合,如果Nate Silver的性格更自大一些,这些赞誉也许会显得太过了。但他的成功故事同时也是个哀兵必胜的故事。选举前的数周,他的批评者们(大多数是不满他预测奥巴马将获胜的保守派们)对他的预测方法和人身对进行了攻击。 UnSkewedPolls.com的Dean Chambers召集人们抵制Nate Silver的“巫术数据“,宣称他神志不清并嘲讽他是个声音阴柔身高有限瘦弱的娘娘娘腔。

这些批判里充斥的不仅是反同性恋的歧视(Silver本人是同性恋),还有保守派所特有的对科学理性主意的反感。(Gawker把这些对Silver的攻击比作学校里的体育健将打翻一个孩子手中的数学书并喊“数学不错,娘娘腔。”

不过从某些角度来说,人们的奉承似乎更难以应付。“这(奉承)的确使我感到紧张,因为我确定我们将会出错的。”这里的“我们”还包括了他在2007年设立的提供以数据为主的时政分析博客五百三十八(因538张选举人票总数得名)。2010年,他把博客转移到了美国新闻的圣殿《纽约时报》的网站上 。

这使得他更加像Clark Kent(超人未变身前的身份)了。我们的采访是在拥有无敌天际线视角的超级豪华炫目的《纽约时报》曼哈顿办公楼里进行,而Sliver界面简陋的博客确在在选举前的为时报网站带来了两成的浏览量——也许(拥有超人系列漫画版权的)DC Comics公司上个月决定超人(在漫画出版七十多年后)将离职《每日星球》报社而另创博客并不仅仅是个巧合。

如果说Silver不是海量数据超人,那么他至少确信无疑的是个超级极客,极客界的偶像级人物。他一人证明了大多数时政评论对于寻求真相其就有效性而言与严刑逼供无疑。

Silver一直是数据的爱好者。“我一直都有点呆。”成长在密歇根州的东兰欣市,他家乡的棒球队底特律猛虎在他六岁的时候赢得了美国职业棒球全国锦标赛的冠军,而他也是在那个时候接触了各种统计数据并爱上了数据。

从芝加哥大学获得经济学学位后,他在毕马威当了四年顾问,接着,他开始迷上了网络扑克。那时候许多人玩网络扑克的人对扑克并没有很多了解,而他却能从他们手中赢得的钱足够让他辞掉工作靠玩扑克养活自己。

扑克就像Silver生命中的指南针,不仅教会了他什么事机遇并使得他明白机遇在人生中扮演怎样的角色。“玩扑克于我而言是最好的训练,我从中学会了怎样衡量新信息的作用,怎样辨别信息的重要性。我们的直觉在分析信息方面并不是十分在行,我们总是倾向于过度估计新信息的重要性。”

“技巧和运气间存在着微妙而又模糊的关联。赢钱的时候是因为牌技好还是运气好?你永远也不知道。”Silver估算他自己当时从网络博彩中赢了有大概四十万美元,这些钱足够他去追求他的另一项爱好——棒球。棒球这项体育运动正在不断地改变中,而Silver是少数最早发现这项运动的潜在的数据导向的可能性的人。他设立的以建模分析预测MLB棒球运动员职业前景的Pecota网站,后来他又把这网站卖给了Baseball Prospectus。

棒球预测就像一场保守的童子军与善于分析数据的新来者之间的斗争,这场斗争后来被Michael Lewis以畅销书《Moneyball》的形式记录了下来,其后Brad Pitt主演了同名电影。2007年左右,Silver开始寻找新的契机。

“我当时在寻找像棒球分析那样的,有庞大的数据库而且鲜有竞争者的新领域,就在那个时候我找到了政治分析这个领域。”起初,他决意隐姓埋名使用Poblano这个笔名。几个月后,他对外公开了他的身份。

Silver觉得自己当时将以有的数据套用贝叶斯理论用以分析使得他(在和其他政治分析人士相比时)“小有优势”。美国政治原本就充斥着许多数据,而他所使用的贝叶斯理论(正如他的批评者迅速指出的那样)也不是什么尖端科技。英国神父贝叶斯于十八世纪初发现了计算有条件的事件发生可能性的贝叶斯理论。

Silver十分同意他批评者的观点——他甚至不是唯一一个使用贝叶斯理论分析选情的人,而且他们的预测也有不错的准确度。就其属性来说,政治分析不过是平平无奇的数据分析,Silver不过是综合已有的民调结果。然而,Silver建模分析的关键确是在于如何衡量某一数据的重要性。这些数据在历史上有何作用,又怎样的偏向性,还有什么别的信息可以借鉴?

Silver的选情分析在极度精妙的美国政治评论圈却是前所未有的准确,即使算上英国的政治评论圈也一样是极其罕见。英国这的政治评论圈里没有美国那样丰富的民调数据,选举预测也许也不那么准确,但这并没有阻止《每日电讯报》的Janet Daley凑美国大选的预测的热闹。投票当天,她预测罗姆尼将获胜,而她的理由是奥巴马的竞选活动感觉不太像赢家。其他的政治评论员则有预感罗姆尼有微弱的优势。Silver认为和这些竞争者相比,要稍微做得不那么平庸并不算太难。

“数据并不完美,但于我而言,选择在于数据的不完美或者糊话连篇。人们总说‘你没法给感觉赋值’,但除此外又有怎样的选择呢?坐在乔治敦的鸡尾酒晚会上吹嘘我比托莱多,俄亥俄参加了民意调查的选民更清楚他们最后将怎样投票??这种做法实在是非常自以为是。事实胜于雄辩。如果他们侥幸猜对了,那将另当别论,但事实上他们错了,他们一直错的挺离谱的。”

Silver没有出现在乔治敦的酒会上,他也不见说客,党派媒体顾问,竞选经理及新闻发言人之类的人。简而言之,他不是体制中人。美英两国的政治报导就像一个类似垄断集团的系统。在英国,政治圈里弥漫的这种狼狈为奸的氛围是在议员报销丑闻后才受到质疑,而这丑闻则是政治圈外的记者最早曝光的。在美国,政治氛围则是如Silver所说的“交易般的”。

 “如果你(在体制中)表现良好,偶尔你会得到独家消息,但这不过是许多既得利益间的游戏。我尽量回避和两边的竞选团队打交道,因为他们所给的信息很多都是(无效的)杂音。”

有趣的是竞选团队本身也清楚数据的重要性,尤其是奥巴马的团队,他们请了位“首席科学家”。据奥巴马团队的竞选经理JimMessina介绍,他们的目标是“量化一切”,数据告知他们应当关注那些选民及如何吸引他们。

由此看来,Silver所擅长的(数据分析)对于竞选活动而言不仅是实质意义而且是至关紧要的。当所支持的候选人获胜的时候,自由媒体也许并没在意(数据分析的作用),但下次大选来临的时候他们会意识到的。因为这是相当于军事级别的倾向式报导,像无人战斗机投掷炮弹一样精确到个人,整个政治圈只能坐以待毙。

《极客宣言》的英国作者Mark Henderson在他的博客中写到Silver蒸蒸日上的声望是对许多媒体的反科学倾向的狠狠回击。举个例子,“在过去的两年中,Melanie Phillips(记者,保守派作家)上Qustion Time(BBC的旗舰时政节目)的次数比所有科学家的次数加起来还要多。”

Silver的背景和(他分析时所采用的)方法论使他从所谓的因经常上时政节目而为观众所认识“500名人党”中脱颖而出。 Silver相信最糟糕的“群体思考”来自Twitter对一小群人自我引用的意见的放大及扭曲。他以总统候选人辩论为例,“‘常规看法’在总统辩论过程迅速被确定。第一场大选辩论的时候我不过是晚了15分钟,当我到家的时候,该场辩论的结果已经被决定了。”

事实上,Silver口中的“呆”才是他的神奇之处。“我总觉得自己是个局外人,我身边总有朋友,可是我总是有不合群的观点。我觉得这点很重要。如果你从小就是同性恋,又或者你成长在一个相信不可知论且多数成员笃信宗教的家庭,那么从最开始的时候你就已经是等于在说你不相信社会的主流信念。”

到底是同性恋者还是极客的身份让你觉得自己是个不合群的人?“可能还是从六岁那年开始对数据的热情使我开始有这种感觉。”

Silver开始担心许多东西:他的声望意味着往后的选举预测将不仅仅是预测,还将影响选情。此外,他还将失去他旁观者清的优势。“(名声)使我获得各种机遇,大过年我不希望自己被(体制)侵蚀或者淹没在体制内。”

他正在寻找下个成熟的果实——一个拥有许多数据(可供分析)却没有太多竞争对手的领域。经济新闻分析在他看来已经时机成熟,而地方政府选举则是“难以预测”。几年前他曾经对纽约的社区进行过分析——你可以通过自己所关注的因素(绿化空间,优质教育资源)结合从市长办公室获得的数据得到个性化的居住社区选择分析。

Silver在成功预测了2008年选举结果后签下了一份价值七十万美元的出版合约,他在书的序言里坦言出版社签约的原因是希望他能写出一本“书呆子们出头日”之类的书。然而在那时,没有人能预料到他将会有多大的成就。不过,那时候就连Silver也不知道这本书会怎样进展。

“我当时认为这本书会像是告诉人们出租车司机怎么工作和选择客人或者像是介绍网络婚介网站怎样运作之类的。这本书里的确也有这些成分,但是更多的是介绍这当中的哲学原理。这本书是关于客观性和现实的主观性的交汇。当我们面对众多数据的时候,多数情况下我们处理得很糟糕。拥有更多的信息并不意味着我们能更好地预测。”

在这本书中,Silver评价了我们事实上非常擅长预测的事物(天气),我们特别不擅长预测的事物(股票价格),以及我们可以预测但却忽视了的事物(恐怖袭击)。

早些时候,在和Silver见面前,我见了《黑天鹅》的作者Nassim Nicholas Taleb。出版于2007年的《黑天鹅》声称我们现有的世界已经复杂得超出了我们的理解能力,经济危机的发生不过是时间的问题。我问他对Nate Silver有何看法。“他是真正的天才,他所做的事情绝对是有价值的。”

当我告诉Silver(Nassim对他的赞赏)的时候他感到很高兴。我不知道是《黑天鹅》中的比喻或者是站在《纽约时报》大楼令人眩晕的落地窗前的原因,当晚,在我读到Silver书中关于恐怖主义的章节时,我感到有些诡异。

他在911之前就预料到恐怖袭击的发生,通过双对数标度分析,他认为造成(如911般)重大伤亡的暴行事实上并不是无法想象的,而且这类事情极可能发生在我们所处的时代,这并不罕见。此外,从数学的角度说,还将有一场可能造成成千上万伤亡的袭击发生。

我希望这不是Silver的黑天鹅瞬间而只是我在庸人自扰——用偏向性的数据得到偏向性的结论。Silver使我们认识到人类的判断是不可靠的。华尔街的交易员们都是投机者,政治评论家们通常毫无头绪,经济预测则都是虚构之物。

但从另一方面来说,我们发现预测选举其实相当容易,你只需要是幸运或者很在行。或者像Nate那样即幸运又在行。

没有评论:

发表评论