微信号:bigdatalab

介绍:宽客俱乐部旗下美国大数据实验室,大数据研究应用.

天生统计学家:人脑中的贝叶斯推理

2016-04-21 07:57 大数据实验室

01


一项曾被忽略的统计技术,

或许能够揭示人脑的工作原理


科学,免不了像其他人类活动一样,也要赶时髦。英国神职人员托马斯·贝叶斯(Thomas Bayes)(1702-1761)是最早一拨儿研究概率的数学家之一。他的理论让人仅凭少许例子就可预期未来事件,可算风靡一时,神奇的是,其内容相当超前,到现在也没怎么变动。但到后来,另外一拨儿人占据了上风。这拨儿人的理论基础是从总体中抽取的样本,然后通过样本来对总体的情况进行推论。他们的理论可以用来预测选举结果、还有消费者喜欢哪个牌子的巧克力棒这档事儿。


十年河东,十年河西。近年来,贝叶斯当年的想法又枯木逢春,受到计算机科学家的青睐。他们想通过贝叶斯定理来设计模拟人类思维的软件。如今,贝叶斯推理早已是搜索引擎以及“帮助向导(help wizards)”等等的核心。紧随计算机科学家的脚步,心理学家们也在琢磨,人脑是不是本身正是按照贝叶斯定理在工作呢?他们说,贝叶斯定理让人可以基于很少的数据就做出很强的推论,这种能力对于人们认识丰富多彩的世界来说十分关键。人们做计划、学语言、推因果,甚至还有察言观色、推己及人等等能力,都离不开贝叶斯过程。


心理学家不是空想家,他们开始实验室里做实验,来看人们在日常生活中到底是不是按照贝叶斯原理在思考。当时还在布朗大学的托马斯·格里菲斯与麻省理工学院的乔舒亚·田纳鲍姆(Joshua Tenenbaum)在《心理学科》(Psychological Science)发了一篇文章,文章里写到他们一项跨时代的研究,用贝叶斯定理编成的电脑,轻而易举地通过了日常测试。



02



先验概率分布


要成功进行贝叶斯推理,关键不在于搜集大量无偏样本,而在于头脑中有恰当的先验概率(prior)。先验概率是人们对世界是怎样的的假设,可以表示为强度不同的各种事件(事件强度是概率分布的横坐标)发生的概率分布。


先验概率分布种类繁多。世上最著名的概率分布莫过于高斯分布(Gaussian distribution),或者说,正态分布。正态分布是一种对称的钟形曲线,强度处于中间的事件发生的频率最高,而两端的事件发生频率低。除此之外,还有泊松分布(Poisson distribution)、厄兰分布(the Erlang distribution)、幂律分布(the power-law distribution)或者其他不能用简单数学形式表达的更诡异的分布。




一旦先验概率正确,就算只有一点点数据输入,也可以做出相当准确的贝叶斯预测。搞“总体-样本”那一套的人,他们对特定情景下适用的概率分布所做的假设更少,因此,他们的方法更稳健( robust), 但缺点是不能基于十分有限的数据来做决策。而人们往往正是需要在信息不足的情况下做出决策。



03



人脑中的先验概率


人们头脑中可是充斥着各种事件的先验概率的。你信吗?


格里菲斯博士和田纳鲍姆博士将会说服你。


他们在实验中只给被试者一点点信息,就让他们得出一些结论。比如,他们告诉被试者电影上映以来的票房,但不告诉他们已经上映多久了,要被试估计最后的总票房;告诉被试现在读到的是诗歌的第几行,要他们估计诗一共有几行;告诉被试蛋糕已经进烤箱多久了,要他们估计一共要烤多长时间;告诉被试议员已经上任的时间,要他们估计一共在任时间;等等。这些事儿都有为人所知的概率分布,而被试的估计正好服从这些事件的实际分布。


实验结果只有两个例外。


一个例外是,52%左右的人在得知两个人结婚的时长后,便预测他们会白头偕老。100%减去这个数字,与美国社会的离婚率(48%左右)非常符合,但是“永远”却不是准确的表达,因为伴侣中的一方还可能死亡,出于情感而非理性,人们不愿意虑到这一点。于是,格里菲斯博士和田纳鲍姆博士抛弃了这组数据。另一个例外是21世纪的美国人不太熟悉的事儿——公元前四世纪的法老的在位时间。人们往往会高估这个时间,但是他们估计的时间服从厄兰分布 ,所以分布的类型仍然是正确的!只不过具体的参数错了罢了,因为他们没有考虑到古埃及政治状况的险恶和保健水平的糟糕。而对于同样服从厄兰分布的美国议员在位时间,他们的估计是准确的。


两位博士向我们揭示了一个惊人的事实,那便是人脑中储存得有各种各样的先验概率分布。除了厄兰分布外,人们头脑中还有正态分布、幂律分布,以及复杂的、无规律的分布(在烤蛋糕的例子中)。并且,人们对这些分布是一样拿手的,包括烤蛋糕。有趣的是,以前数学家们以为排队等公用电话的时间服从泊松分布,后来,他们发现这个时间实际上服从幂律分布。而两位博士的被试们并非数学家,可他们头脑中对等电话时间的分布本来就是正确的幂律分布!


人脑中种种先验概率是怎么来的,心理学家们尚不完全知晓。显然,这是人们学来的,但怎么学的,还不清楚。并且,贝叶斯推理也不是万能的。有时候,因为贝叶斯推理的“吝啬性”,人们很可能形成错误的先验概率,而不是正确的先验概率分布。贝叶斯原理或许也可以解释迷信的形成,两件本来无关的事儿,被人脑偶然以为有因果关系。按总体-样本的思考方法,人们不太会形成迷信,因为他们需要更多的证据。但另一方面,按照这种思考方法而不是经济的贝叶斯推理,人们恐怕还没推理出什么东西,就可能已经死了。



来源:ChoirOfTheStars

作者:托马斯·格里菲斯(Thomas Griffith)

译者:孟圆





只有盈利,没有亏损——跟炒单教父学短线日内交易!

课程时间:2016年05月14日-18日(2+3)

课程地点:上海

5天课程内容:(2天理论方法+3天实盘指导)


咨询电话/微信:13061694649


 
大数据实验室 更多文章 用户画像数据建模方法 李光斗:警方是如何利用大数据抓到王全安的 降楼价,新加坡居然靠的是无人驾驶! 小数法则和经验主义 什么性格的人适合 Quant 这个职位?能否描述一下 Quant 一天的生活是怎样的?
猜您喜欢 细节决定成败!文章排版设计的3个小技巧 腾讯发布2015中国网络安全生态报告 程序猿使用高端算法找妹子的方法 三天学会Python(第二天) 关于大型网站技术演进的思考(九)--网站静态化处理--总述(1)