微信号:hzdashuju

介绍:大数据蕴藏着丰富的信息和价值,如何处理好大数据并发掘其潜藏的商业价值,这是大数据时代的新挑战.我们将为大家提供与大数据相关的最新技术和资讯.

张学友是“逃犯克星”?贝叶斯公式告诉你真相

2018-10-10 21:00 老喻在加


导读:为什么张学友的每场演唱会都有逃犯落网?是“热心歌神张先生”真的有天生神力,还是有科学依据?


作者:老喻在加

来源:孤独大脑(ID:lonelybrain)




01

为什么张学友的每场演唱会都有逃犯落网?


先看看“学友·经典世界巡回演唱会”的“显赫战功”:


  • 4月7日南昌站首个逃犯在现场落网。

  • 5月5日赣州演唱会开场安检的过程中,警方通过人脸识别技术,成功抓获一名网上逃犯。

  • 5月20日嘉兴演唱会安检时,发现逃犯一名,随后被警方逮捕。

  • 6月9日金华演唱会,两名逃犯落网。

  • 7月6日呼和浩特,警方抓获冒雨前来观看演唱会的全国在逃人员王某某。

  • 7月8日洛阳演唱会,早在5月份就期待满满的洛阳警方成功拿下“七杀”。

  • 9月21日遂宁演唱会,第一场就抓到了10余名违法犯罪人员。

  • 9月28日石家庄演唱会,现场三名逃犯落网。

  • 9月30日咸阳警方成功抓获5名逃犯。


几乎每场演唱会都会有逃犯落网,“歌神”张学友怎样看待自己“逃犯克星”的称号呢?



连续九场,场场有逃犯被抓,真实的原因到底是什么呢?



02


先让我们跳开,来看一个影院中的贝叶斯推理。


(下面案例的英文出处:Brandon Rohrer)



你前往影院排队观影,前面有个小伙伴,长发披肩,衣着中性,如上图,请问Ta是女士的概率有多大?


情况A



我在生命、宇宙以及任何事情的终极答案中介绍过类似的计算方法。


如上图,是一种视觉化的贝叶斯计算法,在《统计学关我什么事》一书中有详细解释。


请注意上面绿色和黄色两个长方形:


  1. “面积”的概念在贝叶斯概率的计算中,起着重要的作用。

  2. 事件的可能性,由绿色和黄色两种构成。二者各自的概率,体现为长方形的宽度。例如上图中,是假设男女比例是1:1。

  3. 长方形的高度,是指“可能世界”的可能构成。例如上图,绿色长方形指女性的可能世界,进而该可能世界,是由“一半长发+一半短发”的假设比例构成。


了解了面积法,开始计算,步骤如下:


  • 第一步:首先假定影院中男女各占一半,100个人中,50个男人,50个女人。贝叶斯计算的特点,就是可以主观预测,毛估估一下。

  • 第二步:假设女人中,一半为长发,余下的25人为短发。而男人中,48位为短发,两位为长发。这同样是基于常识和主观预测的毛估估。

  • 第三步:由此可以计算,有25个长发女人和2位长发男人。

  • 第四步:所以,Ta是女士的可能性为“25/(25+2)=92.6%”。


情况B


现在让我们增加一个新的信息,你现在排队是在准备进入男士休息室。依靠这个额外的信息,仅采用常识和背景知识即可完成判断Ta更可能是男性,无需思考。


但是,贝叶斯推理则能以数学实现形式,做出更加精确的预测。


其意义在于,在某些你无法很简单靠常识和直觉来做出量化判断的时候,你就需要精确的算法了。所以让我们继续用贝叶斯来计算如下:



如上图,还是采用面积计算法我们开始推理:


  • 第一步:100个人在男士休息室外排队,我们主观猜测毛估估一下,其中98名为男士,有2位陪同的女士。如上图中的绿色长方形,因为女性极少,所以该长方形很“瘦”。

  • 第二步:假设女人中,一半为长发,一半为短发。而男人中每50人里有两位为长发。和上面的情形一样,这同样是基于常识和主观预测的毛估估。我们注意到,尽管男性长发的比例很低,但是由于人群基数较大,所以下面计算男性长发人数的(深黄色那个)长方形很“胖”,有4个之多。

  • 第三步:按照以上的假设,短发男士有94人,长发为4人。而两位女士则一个长发一个短发。即,长发人士里有4男1女。

  • 第四步:Ta是女士的可能性为20%。


这里涉及了两个个关于概率的概念:


1. 先验概率。是指根据以往经验和分析得到的概率,它往往作为"由因求果"问题中的"因"出现的概率。


例如上面长头发是男是女的案例里,开始根据常识,假设人群整体性别比例为1:1。


2. 后验概率。是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。


由于知道了是在男士休息室前的排队,根据此信息,将人群男女比例调整为98:2。


该过程称为“贝叶斯推理”。贝叶斯推理可以总结为:通过观察行动(信息),将先验概率通过贝叶斯更新,转换为后验概率。


贝叶斯算法之所以在人工智能时代大放异彩,是因为其具有学习功能。贝叶斯推理中,修改过的“各个类别的后验概率”,已经使用了所有的信息。也就是说我们可以将其看作“从信息中学习到的结果”。贝叶斯推理正是具备了“收集信息并自动变聪明”的功能。



03


张学友演唱会抓逃犯,和贝叶斯计算有什么关系呢?


最近几年,摄像头、人脸识别、联网技术大规模使用,是导致逃犯被抓的首因。


简单来说,每个演唱会抓到逃犯的比例应该是比较接近的。张学友的演唱会有何不同呢?



不全面分析如下:


原因1:张学友的男性歌迷较多。


从抓捕照片看,基本为男性逃犯,好像只有一位女性。


因为男性人群的基数更大,所以张学友演唱会上出现逃犯的概率更大。


原因2:演唱会规模较大。


因为整体人数基数越大,男性歌迷人数更多,有逃犯的可能性越大。


原因3:年龄段分布较广。


原因4:阶层分布较广。


原因5:演唱会基本都在二三四线城市。


以上原因3、4、5,可能令歌迷与逃犯的人群重合度更高。也就是说,因为年龄分布、阶层分布、城市分布的原因,即使是在同样数量的男性歌迷中,出现逃犯的概率更大。


概括而言,因为:


  • 更大的人群基数

  • 更高的男性比例

  • 更高的逃犯比例


导致了张学友演唱会上出现逃犯的数量较多。


根据以上5点信息,我们通过贝叶斯推理,会有类似上面“男士休息室”的信息更新。


有兴趣的话,可以通过“面积法”计算一下。


所以,在张学友的演唱会上,出现疑犯的“后验概率”更高。



04


悬念在于,为什么逃犯愿意铤而走险去看张学友的演唱会?


上面分析后验概率,计算的其实是张学友歌迷中包括逃犯的比例。但是这个比例再高,如果逃犯不来现场,也没用。


下面我们用决策树分析法,计算逃犯愿意冒险主动来到现场的可能性。


我没有更多别的演唱会是否有逃犯被抓的数据,简单用决策树分析如下。


在寻常情况下,逃犯决定是否去看演唱会,会进行下图思考:



所以一般演唱会,逃犯冒险去看的概率为10%。


但是,张学友不是一般人啊,他人品正,没绯闻,歌唱得荡气回肠,容易令英雄豪杰们产生共鸣。


作为灵魂型歌手,张学友令逃犯歌迷更愿意冒险。


逃犯们每天东躲西藏,日子压抑。又如《肖申克的救赎》里所言,每个罪犯都觉得自己无罪。脑海里浮现出张学友的歌曲,“有故事的人”不禁感慨万千,非理性指数大幅上升。




于是,逃犯冒险去看张学友演唱会的概率为30%。


这样,逃犯出现在张学友演唱会上的主动可能性,对比一般演唱会,一下变成了三倍。


加之前面提及的较高的逃犯比例之“后验概率”,二者相乘,令逃犯出现在张学友演唱会上的数量较多。


在技术手段的帮助下(该类逃犯对科技进步估计不足,也拉低了理性的比例),张学友的演唱会变成了逃犯放飞自我的舞台。


你陪了我多少年,花开花落,一路上起起跌跌。


那天晚上,亡命天涯的大哥,在最后的四大天王的歌声中,勾起了年少往事,飞蛾扑火般慷慨赴约,哪怕最终身陷牢笼。



更多精彩


在公众号后台对话框输入以下关键词

查看更多优质内容!


PPT | 报告 | 读书 | 书单

Python | 机器学习 | 深度学习 | 神经网络

区块链 | 揭秘 | 干货 | 数学


猜你想看




Q: 你想去看谁的演唱会

欢迎留言与大家分享

觉得不错,请把这篇文章分享给你的朋友

转载 / 投稿请联系:baiyu@hzbook.com

更多精彩,请在后台点击“历史文章”查看

 
大数据 更多文章 106个项目上榜!2018人工智能与实体经济深度融合创新项目名单公布 32个程序员泪(méng)流(fān)满(quán)面(chǎng)的瞬间 数据揭秘真实的互联网公司:BAT前景最好,这几家面试难度最低 揭秘“21世纪最性感的职业”:数学、编程、沟通和商业技能一个都不能少! 一文读懂量子计算机的前世今生,它的未来人类连想都不敢想
猜您喜欢 【走进沪江】-项目管理持续加油站主题活动:全脑项目领导力 从Math.random到ThreadLocalRandom 此时,夜已深!还有谁没睡? 美团云网络运维实战 测试人员代码走查基础要点