微信号:hzdashuju

介绍:大数据蕴藏着丰富的信息和价值,如何处理好大数据并发掘其潜藏的商业价值,这是大数据时代的新挑战.我们将为大家提供与大数据相关的最新技术和资讯.

数据揭秘:中国姓氏排行榜

2017-05-18 21:21 周宁奕、团支书


本文作者为 团支书,由微信公众号“城市数据团”(ID:metrodatateam)原创并首发,转载请联系首发公众号授权,谢绝二次转载。


作者:周宁奕、团支书


最近不知道哪个朋友(是的我的确不知道)搞到了一组脱敏后的天朝公民个人数据,覆盖1000多万人,大概占全国人口的1%,信息包括姓氏、年龄、籍贯城市、现居城市等。朋友让我用这组数据随便做点啥。


这组数据如此牛逼,可以做的东西太多啦。但是,吸取了前两次文章被下架的教训,我决定做一个不那么敏感的话题。就做 “东半球第二有趣的中国姓氏排行榜”吧!


既然是“数据团”出品的姓氏排行榜,必然不能数数人头就敷衍了事。事实上,我为这个排行榜设计了丰富的内容:普遍指数、抱团指数、奔波指数、装逼指数、风雅指数等。


下面就开始对这个排行榜进行阐释吧!(具体排名见文章末尾)




1.普遍指数


普遍指数=姓氏人口数量


毫无悬念,“王”姓以占据中国人口8.1%的比例、接近1亿的人口总数,夺得了中国第一大姓、地球第一大姓、宇宙第一大姓的桂冠。


恭喜隔壁老王!


那么,老王们都在哪里呢?

 


看起来,隔壁老王虽然说不上无处不在,但也是蔚为壮观啊!


除了老王,老张、老李也表现不俗,分获宇宙第二、第三大姓的荣誉。这三大姓加起来,占据中国总人口的22%(由于我们掌握的数据不是完全的随机抽样,各个姓氏的排名与比例可能与其它统计结果略有不同)。

 


总的来说,“王张李刘陈杨赵周吴徐”10大姓占据了中国总人口的43%;20大姓占据56%,而前100的大姓占据了88%!

 


但是,别看这些大姓多么牛逼,其实都发源于极少数的几个姓:姬、嬴、姜、妫等。其中,最为古老的可能就是“姬”了——“姬”传说是黄帝之姓、周朝国姓,并且是10大姓中7个姓的起源。千年过去,姬姓后嗣多已改为他姓,开枝散叶。而还保留着这个古老姓氏的人口,也仍然栖息在古老中华文明的发源地——河南。

 


从姬姓的例子中我们看到,一些较小的姓氏在空间上的分布是高度集中的。这可能是因为较小姓氏的发源地相对单一吧。


为了探究姓氏的空间集聚问题,我们又设计了第二个指数:


2.抱团指数


抱团指数=各姓氏在各省分布的基尼系数。


研究结果表明,抱团指数最高、也就是空间集聚度最高的三个姓氏分别为:覃、麦、朴,三姓的基尼系数都在0.82以上,而且三个姓都是相对较小的姓。


先来看覃(qin,第二声):“覃”的本意为有盖的酒坛,最早的“覃”人以酿酒和制作酒具形成氏族。先秦时期,覃姓主要在河南活动,后来主力迁入南方,吸收了南方的众多外来血缘,并分化出谭、潭、镡(tan)、瞫(shen,第三声)等多个姓。现今,覃姓主要分布在广西、广东、湖南、湖北。

 


麦姓,起源于春秋时期的麦丘(今山东商河西北),由齐恒公赐姓。麦姓南迁以后,出现在傈傈族、回族、布依族、瑶族、黎族等少数民族中。80%的麦姓人口都分布在广东。


但是,如果我们仔细看的话,会发现除了广东,麦姓在北京和上海也有两片相对集中的区域,其他区域则是一片漆黑。这个专注北上广的麦姓真是傲娇啊。

 


朴的本意为树皮,也是一个小姓,但大多数读者都能正确地读出piao(第二声)而不是pu,这应该归功于“宇宙第一大国”的韩国吧。事实上,从空间分布来看,朴也是典型的北方姓氏,也主要分布在宇宙第一大国的辐射地:东北三省。

 


如果说小姓比较容易呈现出明显的聚集趋势,那么人数众多的大姓是否都是雨露均沾、均匀分布的呢?


在top20的大姓中,绝大多数姓氏的基尼系数都在0.35-0.45范围内,但有一个姓很特殊,其基尼系数高达0.63—— “”。


我们来看一下林姓的空间分布:沿着福建、广东沿海,形成了一条非常明显的狭窄带状区域。

 


尽管福威镖局在接班人问题上出现了一些技术障碍,但总体来说,林姓族人仍然坚守故土,并且在海峡两岸繁衍出了一系列娱乐圈明星,比如:林志玲、林心如、林志颖、林徽因……


然而,并不是每个氏族都像“姬”“林”那样安土重迁,可能也有一些特别愿意奔波、愿意去远处寻找梦想的。于是,我们又设计了第三个指数:


3.奔波指数


奔波指数=姓氏人均迁徙距离。迁徙距离为户籍地所在地级市与现居住地所在地级市的距离。


在喜欢奔波的姓氏中,首屈一指的就是——,人均迁徙距离达到900km。嗯,怎么又是朴?


总的来说,作为北方民族的朴姓非常喜欢南迁。对朴姓而言,最受欢迎的目的地有两个:山东和广东。这两个目的地,一个是北部地区的最南端,一个是天朝的最南端。

 


奔波指数第二高的是“”姓,人均迁徙距离为600km。


廉姓主要分布于河南、山东、陕西等省,对外迁徙的目的地并没有明显偏好。但如果我们把廉姓的迁徙路径与其它姓氏做比较,相较于其它姓氏向经济发达地区聚集的趋势,廉姓似乎对新疆、云南、广西等西部地区等兴趣要更强一些。

 


在20大姓中,奔波指数最高的是“”,人均迁徙距离在400km左右。


何姓主要分布在四川、广东两省。但从迁徙图上来看,大概是四川太过“安逸”,何姓族人较少从四川迁出;而广东和长三角地区的何姓则活跃得多。

 


以上涉及到的姓氏,廉、朴、覃、麦等,都是一些自带逼格的小姓。似乎在各种排行中,大姓的特点都并不突出。这也难怪,大姓人多,形形色色的人都有,总体来看就比较平均了。


但是,如果已经进入到大姓行列,有没有办法提高自己或者是子女名字的逼格呢?当然姓是不能随便改的,我们就只能在名字上动脑筋了。于是,我们设计了第四个指数:


4.装逼指数


装逼指数=名字长度在4字或以上的人口数量占该姓氏人口数量的比例。


严格来说,装逼指数最高的其实是“欧阳”和“诸葛”。但考虑到复姓和少数民族姓氏的逼格并不是装出来的,我们只好排除掉这些本来就很有逼格的姓氏,只看单字大姓TOP20的装逼情况:

 


显然,“”姓的装逼指数甩第二名的“高”和“周”一大截,这大概归功于马姓有天然的装逼优势。举个栗子:如果某国产神剧女主角名字改为“高尔泰若曦”或者“周尔泰若曦”,那么男主角还演得下去吗?


然而,名字长虽然增加逼格,却会给实际生活增加一些困扰。你能想象“璃莹殇•安洁莉娜•樱雪羽晗灵•血丽魑•魅•J•Q•安塔利亚•伤梦薰魅•海瑟薇•蔷薇玫瑰泪•羽灵•邪儿•凡多姆海威恩•夏影•琉璃舞•雅•蕾玥瑷雅•曦梦月•玥蓝•岚樱”被罚抄名字时的心情吗?


因此,想要彰显名字的独特,还可以采用另一种方式:采用生僻字或不常见的汉字组合。我们姑且将此类名字形容为“风雅”。


5.风雅指数


风雅指数=名字中不包括“取名用字频率TOP1000”的人数占该姓氏总人数的比例。


风雅指数最高的10个姓为:

 


的确,“”姓有不少非常风雅的名字:程灵素、程蝶衣。但由于拥有这些名字的主人往往都很难坚持到故事结尾还不领便当,因此一念出来,总会带着淡淡的忧伤。


为了冲淡这种淡淡的忧伤,我们最后来看看能撑到最后一集的普通人都是怎么取名的呢?


 “取名常用字TOP100”请看下表:


 


好了,就这样吧。请转头看看你身边的朋友同学同事或者经常给你送快递的快递员。hi,小华、小伟、小文、小明、小军,你们还好吗?




附:姓氏排行TOP100





城市数据团  (metrodatateam) 


近期精彩活动(直接点击查看):

福利 · 阅读 | 免费申请读大数据新书 第18期


END


投稿和反馈请发邮件至holly0801@163.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关

大数据


为大家提供与大数据相关的最新技术和资讯。


长按指纹 > 识别图中二维码 > 添加关注


近期精彩文章(直接点击查看):

161224 2016年“大数据”产业的“真实面目” 

161222 傅盛:深度学习是一种新的思维方式 

161216 CCF:2017年大数据发展趋势报告及解读

161213 一文看懂人工智能:原理,技术和未来

161208 如何七周成为数据分析师

161206 一篇文看懂Hadoop:风雨十年,未来何去何从

161205 2017年大数据的十大发展趋势

161129 大数据等最核心的关键技术:32个算法

161126 2016十大热门大数据岗位,拿走不谢

161122 2017年关于数据科学六大预言

161119 漫画:什么是机器学习? 

161114 终年32岁的传奇数学家,生前寂寂无闻,一个世纪后却让硅谷领袖们集体落泪致敬

161112 如何用大数据思维找女朋友?

161108 漫画:什么是大数据

161107 数据可视化的七大秘密

161105 Gartner公布2017年十大战略科技发展趋势 

161028 经验贴│怎样进行大数据入门级学习

161025 干货:数据分析师的能力和工具体系

161023 不装逼地说,在Google十年,到底学到啥? 

161016 大数据投资人必读:中国大数据发展与投资分析报告

161014 您的位置信息如何被利用?——基于位置信息的应用和地理信息匹配算法

161009 硅谷教父凯文·凯利最新预言:未来20年最重要的2个科技趋势! 

161001 十张图看懂未来的大数据世界

更多精彩文章,请在公众号后台回复000查看,谢谢。

 
大数据 更多文章 点赞撬动的商业帝国丨你的一个赞值多少钱 如何通过自学,成为数据挖掘“高手” 未来最赚钱的10大互联网职位,平均月薪最高30k,竟然有地推…你的工作呢? 国内影响已扩散,Wannacry蠕虫勒索软件袭击全球(含修复方案) 华为内部狂转好文,大数据,看这一篇就够了!
猜您喜欢 GitLab 工作流概览GitLab Issue Board 技术支持服务群 稳定性测试|探索优化App UI遍历方法-SmartMonkey 你想要得到的,永远只差那一丢丢的努力和坚持! 大话推荐系统