微信号:hzdashuju

介绍:大数据蕴藏着丰富的信息和价值,如何处理好大数据并发掘其潜藏的商业价值,这是大数据时代的新挑战.我们将为大家提供与大数据相关的最新技术和资讯.

PM2.5这个锅背的值吗?数据科学家建模给你论证下

2017-05-09 21:13 张腾


本文首发于  百分点(ID:baifendian_com),作者:张腾。大数据授权转发,谢绝二次转载。


空气质量究竟是不是变差了?


当看到诸如“我们都在等待第一批死在北京的人”等一些耸人听闻的新闻标题时,我真的很想知道,近年来北京的空气质量到底是有所改善还是逐步恶化?


过去三年北京空气质量 


网上众说纷纭,无图无真相。拿到2013年12月1日到2017年2月的逐日空气质量及污染物指标后,让我们plot一下:



(A)下图记录了从2013年12月到2017年2月的空气质量历史记录:每根柱子代表一个月;颜色越深,空气质量越差;绿色部分越多,空气质量越佳。                             


(B)再来看看PM2.5的变化趋势:

怎么样?慧眼如你,一定对近年的空气质量变化有所了解了吧(最起码,没有恶化呢)。


哪个指标对空气质量影响最大?


出门之前看实时空气质量报告已经成为常态。在报告中,通常会给出今日的空气质量等级、PM2.5浓度、PM10浓度、二氧化硫浓度等等一系列指标。但为什么我们对PM2.5而不是其他指标的关注最甚?


数字化世界,离不开算法和数据建模的支持。我们的数据科学家团队又出场了,这次用建模的方式来验证,PM2.5这个锅到底背的值不值?


下面我们将通过随机森林来对空气质量等级进行分类(所用的变量有PM2.5、PM10、CO、NO2、SO2、风速、大气相对湿度等十几个污染物和气象指标),并在这一过程中发掘对空气质量影响最大的指标。


先简单介绍下随机森林吧。


Q:为啥叫随机“森林”呢?

A:因为聚树成森林嘛:很多颗决策树打包组团,就成了森林。

Q:为啥叫“随机”森林呢?

A:这个解释起来就复杂些了,分两个方面:


①数据的随机选取:从原始的数据集中有放回抽样构造子数据集,利用子数据集来构建子决策树;森林中的每一棵决策树都会针对新数据做一次“决策”,最后通过投票表决出最终的结果。


②特征的随机选取:与数据集的随机选取类似,随机森林中的子树的每一个分裂过程并未用到所有的待选特征,而是从所有的待选特征中随机选取一定的特征,之后再在随机选取的特征中选取最优的特征。这样能够使得随机森林中的决策树都能够彼此不同,提升系统的多样性,从而提升分类性能;通过这一过程也能综合衡量不同变量的重要性。


随机森林中的一棵决策树长这个样子:



那么,“随机森林,你能告诉我哪个指标对空气质量的影响最大?”

好了,这里介绍两个指标:


  • 平均精度下降(MeanDecreaseAccuracy)

  • 平均Gini下降(MeanDecreaseGini)


这两个指标通过衡量各变量对模型预测准确度和Gini系数影响的大小,来判定变量重要程度,两个指标均是越大越好。


显然,右上角的变量(PM2.5)重要程度大于左下角。


PM2.5对空气质量的影响程度(或相关程度)最大,其次是PM10和NO2(二氧化氮)。因此我们可以说,PM2.5浓度与当日空气质量等级最为相关,可能是空气污染的主要元凶。


不同预警等级下的空气质量 


最后,我们来看看中央气象台发布雾霾预警(分三级:黄色预警-橙色预警-红色预警)的情况。



冬季的确是雾霾的高发期哈,每年冬天都会“凸凸”一下。这个图再次说明,虽然现在的空气质量还谈不上好转,但显然没有变得更糟。


PM2.5

Vis


发布红色预警时,PM2.5平均浓度约为正常天气的6倍······


只要发布雾霾预警(不论是黄色、橙色、红色),能见度(Vis)水平几乎都是立马“趴下”,雾蒙蒙看不清······


我们年轻的数据科学家自己都禁不住感叹:天哪,以后一定要提醒妈妈关注空气质量预警预报。


最后
来个互动

你知道周几的PM2.5平均浓度最高吗?从中我们能得到什么启示?




近期精彩活动(直接点击查看):

福利 · 阅读 | 免费申请读大数据新书 第18期


END


投稿和反馈请发邮件至holly0801@163.com。转载大数据公众号文章,请向原文作者申请授权,否则产生的任何版权纠纷与大数据无关。

大数据


为大家提供与大数据相关的最新技术和资讯。


长按指纹 > 识别图中二维码 > 添加关注


近期精彩文章(直接点击查看):

161224 2016年“大数据”产业的“真实面目” 

161222 傅盛:深度学习是一种新的思维方式 

161216 CCF:2017年大数据发展趋势报告及解读

161213 一文看懂人工智能:原理,技术和未来

161208 如何七周成为数据分析师

161206 一篇文看懂Hadoop:风雨十年,未来何去何从

161205 2017年大数据的十大发展趋势

161129 大数据等最核心的关键技术:32个算法

161126 2016十大热门大数据岗位,拿走不谢

161122 2017年关于数据科学六大预言

161119 漫画:什么是机器学习? 

161114 终年32岁的传奇数学家,生前寂寂无闻,一个世纪后却让硅谷领袖们集体落泪致敬

161112 如何用大数据思维找女朋友?

161108 漫画:什么是大数据

161107 数据可视化的七大秘密

161105 Gartner公布2017年十大战略科技发展趋势 

161028 经验贴│怎样进行大数据入门级学习

161025 干货:数据分析师的能力和工具体系

161023 不装逼地说,在Google十年,到底学到啥? 

161016 大数据投资人必读:中国大数据发展与投资分析报告

161014 您的位置信息如何被利用?——基于位置信息的应用和地理信息匹配算法

161009 硅谷教父凯文·凯利最新预言:未来20年最重要的2个科技趋势! 

161001 十张图看懂未来的大数据世界

更多精彩文章,请在公众号后台回复000查看,谢谢。

 
大数据 更多文章 Excel技巧篇:嘿!别说你会复制粘贴 YC合伙人:微信的发展堪称疯狂,这7点值得学习 去哪儿邂逅梦中情人?大数据揭秘各地美女大不同 中国互联网的抑郁:抄与被抄都很痛 供地越多的地方,房价越涨吗?
猜您喜欢 Google的QUIC协议:从TCP到UDP 尚学堂招聘会来了!平均薪资9500以上---你还在等仕么 订单增加10.5%,数亿美金增长背后,AliExpress全球电商系统做了什么? GopherBeijing的logo换新了! 广告件发展现状分析