微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

大数据与物联网数据分析之间的差异

2017-03-06 18:54 EMC中文技术社区

最近与几个我尊敬的同事(比如Tom、Brandon、Wei、Anil,他们都很聪明)讨论了这样一个问题


作为服务提供商,如果从数据分析的角度宣称支持物联网(Internet of Things, IOT)意味着什么?


我认为,问题的真正核心可以归结为:

  1. 什么是物联网与大数据之间的差异(大数据是分析大量的、大多是人为产生的数据来支持较长时间的使用案例,如预测性维护,容量规划,全方位客户服务和收入保障)和IOT (物联网是聚集和压缩大量低延迟、低时长、高容量机器生成的数据来自多种传感器,支持实时的用例,如操作优化,实时广告竞价,欺诈检测和安全漏洞检测)?我不相信,只是加载传感器数据到数据湖然后执行数据科学来创造预测分析模型可以称为合格的物联网分析。对我来说,这只是大数据(包含所有的传感器数据的真正大数据)。如果声称可以提供物联网的分析解决方案的确需要大数据(包括数据科学和数据湖),但物联网的分析还必须包括:

  2. 流数据管理(Streaming Data Management),包括从各种各样传感器设备的“边缘”的网络中摄取、聚合(例如,平均,中值,模式)、压缩实时数据的能力。

  3. 边缘分析(Edge analytics),可以自动分析实时传感器数据和呈现实时决策(行动),并在边缘网络中优化运行性能或对不寻常的表现或行为立即进行标记和调查(安全漏洞,欺诈发现)。


     作者愚见,如果你不能管理实时数据流,并在边缘进行实时分析和实时决策,那么你做的不是物联网和物联网分析。那么,需要什么来支持这些物联网数据管理和分析的需求呢?



物联网“分析”的挑战


     物联网(或工业因特网)工作在机器规模,是通过处理机器对机器产生的数据。机器生成的数据以非常高的信号速率(1000条消息/秒)创建连续的观测(如温度,振动,压力,湿度)。添加到这样一个复杂的传感器数据值很少改变(例如,温度在可接受的小范围内工作)。但是,当值做改变的后果,这些变化将可能是非常重要的。


因此,为了支持实时的边缘分析,我们需要提供详细的数据,可以标记所关注的观察,但不需要让数据回到核心存储(数据湖),为基础,且更广泛的战略分析提供压力。


我们看到组织解决物联网分析需求的一种方式是通过一个三层体系结构分析(见图1)



我们将使用风力涡轮机农场帮忙说明了三层架构的分析能力。


     第1层进行单独的风力涡轮机的实时性能分析和优化。1级必须管理(采集和压缩)实时数据流脱落多个异构传感器。方法1分析数据,并处理针对静态或动态地更新分析模型的输入数据(例如,以规则为基础,决策树),用于直接或接近立即采取行动。


特制T1边缘网关利用实时数据压缩技术只发送关键数据的一个子集(例如,已更改数据)回T2和T3(核心)。


     假设您正在监视一个大型工业发动机内部的压缩机的温度。比如说,压缩机的平均温度为99度,以及变化99%的置信水平内98至100度之间。我们也可以说压缩机发出以下温度读数每秒10次:


99,99,99,98,98,99,99,98,99,99,100,99,99,99,100,99,98,99,99 ...


     你有10,000次读数不会偏离这个区间。那么,为什么要发送所有的读取(从传输带宽的角度来看影响可能是很明显的)呢?相反,使用一个时间序列数据库只发送这10,000次读数的均值,中位数,模,方差,标准差的其他统计变量而不是单单这10,000次读取。


     但是,突然间,我们开始获取正常99%的置信水平以外的数据了:


99,99,99,100,100,101,101,102,102,103,104,104,105,...


     然后,我们会运用基本的变更数据捕获(CDC)技术来捕捉和传送关键数据T2和T3(核心)的子集。因此,边缘网关杠杆时间序列压缩技术来驱动,而仅发送关键数据的一个子集到芯进行进一步的分析和操作速度更快的自动化决策。


第1层分析有可能被通过预置的分析服务器或网关进行(见图2)。


 

     二级优化性能和预测维护需要跨越风力农场的风力发电机组。第2级的要求分布式动态内容的处理规则生成和执行分析引擎用来整合和分析跨异构潜在的风力涡轮机的汇总数据。队列分析(Cohort Analysis)是典型用来在整个队列的风力涡轮机中识别,验证和编纂性能问题和可能性的方法。例如,风电场中,所述第2层的分析负责实时学习,可以产生用于单个风力涡轮机的最佳转矩和位置控制。二级识别和共享风电场风力发电机组的最佳实践而不必依赖于第3层的核心分析平台(见图3)。


 

     第3层启用核心分析的数据湖平台。第3层的核心分析平台,包括分析引擎,数据库和数据管理服务(例如,数据管理,元数据管理,安全认证),启用数据的访问(传感器数据以及其他内部和外部数据源)和支持数据分析的科学/预测模型开发和完善的现有分析模型。方法3汇总了所有风电场和单个涡轮机的关键数据,并结合与外部数据源可能包括天气(湿度,温度,沉淀,空气中的颗粒等),电力价格,风力涡轮机的维护历史,质量传感器数据分数用于风力涡轮机制造商,以及风力涡轮机机械和技术性能的剖面(见图4)。


 

     随着存储的快速增长和处理能力在物联网的边缘(例如,Dell Edge Gateway 3000系列),我们将看到越来越多的分析能力推到了边缘。



你如何开始你的物联网旅程


     当引入物联网前沿技术专业领域可以是非常令人兴奋的(集成有100GB数据存储机器学习能力的网关服务器的图形处理单元)。而开始物联网旅程必须先从基本问题开始:


你的组织利用数据和分析驱动业务(运营)的效果如何?


     我们已经调整了大数据商业模式成熟度指数,以帮助企业不仅通过上面的问题了解他们的成熟度指数,而且还提供了组织如何提升成熟度指数的有效路线图,通过利用与高级分析物联网的大量数据,帮助他们驱动他的业务与运营模型(见图5)


 

为了推动有意义的业务影响,你需要从业务开始,而不是技术:

  • 从一开始就引入企业的利益相关者

  • 将业务和IT团队对齐

  • 了解企业的关键业务和运作的举措

  • 确定并优先考虑使用案例支持这些业务计划(决定/目标)


如果你想让你的物联网计划产生实际效益,遵循这些简单的指导方针,这会大大增加你的业务和盈利的成功概率。

 

Bill Schmarzo

CTO, Dell EMC Services

注:本文翻译自英文博客文章:https://infocus.emc.com/william_schmarzo/difference-big-data-iot/



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 【专家问答】VNX File Replication详解 Dell EMC XtremIO + PowerEdge 32 Gb/S FC性能测试报告 光纤清洁帮助客户节省时间 VMAX全闪存部署Splunk性能测试与最佳实践 RecoverPoint拷贝测试、生产数据恢复和故障切换的实践
猜您喜欢 Android 中的 Enum 到底占多少内存? 该用不该用? AWS 否认卖交换机,思科松了一口气。。。 API 调用次数限制实现 Android APK加壳技术方案【1】 【R每日一贴】R向量那些事?