微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

什么是“数据湖”

2016-10-14 19:51 EMC中文技术社区

      最近围绕“数据湖”这个概念的炒作不断升温,特别是在Pivotal和EMC分别发布了有关数据湖解决方案的案例之后。本文就来带大家了解一下到底什么是数据湖。

 

什么是数据湖:

 

      截至目前Pivotal和EMC对数据湖这一概念的推广是最用力的,但这一概念最早应该是在2011年由CITO Research网站的CTO和作家Dan Woods提出。简单来说,数据湖是一个信息系统,并且符合下面两个特征:

  1. 一个可以存储大数据的并行系统

  2. 可以在不需要另外移动数据的情况下进行数据计算


      目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。但未来总会有新的技术出现,因此我们要区分出Hadoop和数据湖的不同点。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

 

数据湖应用:

 

      Pivotal大数据套件是目前较为完整的数据湖解决方案。它以基于Hadoop的Pivotal HD架构为基础,整合了内存数据库网格软件GemFire XD,具有实时处理HDFS中数据的能力。


      GemFire通过平台虚拟化技术,将若干x86服务器的内存集中起来,组成最高可达数十TB的内存资源池,将全部数据加载到内存中,进行内存计算。计算过程本身不需要读写磁盘,只是定期将数据同步或异步方式写到磁盘。GemFire在分布式集群中保存了多份数据,任何一台机器故障,其它机器上还有备份数据,不用担心数据丢失,而且有磁盘数据作为备份。



      在方案中,位于数据湖最底层的则是EMC Isilon Scale-Out存储。Isilon负责承载命名节点跟踪服务器和HDFS数据节点。一个完整的数据湖架构实例如下:



      虚拟环境结构如下:


 

机会与风险:

 

      虽然数据湖这一概念很火,很多厂商都生成数据湖是抓住大数据机遇的一个重要组成部分,但是厂商们却对是什么构成了数据湖、或者如何从中获得价值没有达成一致。数据湖的重点是保存不同的数据,却忽略了如何使用数据以及为什么要使用数据、监管数据、定义数据和确保数据安全。数据湖概念希望解决一老一新两个问题。老问题是,信息孤岛。你可以将不同来源都集中到一个未经管理的数据湖中,而不是保持数十种独立管理的数据集合。从理论上讲,整合的结果是加强信息利用和共享,同时降低服务器和许可成本。


      而新问题,则是涉及到大数据分析。大数据项目要求大量的各种信息。这些信息如此不同,以至于我们不知道这些信息究竟是什么,以及什么时候收到的,就把它归类到某种类似数据仓库的结构化数据,或者关系型数据库管理系统以便未来使用。


      因此,数据湖存在着重大风险。最重要的一点,是无法决定数据质量或者利用其他已经发现价值的分析师或者用户在使用湖中相同数据中的经验发现。从定义上看,数据湖可以接收任何数据,不受监督或管理。没有描述性的元数据,和维护它的机制,数据湖会转变成数据沼泽。如果没有元数据,所有对数据的后续使用都意味着从零开始对数据进行分析。


      另外一个风险是安全性和访问控制。数据可以在不受内容监管的情况下被放到数据湖中。很多数据湖中数据的使用意味着其隐私和法规要求很可能使其暴露于风险之下。数据湖核心技术的安全能力仍然处于早期萌芽阶段。如果交给非IT人员的话,这些问题将不会得到解决。


     最后,性能方面的因素也不容忽视。当然相对而言解决性能问题的方法还是比较多的。



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛



 
戴尔易安信技术支持 更多文章 备份和归档的区别 云计算的三种模型:公有云、私有云和混合云 正确描述IO类型 【大咖讲网络】谁动了我的网络 浅析I/O处理过程与存储性能的关系
猜您喜欢 测试,遇见不同(上篇) 傅盛:Facebook疯了吗?我对190亿收购WhatsApp的四点看法 Android设计模式——工厂方法模式 央行副行长范一飞:银联在 “一带一路”沿线市场积极推动技术标准合作 无声播报|7月安全资讯