微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

大数据保护,EMC企业级数据湖数据保护解决方案

2017-08-31 18:00 EMC中国技术社区

 数据湖(Data Lake)概念记得是在2014年左右出现在人们眼前的,数据湖虽说开始只是一个企业们在大数据业务营销方面词汇,不过楼主认为它本身还是实际反应了整个业界对数据存储的新需求。数据湖作为下一代的融合数据载体,它的好处是整合企业原有数据与新产生的数据。企业可以把原有的数据以原始格式迁移到数据湖,和新的数据存放在一起,而不是分开存储。而且,数据湖的另一个好处是,它可以让企业所有人都可以使用到这些数据进行分析,提高了数据分析的灵活性和可访问性,这也是我在上一篇(大数据基础架构)中提到的大数据时代数据架构的特点,显然数据湖在这方面是完全满足的。

 

     然而,随着许多组织开始在数据湖上部署类似Hadoop和NoSQL这样的环境以后,整合后的数据湖环境又带来了新的IT运行问题,问题就是如何像以前一样有效地保护数据湖中的数据,而这种数据保护是在大数据项目落地前也是必须要解决的。

 

本篇白皮书介绍了两个EMC数据湖保护解决方案。分别是利用Hadoop分布式复制和使用EMC Isilon快照结合EMC Networker。

 

 

使用Hadoop分布式复制

 

     这种方法的主要特点是利用Hadoop的原生的分布式拷贝工具,通过工具DisCP将数据复制到EMC的Data Domain、Isilon、和ECS(EMC弹性云存储)上。实现上可以分为两种:第一种是:从Hadoop应用端使用HDFS的快照功能,然后通过DisCP将数据以NFS协议通过以太网复制到受保护的存储设备上。第二种是:直接使用DisCP复制数据到受保护的存储设备上。根据不同目标端存储,总结了一下使用三种数据保护设备解决方案的特点是:

 

DisCP解决方案 – 备份目标

选择前提

备份与恢复

管理

Data Domain

  • 数据是否能够在去重和压缩上受益?

  • 适合TB级数据

  • DisCP + NFS over Ethernet + Data Domain实施,备份和恢复就是换个方向

  • Data Domain本身提供的数据吞吐量优化、异地容灾功能

  • Hadoop管理员可以直接管理数据湖的保护

Isilon

  • 不需要高比例的去重(相比Data Domain)

  • 适合PB级数据

  • DisCP + NFS over Ethernet + Isilon实施,备份和恢复同样是换个方向,而存储在Isilons上的数据还同时能被Hadoop访问。

  • Isilon专门的HDFS支持在存储效率上相比传统的HDFS有33%的提升,而且管理更方便

ECS

  • 不需要高比例的去重(相比Data Domain)

  • 适合EB级数据

  • 需要对象和HDFS访问

  • DisCP + NFS over Ethernet + ECS Appliance实施

  • Hadoop管理员可以直接管理数据湖的保护

 

使用EMC Isilon快照结合EMC Networker


     这种解决方案和第一个不同的是将Hadoop的计算与数据存储分离,数据的存储端由Isilon接管,完全利用Isilon在存储上的管理能力。而数据保护直接由Networker管理Isilon的快照且最终备份分别备份到Data Domain、Isilon和ECS上。同样总结一下使用三种备份终点解决方案的特点:

 

Isilon + Networker解决方案 – 备份目标

选择前提

备份与恢复

管理

Data Domain

  • 数据是否能够在去重和压缩上受益?

  • 适合TB级数据

  • NFS数据访问

  • 管理员可以在Networker上定义备份策略,自动化数据保护流程,并且利用Data Domain的去重与压缩技术更高效利用存储空间

  • 利用Networker维护的备份、快照与克隆目录,更简便与直观的进行备份与恢复操作。实现更快速的RTO和更长时间的RPO。

  • 高可用方面,利用Networker控制不同Data Domain在多站点上的复制实现异地容灾

Isilon

  • 不需要高比例的去重(相比Data Domain)

  • 需要灵活的备份窗口

  • 适合PB级数据

  • 组织有NFS/SMB(CIFS)、HDFS数据访问需求

  • 管理员可以在Networker上定义备份策略,自动化数据保护流程。

  • 利用Isilon的SyncIQ功能实现到另一个Isilon系统的同步

  • 通过Networker管理Isilon快照备份

ECS

  • 不需要高比例的去重(相比Data Domain)

  • 适合EB级数据

  • 需要对象和HDFS访问

  • 管理员可以在Networker上定义备份策略,自动化数据保护流程

  • 利用Networker维护的备份、快照与克隆目录,更简便与直观的进行备份与恢复操作。实现更快速的RTO和更长时间的RPO。

  • 高可用方面,可以使用ECS的API在不同的ECS之间同步数据

 

     总体来看,EMC结合不同的产品组合提供了多种数据湖的数据保护解决方案,用户可以根据现有环境中的软硬件,数据规模,数据访问特点,空间利用率等等进行选择,可以说非常灵活。另外,这篇白皮书的前半部分还对解决方案中每个产品提供了概述,想了解”这个东西是干嘛用的“建议下载后看一下。




其它参考文章:

说说EMC解决方案中的那些产品和案例



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 VMAX全闪存集成CloudArray 【声音】叶成辉谈新常态下外资科技公司在中国的角色 【存储入门必读】SAN网络性能问题排错指南 【存储入门必读】存储性能瓶颈的成因、定位与排查 【存储入门必读】存储性能瓶颈的成因、定位与排查
猜您喜欢 WKWebView从入门到趟坑 Go语言技术聚会邀请函(201602) C#用链式方法表达循环嵌套(一) 如何把产品打造成有生命的品牌 饿了么移动APP的架构演进