微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

EMC存储上的大数据 – HDFS on Isilon(三)

2017-11-25 19:01 EMC中国技术社区

     企业一直在处理快速增长的数据量(也称为大数据)的存储和管理问题。


     本文为系列的第六篇,介绍HDFS与Isilon的集成的效率与灵活性特点。

 

     Isilon的操作系统OneFS经过专门设计,可使横向扩展集群的容量利用率超过80%,从而大幅提升Hadoop数据分析工作的效率。与传统Hadoop体系的结构(通常对驻留在文件系统中的每个数据块使用3倍镜像)相比,OneFS具有极高的容量效率,可以为企业客户提供优化的ROI(投资回报率)和TCO(总拥有成本)。例如,如果企业想要存储12PB的Hadoop数据,则在默认使用3倍镜像来存储数据的传统Hadoop集群中,企业通常需要购买超过36PB的原始磁盘容量。然而,在使用OneFS的数据保护功能存储相同的12PB Hadoop数据时,只需要Isilon集群中具有15PB的原始磁盘容量。这会大大节约CAPEX(资本性支出),并且显著简化要管理的基础架构环境。


     除了Isilon为加大OPEX(企业的管理支出)节约幅度而带来的易于操作的简单管理以外,还可以在该环境中实现其他效率。例如,从容量角度而言,Isilon节点可以变得非常密集。因此,运行使用直连存储的36PB传统Hadoop集群所需的机架空间和电力可能大大超过支持相同数据需求的15PB Isilon集群。Isilon集群的这一优势会产生附加的成本节约效果。


     通过使用Isilon横向扩展NAS作为Hadoop环境的共享存储层,客户还可以聚合并最大程度地减少其Hadoop计算场。通过将所有与存储相关的HDFS开销加载到Isilon横向扩展NAS,可以更好地利用Hadoop计算场来执行更多的分析作业,而不是管理本地存储、保护其中的数据以及分析其中驻留的数据。通过将Hadoop计算场从执行上述所有HDFS相关人物的重负下解脱出来,OneFS可以帮助减少Hadoop计算场的占用空间,并且潜在地利用现有Hadoop计算基础架构来完成数据分析工作流中的其他任务。让共享存储可通过其他标准协议访问所带来的效率会让整个数据分析工作流获益匪浅,从而使Hadoop得出的重要简介更好地应用于数据分析工作流的其他部分。这种聚合存储方法有助于简化整个数据分析工作流,以便企业可以实现显著的CAPEX和OPEX节约效果。


     在使用直连存储的传统Hadoop集群中,计算层和存储层紧密耦合,因此用户无法仅扩展其中一个。这一特点导致的缺陷在于:客户将由于需要更多的存储容量(非计算容量)而扩展Hadoop集群。但是,在扩展过程中,客户现在会添加更多的网络基础架构和计算基础架构。从总体利用率而言,这被证明非常低效和不灵活。


     通过消除Hadoop计算层和存储层之间的耦合,企业将可在需要时灵活地单独扩展其中一层(存储)或另外一层(计算)。这种灵活的按需扩展体系结构使客户可以仅在需要的时候购买所需的产品,从而使整个复杂的Hadoop环境变得更加有效。借助于该功能,组织起初可以只构建一个小型体系结构,然后在需要时进行横向扩展,最高可在使用OneFS的Hadoop存储层上获得85GB/s的并发吞吐量。使用OneFS来满足Hadoop存储需求的一个重要优势是符合Apache Hadoop的要求,如此,组织即可灵活地选择理想的Hadoop版本,供Hadoop数据分析工作流使用。




其它参考文章:

【存储入门必读】存储基础知识



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 备份系统的设计和备份技术的选择 私有云投资回报率:提高开发人员效率 私有云投资回报率:关键衡量指标 私有云投资回报率:压低运营成本 揭秘Pivotal:你我身边最熟悉的陌生人,其实是富二代技术大牛!
猜您喜欢 python零基础打印 附视频 [Android] 应用崩溃(Crash)日志报告 安装Icinga Web2所需服务 再叙AngularJS 跳过那些坑,创业者必备的产品开发知识