微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

EMC存储上的大数据 – HDFS存储可靠性

2016-07-08 17:23 EMC中文技术社区

     企业一直在处理快速增长的数据量(也称为大数据)的存储和管理问题。本文为系列的第七篇,介绍传统HDFS数据存储与使用EMC Isilon在数据存储方面可靠性的对比。

 

     企业为了从其Hadoop分析投资中获取最大价值,企业需要富有弹性的大数据存储基础架构。在传统Hadoop集群中,用户必须依赖于自定义的子数据块CRC校验和来提供硬件层数据保护,并且在HDFS层使用镜像技术以保持某种级别的数据冗余。但是,在规模较大的情况下,这会成为一个非常高成本的方案。如果通过EMC Isilon作为存储层,Isilon的数据保护是在OneFS文件系统级别实施的,因此要使新的保护和性能方案可用,只需执行OneFS软件升级即可。OneFS使用经过广泛验证的Reed-Solomon擦除编码算法来执行其奇偶校验保护计算。在文件界别应用保护,使得集群可以快速高效地恢复数据。信息节点、目录和其他元数据在于其引用的数据块相同或更高的级别进行保护。由于所有数据、元数据和向前纠错(FEC)数据跨多个节点条带化,因此不需要专用的奇偶校验驱动器。这不仅可以防止出现单点故障和瓶颈,还使文件重建成为一个高度并行化的过程。


     OneFS还支持多种混合保护方案。这包括N+2:1和N+3:1,前者可针对两个驱动器故障或者一个节点故障提供保护,后者可针对三个驱动器故障或一个节点故障提供保护。对于高密度节点配置而言,这些保护方案特别有用。万一发生多个设备同时故障的情况,以至于文件“超过了其保护级别”,则OneFS将尽可能重新保护所有可保护的内容,并且将与受影响的个别文件相关的错误报告到Isilon集群的日志。

 

 

Isilon还支持多项保证数据可靠性功能,例如:


  • 日志文件系统:每个Isilon节点都配备了一个由双电池支持的NVRAM卡,以保护节点的文件系统。

  • 主动节点/设备故障:OneFS将主动删除任何达到特点的已检测ECC错误阀值的驱动器,自动重建该驱动器中的数据并将其定位至该集群中的其他位置。整个过程完全自动化,无需人工干预。

  • Isilon数据完整性:ISI数据完整性(IDI)是一种通过32位CRC校验和防止文件系统结构损坏的OneFS过程。所有Isilon数据块(包括文件和元数据)都利用校验和验证。

  • 协议校验和:OneFS为远程数据块管理(RBM)协议数据提供了校验和验证。RBM是Isilon开发的机遇RPC的单播协议,可供在后端集群互连上使用。

  • 动态扇区修复:DSR功能可用来隔离损坏的磁盘扇区,重新向完好的数据以便在其他位置重新写入。

  • Mediascan:MediaScan在OneFS中的作用是检查磁盘扇区并部署DSR机制,以便强制磁盘驱动器修复他们可能遇到的任何扇区ECC错误。

 

总之,在HDFS存储层使用EMC Isilon存储,可以避免多种传统Hadoop存储实施的许多缺点,如下所示:

 


其它参考文章:

EMC存储上的大数据 – Hadoop软件概述

EMC存储上的大数据 – Hadoop生态系统与体系结构

EMC存储上的大数据 – 利用大数据增强业务可见性

EMC存储上的大数据 – HDFS on Isilon(一)

EMC存储上的大数据 – HDFS on Isilon(二)

EMC存储上的大数据 – HDFS on Isilon(三)



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 备份和归档的区别 云计算的三种模型:公有云、私有云和混合云 正确描述IO类型 【大咖讲网络】谁动了我的网络 浅析I/O处理过程与存储性能的关系
猜您喜欢 9点1氪:搜狗启动赴美 IPO,募资6亿美元;高通要求苹果禁止在中国销售 iPhone;新浪微博CEO自曝新 Rails: 如何避免N+1查询问题 计算姬 一见钟情 惊!程序源另一半原来是干这工作的!