微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

Hadoop数据存储,Isilon配置Hadoop最佳实践

2017-09-20 21:28 EMC中国技术社区

本篇白皮书介绍了在EMC Isilon 集群中配置与管理HDFS服务来优化Hadoop分析数据存储的最佳实践。白皮书从以下几个角度介绍了配置与管理Hadoop数据存储的内容:

Isilon存储Hadoop架构概览

这部分对Isilon存储HDFS进行了概要性的介绍。EMC Isilon是一款横向扩展的NAS存储阵列,借助Isilon的操作系统OneFS和其完全分布式的Sharing Nothing全冗余架构,能够为Hadoop提供高性能、高可用、可扩展、灵活访问的、且便于管理的HDFS数据服务。利用Isilon作为HDFS存储,每个Isilon集群中的节点都能同时充当NameNode和DataNode,为File Block请求和数据流提供服务的同时还提供了高冗余。文中SmartConnect网络连接配置的部分介绍如何配置相应的DNS达成无单点故障的架构。Isilon支持将节点配置为存储池,可以与数据集关联,满足特定的性能需求。Isilon还能为Hadoop集成Kerberos验证。文中后面几个部分分别介绍了这些配置细节。


HDFS安装

第二部分HDFS安装提供了集成Isilon到Hadoop环境中的步骤,根据Hadoop规模规划Isilon节点,以及Isilon 中关于HDFS设置的命令、日志,创建目录与设置权限的命令等等。


不同Hadoop发布版的支持

描述了使用两个不同版本的Hadoop发布版(Cloudera和Pivotal HD)的时候要注意到的事项。

根据HDFS对Isilon进行调优

介绍了具体的参数设置,包括Block Size、HDFS Thread的数量、获取性能参数统计,配置MapReduce中间结果的存储,处理空间瓶颈,HDFS V2中的双NameSpace的配置等内容


SmartConnect网络连接配置

Isilon SmartConnect使用round-robin算法来分布Hadoop NameNode的会话,当Hadoop客户端第一次尝试连接到NodeNode的时候,OneFS将请求路由到为客户端提供服务的NodeNode上,当第二个客户端发送请求的时候,Isilon会将服务请求路由到另外一个集群中的节点上。以此类推,Isilon会将服务请求均匀的分布到集群中的所有节点上从而提高整体的服务性能。白皮书的这部分内容介绍了SmartConnect中的一些相关概念、NameNode和DataNode的失效处理配置、访问接口的多IP地址设置、子网与DNS配置等等。


存储池配置

通过Isilon的SmartPool,用户可以创建节点池、文件策略、存储层等功能。节点池允许用户将一组Isilon节点放入一个组中并于数据集关联,满足性能方面的需求。文件策略允许用户按照文件类型、路径,大小等数据在存储与隔离数据。分层优化数据访问,将访问频繁的数据移动到更高性能的存储层中。本部分内容提供了SmartPool的配置建议,目录与文件的优化设置等内容。


配置Kerberos验证

这部分介绍Isilon如何配置Kerberos验证,包括与Active Directory集成、使用MIT Kerberos 5,以及Kerberos验证中所遇到典型问题的处理方法。


综合来看,这篇白皮书很好地介绍了在Isilon上配置Hadoop存储HDFS的详细步骤。适合需要部署Hadoop的用户参考。




其它参考文章:

说说EMC解决方案中的那些产品和案例



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 谈重复数据删除技术的风险和预防之策 NAS环境中的备份 制定备份策略需要考虑哪些因素? 备份系统的设计和备份技术的选择 私有云投资回报率:提高开发人员效率
猜您喜欢 编程世界的那把锁 Java性能优化指南 ,及唯品会的实战(修订版) 让生产环境微服务更流畅的5种方式 Django系列教程12-表单(下) Docker基础技术:AUFS