微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

Hadoop虚拟化,大规模部署案例

2017-09-15 19:39 EMC中国技术社区

这是一个行业中真实的部署案例,解决方案演示了如何在一个虚拟化且集中存储的基础架构中部署Hadoop,实现Hadoop即服务HDaaS(Hadoop as a Service),为企业处理大规模的数据分析工作负载。白皮书就案例介绍了基础架构设计、项目中遇到的障碍、和最终完成的流程内容。同时,还包括了规划、配置、和最佳实践方面的细节。作为实施的结果,白皮书还验证了在这样一个集成的、虚拟化的环境中,可以为Hadoop提供了一个高性能、高扩展性、高效运行架构。


案例的背景是,技术运营部门原先使用传统的Hadoop集群架构为其他的几个业务部门提供例如日志分析、应用层的统计分析之类的大数据分析服务来帮助优化产品。其中,数字市场部门需要为客户的网站统计信息,这些数据的总量超过8PB,存储在EMC Isilon存储阵列中。数字市场部门需要对这些数据进行进行深入的分析来为客户的网站提升运行效率。但是如果要深入分析这些数据,传统的Hadoop架构存在这如下几种限制:


  • 数据成本高:分析任务需要一次性运行超过几百TB的数据,而将数据从现有的Isilon存储复制到Hadoop集群中是一件非常耗时的工作。

  • 扩展低效:为了满足大量数据处理的要求,在传统的架构中为现有的Hadoop集群添加更多的节点会比较低效。

  • 存在单点风险:而且传统的架构中的Hadoop Name Node只有两个(存储HDFS中元数据),这成为环境中的高可用瓶颈。


传统的Hadoop架构如下:


所以,为了解决这些问题,并让Hadoop环境可以以一种更加高扩展形式存在。他们决定构建一个集中化存储+虚拟化Hadoop集群节点的解决方案。架构如下:


解决方案的硬件拓扑结构:

其中:

  • Cisco UCS提供计算层与网络层的硬件。

  • EMC VNX提供Hadoop集群中VMware ESC Host和VM的存储。

  • EMC Isilon存储业务数据由Hadoop集群节点通过HDFS访问。

  • 借助VMware Big Data Extension(DBE)进行集成自动化管理。


试点项目的结果


环境部署完成后,试点项目(POC)从相对小型的数据集测试开始,并逐渐扩展大数据的总量,从60GB一次的MapReduce任务到450GB,从450GB到10TB,再从10TB一直到60TB,最后到65TB的单次MapReduce任务也能够顺利完成。而实现一次65TB的MapReduce任务,花费的团队在调试环境中的很多时间,文中列出了有关于内存配置、Yarn设置、Mapper设置、存储规划建议、CPU规划建议等等的相关调优参数。感兴趣的读者可以在P8-P9和P11的最佳实践部分中找到。


性能方面,团队对于将Isilon作为HDFS存储层集合虚拟化的Hadoop集群的表现非常满意。而且,这个解决方案中,用户可以简单地横向扩展虚拟Hadoop节点,帮助几何数级别提升任务的运行时间。而且这个过程比向传统的Hadoop添加节点来得省时省力。下面的图表中给出了一组以相同的物理运算资源,通过虚拟化分配更多的运行节点,所提升的性能的例子。图中的有关256 worker数据,每个节点分别只分配的1vCPU和7.25GB的内存,30GB的空间。而32 worker的配置是8 vCPU、58GB RAM、450GB空间。可以看到整体相同的计算资源,运行的性能却提升了超过一千倍。


存储效率方面,通过Isilon存储能够有效地节省数据空间,例如传统的Hadoop架构中,需要存储3份数据拷贝,那么如果是存储8PB的数据重消耗则是24PB。而通过Isilon存储8PB的数据只需要大约9.6PB的裸磁盘空间,空间节省率超过60%。除了空间方面,这种集中式的存储还能够有效的解决信息孤岛问题。通过启用Isilon数据湖,数据不单单只能通过HDFS访问,还能够支持其他NFS, FTP, SMP, HTTP, NDMB, SWIFT, 和OBJECT满足更多的企业需求。


综合来看,这篇解决方案验证了Hadoop可以在虚拟化和集中存储环境中的表现,并且虚拟化境中的管理与成本优势使得这种架构很易进行横向扩展,适合大规模部署的大数据分析Hadoop环境。




其它参考文章:

说说EMC解决方案中的那些产品和案例



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 RecoverPoint拷贝测试、生产数据恢复和故障切换的实践 Fibre Channel over IP protocol(FCIP)基本概念 如何在安装或更换硬件组件时避免静电放电损害(ESD) EMC和戴尔超融合是什么关系?这位CTO来告诉你! EMC备份数据到磁盘技术
猜您喜欢 学会演讲,主动抓住不该失去的机会 HTML5-炫丽的时钟效果Canvas绘图与动画 聊聊代码规范 除了吃鸡游戏,3D位置语音还可以用在哪里? keras实战︱人脸表情分类与识别:人脸检测+情绪分类