微信号:dellemc_tech

介绍:为戴尔易安信客户提供技术支持服务,为广大IT行业用户分享技术文章与行业信息。

EMC存储上的大数据 – Hadoop生态系统与体系结构

2016-06-30 17:42 EMC中文技术社区

     企业一直在处理快速增长的数据量(也称为大数据)的存储和管理问题。原有的存储经扩展后缀让能勉强跟上计算容量增长的步伐,但是用来分析该大数据以得出宝贵见解的工具却落入后了。Hadoop是一款经专门设计的创新性开源大数据分析引擎,旨在最大程度地缩短从企业的数据集到处宝贵见解的时间。

    

     本文为系列的第二篇,介绍Hadoop软件生态系统与体系结构。

 

Hadoop版本:


     Hadoop的版本由开源Apached Foundation在apache.org中维护。其他所有版本都是扩展Apache Hadoop或根据其构建的派生版本。下面是目前提供的常见Hadoop版本列表:

  • Apache Hadoop

  • Cloudera CDH3

  • Greenplum HD

  • Horonworks数据平台

    

     以上列表并未详尽列出目前提供的所有Hadoop版本,而只是简单列出了流行的选择。


 

Hadoop生态系统:


     以下是客户为使用Hadoop分析数据而运行的软件堆栈。生态系统组件是Hadoop堆栈之上的附加组件,面向分析工作流提供附加功能和优势。该领域中一些流行的选择包括:

 

 

  • Hive:一个类似于SQL的查询接口,适用于HDFS中存储的数据。

  • HBase:一个面向随机读/写列的高性能结构化存储系统,位于HDFS之上。

  • Pig:高级数据流语言和执行框架,适合于并行计算

  • Manhout:使用Hadoop的可扩展的计算机学习算法

  • R(RHIPE):细分并重组大型复杂数据集的统计分析

    

     以上并未详尽力促所有的Hadoop生态系统组件。

 


Hadoop体系结构:


     下面是一个体系结构图,其中显示了在一个Hadoop计算集群上运行的所有核心Hadoop组件。

 

 

该计算环境中发生的常规交互包括:

  • 必须将数据接收到HDFS层内。

  • 使用MapReduce对数据进行计算或分析。

  • 在HDFS或其他基础架构中存储或导出结果,以适应整个Hadoop工作流。


     上述体系结构还表明NameNode是该环境中的独立组件,如果它有任何问题,则整个Hadoop环境都将变得不可用。


 

其它参考文章:

EMC存储上的大数据 – Hadoop软件概述

EMC存储上的大数据 – 利用大数据增强业务可见性

EMC存储上的大数据 – HDFS on Isilon(一)

EMC存储上的大数据 – HDFS on Isilon(二)

EMC存储上的大数据 – HDFS on Isilon(三)

EMC存储上的大数据 – HDFS存储可靠性

EMC存储上的大数据 – 基础架构与数据分析

EMC存储上的大数据 – 敏捷分析与可行性洞察

EMC存储上的大数据 – 大数据分析实施路线

EMC存储上的大数据–软件定义存储模型

EMC存储上的大数据 – 软件定义存储数据服务与HDFS

EMC存储上的大数据 – 面对大数据安全挑战

EMC存储上的大数据 – 数据推动高效安全

EMC存储上的大数据 –安全分析阶段方法

EMC存储上的大数据 – 安全部署优势



更多精彩内容,请点击阅读原文”进行查看!

如何每天都能收到如此精彩的文章?

①点击右上角点击查看官方账号”→点击关注

②长按并识别下图中的二维码,直接访问EMC中文支持论坛


 
戴尔易安信技术支持 更多文章 备份和归档的区别 云计算的三种模型:公有云、私有云和混合云 正确描述IO类型 【大咖讲网络】谁动了我的网络 浅析I/O处理过程与存储性能的关系
猜您喜欢 途牛首届编程大赛今日火热开赛! A*,那个传说中的算法 云端基础设施市场2017年增长45%,但2018年面临挑战 广深路上 硬盘满满10个G,我只是想透过数据看本(美)质(女)而已