微信号:hadoop-123

介绍:最知名的Hadoop/Spark/Docker大数据技术基地,分享Hadoop技术内幕,Hadoop最新技术进展,发布Hadoop相关职位和求职信息,Hadoop技术交流聚会、讲座以及会议等.

Apache、CDH3、CDH4和CDH5四个Hadoop版本的不同

2013-12-01 19:41 董西成

写在前面

今天下午拿到了昨天晚上在当当网下单购买的自己新书《Hadoop技术内幕:深入解析YARN架构设计与实现原理》,还是小激动了一把,接下来几天将仔细阅读这本书,将里面的错误全部修正一边,争取能够在第二次印刷时改正过来。根据我的经验,新书第一次印刷时错误会非常多,细心的读者会发现非常多的错误,有时会影响阅读体验,所以第一时间纠正这些错误非常关键。

经常有人疑惑apache hadoopCDH版本有什么区别,到底应该使用CDH还是apache版本?

Apache hadoop是最原生的版本,由于apache开源许可的规定,任何个人或者机构可以对它进行修改,且改后的代码开源或者闭源都,这使得hadoop发行版非常多,其中cloudera发行版(CDH)是最有名的版本之一,这个版本也是100%开源,但cloudera公司为它增加了很多新的特性,并且将hadoop生态系统中各个软件打包在一起,防止不同版本之间组合带来的问题,比如apache版本的用户可能遇到“hadoop 2.2.0应该选用哪个hive版本”这样的问题,CDH版本便不会遇到这种版本选择问题。

下面介绍一下cdh3cdh4cdh5这三个版本的不同

CDH3是在apache hadoop 0.20.2基础上发展起来的,不断打入新的patch,目前最高版本是cdh3u6,这个版本可认为与最新的apache hadoop 1.x.x版本等价,只不过版本命名方式不同而已。Cdh3这个系列版本已经停止更新和维护。

CDH4是在apache hadoop 0.23.x基础上发展起来的,不断打入patch,目前是稳定版,属于下一代hadoop,即包含HDFS HAYARN等系统或特性。

CDH5是在apache hadoop 2.2.0基础上发展起来的,目前只有beta版,尚不稳定,cdh5cdh4之间的区别和apache hadoop 2.2.0hadoop 0.23.x版本之间的区别是一样的,它们都属于hadoop 2.0,包含HDFS HAYARN等系统或特性,但它们是不兼容的,即运行在cdh4之上的框架,比如sparkstorm等,不能直接运行在cdh5之上,因为yarn的编程接口发生了不兼容的变化。需要说明的是,CDH5apache hadoop 2.2.0进行了优化,比如解决了YARN 单点故障问题。

如果你们正在使用cdh3版本,准备升级到CDH4hadoop 2.0),我建议你们先等一等,待CDH5发布稳定版后,直接升级到CDH5,因为CDH5是基于稳定的apache hadoop 2.2.0版本开发的,具有更多的新特性,更强健稳定,且CDH5不能与CDH4兼容(主要指YARN不兼容,因为YARN编程API做了不兼容的修改)。

 
hadoop123 更多文章 Spark第二次北京Meetup活动(主题是Spark Streaming) 浅谈Hadoop YARN资源隔离机制 分享两份Hadoop与Spark学习资料 Hadoop职位招聘 Apache Twill—YARN上应用程序开发包
猜您喜欢 WEB开发资源整理 Duang Duang Duang! 基于Mesos和Docker的分布式计算平台 Tomcat深入研究文章之十一(Tomcat classloader源码分析) 五一不劳动,开测让你坐享其成!