微信号:transwarp-sh

介绍:提供更为便捷的关于大数据软件开发的交流平台

Transwarp Data Hub Version 4.6:安装手册(一)

2017-01-12 17:52 星环科技

今天,我们将为大家带来星环大数据平台Transwarp Data Hub Version 4.6的电子文档,以方便大家阅读查看。它可以分为:安装手册,运维手册,Inceptor手册,Hyperbase手册,StreamSQL手册,Midas安装手册,安全手册,Discover手册,Waterdrop手册,Inceptor ODBC开发手册,Manager REST API手册,版本更新说明这12部分,后面将陆续为大家推出。下面是第一部分:TDH4.6安装手册。


安装手册目录

本次分享前3节:简介,安装准备,安装前的检查。

1.简介


1.1. Transwarp Data Hub介绍

Transwarp Data Hub(简称TDH)是国内首个全面支持Spark的Hadoop发行版,也是国内落地案例最多的商业版本,是国内外领先的高性能平台,比开源基于Hadoop MapReduce计算框架的版本快10x~100x倍。TDH应用范围覆盖各种规模和不同数据量的企业,通过内存计算、高效索引、执行优化和高度容错的技术,使得一个平台能够处理GB级到PB级的数据,并且在每个数量级上,都能比现有技术提供更快的性能;企业客户不再需要混合架构,TDH可以伴随企业客户的数据增长,动态不停机扩容,避免MPP或混合架构数据迁移的棘手问题。


星环科技的大数据平台TDH包含五个组成部分: Hadoop企业版,Inceptor分布式内存分析引擎,Hyperbase分布式实时在线数据处理引擎,Stream流处理引擎和Discover机器学习引擎,五个产品组件构成了完整的大数据平台。

在统一的分布式存储之上数据平台上通过YARN提供统一的资源管理调度,结合LDAP与Kerberos提供完备的权限管理控制,不同的部门以及使用租户可以按需创建计算集群访问其授权数据,包括基于Spark计算框架的SQL类统计分析应用与数据挖掘类应用,或者基于MapReduce计算框架的应用。同时,平台通过使用Hyperbase结合Inceptor,为用户提供基于SQL的高并发的查询以及分析能力。在数据导入与交换方面,数据平台提供多样的数据导入与交换形式,包括Flume提供海量数据文件的聚合汇总到HDFS的功能,FTP Over HDFS提供文件通过FTP传入HDFS的通道,Sqoop提供与关系型数据库的数据交换以及Kafka消息队列集群接收实时流数据。此外,TDH数据平台提供实时的流处理能力,通过消息队列Kafka接收实时数据流,做到数据不丢不重,通过Stream基于Spark Streaming提供类似与批处理系统的计算能力、健壮性、扩展性的同时,将数据时延降低至秒级甚至毫秒级。

1.2. 集群结构

创建一个集群前,首先必须对整个集群进行规划,规划包括集群节点、网络、软件模块分布等部分。运维人员必须保证将用于构造集群的服务器满足Transwarp Data Hub系统的基本要求。这些要求包括硬件要求、软件要求、内存要求、网络要求等。第二章将对这些要求进行详细介绍。Transwarp Data Hub通过网络连接所有服务器并实现整个集群的服务,因此架构师需要仔细计算应用服务对网络带宽和延迟的需求并规划整个网络拓扑,如您需要规划帮助可以咨询星环科技的售前人员和架构师。在应用规划中您需要根据应用的特点决定哪些软件模块和组件需要安装。我们将列出安装前的硬件和软件要求,在满足这些要求的基础上,您才可以开始进行系统安装。系统安装包括以下步骤:

  1. 在集群中所有的节点上安装所需要的操作系统。

  2. 在管理节点上安装Transwarp Manager。

  3. 通过Transwarp Manager来把所有的节点加到集群中、对这些节点部署相关软件和配置,并运行服务。

2. 安装准备


2.1. 硬件环境要求

Transwarp Data Hub(简称TDH)提供集群服务来保证服务的高可用性,因此集群系统必须是3台以上物理服务器组成,每台服务器必须具备以下最低配置:

  • 2颗6核心或以上带超线程x86指令集CPU的服务器

  • 64GB以上内存

  • 2个300G以上的硬盘做RAID1,作为系统盘

  • 4个以上的300GB容量以上的 硬盘作为数据存放硬盘

  • 2个千兆以上网卡

为实现较好的性能并实现最高的性价比,TDH针对集群内不同的模块有不同的推荐配置,Namenode和Transwarp Manager推荐使用以下配置:

  • 2颗6核带超线程的x86指令集CPU服务器(比如Intel(r) Xeon(r) E5-2620 v2 CPU)

  • 128GB以上内存

  • 6个600G以上的硬盘做RAID1作为系统盘和管理数据

  • 2个千兆以上网口的网卡

数据节点(Datanode)的硬件配置应该根据不同应用的特点进行选配,使用Inceptor,Discover和Stream配置的用户需要比较高的计算能力的服务器,其数据节点的推荐配置如下:

  • 2颗8核心或以上带超线程x86指令集CPU的服务器(比如Intel® Xeon® E5-2650 v2)

  • 128GB以上内存

  • 2个300G以上的硬盘做RAID1,作为系统盘

  • 10个以上的2TB容量以上的硬盘作为数据存放硬盘

  • 2个千兆以上网卡


系统盘可以做RAID1。但是数据盘不需要RAID,若需要RAID,请做RAID0。

2.2. 操作系统要求

所有集群中的节点,必须运行于同一操作系统。Transwarp Data Hub支持以下操作系统见。

操作系统 版本

Red Hat Enterprise Linux

6.4、6.5、6.6

CentOS

6.4、6.5、6.6

SUSE Linux Enterprise Server

11 SP3、11 SP4

Asianux Server 4 (Hiranya)

SP4

2.3. Java环境要求


如果您的集群的机器上还没有安装JDK,您无需自行安装JDK——我们提供的Transwarp Data Hub安装工具会帮您安装。如果您的机器上有不同版本的JDK,可能会和安装工具安装的JDK发生冲突。请在安装前运行下面指令来查看您的JDK版本。

java -version

如果版本和下面列出的不一样,请和我们联系。

TDH目前支持以下JDK版本:

  • Oracle JDK 1.7

2.4. 支持的浏览器

Transwarp Data Hub采用Web页面作为平台管理界面,管理平台支持以下浏览器

浏览器 版本

Google Chrome(推荐)

36.0.1985.143及以上

FireFox

36.0及以上

Safari

7.0.2及以上

Internet Explorer(不推荐)

不支持

3. 安装前的检查


3.1. 系统磁盘分区要求

系统安装和运行需要占用硬盘空间,在安装前操作系统硬盘必须留出200GB空间。 对磁盘进行分区时需要遵守以下几点要求:

  • 至少要分出swap和加载于“/”的系统分区。

  • 推荐系统分区大小为100GB~300GB,并将该分区挂载到/目录。

  • 推荐把每个物理磁盘挂载在/mnt/disknn (nn为1至2位的数字) 上不同的挂载点。建议使用ext4文件系统。每个这样的目录会被管理节点自动配置为HDFS DataNode的数据目录。

  • HDFS DataNode的数据目录不能放在系统分区,以避免空间不足和IO竞争。同时也建议不要将数据分区和系统分区放在同一块磁盘上以避免IO竞争。除非整个HDFS规划空间不足,否则不要在系统分区所在磁盘上创建数据分区。

例 1. 磁盘资源不富余时的规划

某台机器有两块硬盘,容量都为600GB,分区及挂载目录将如下,文件类型推荐为ext4,其中/dev/sda1用作系统分区:

文件系统 大小 挂载目录 文件系统类型

/dev/sda1

100GB

/

ext4

/dev/sda2

32GB


swap

/dev/sda3

100GB

/var/log

ext4

/dev/sda4

368GB

/mnt/disk1

ext4

/dev/sdb1

600GB

/mnt/disk2

ext4

注意,这是磁盘资源不富余情形下的规划。如果磁盘资源比较富余,建议操作系统安装在单独磁盘上,防止数据分区与系统分区造成数据读写竞争,如下一个例子。

例 2. 磁盘资源富余时的规划

某台机器有6块硬盘,容量都为600GB,分区及挂载目录将如下,文件类型推荐为ext4,其中一块磁盘用作系统分区:

文件系统 大小 挂载目录 文件系统类型

/dev/sda1

400GB

/

ext4

/dev/sda2

32GB


swap

/dev/sda3

168GB

/var/log

ext4

/dev/sdb1

600GB

/mnt/disk1

ext4

/dev/sdc1

600GB

/mnt/disk2

ext4

/dev/sdd1

600GB

/mnt/disk3

ext4

/dev/sde1

600GB

/mnt/disk4

ext4

/dev/sdf1

600GB

/mnt/disk5

ext4

3.2. 内存容量要求

每个节点必须至少有64GB的RAM。根据节点所安装的Transwarp Data Hub服务,节点可能需要超过64GB的RAM。下表列出在节点上运行不同服务时,该节点所需的额外内存。

服务 要求

Management Server

8GB

HDFS NameNode

32GB

HDFS NameNode

32GB

HDFS Standby NameNode

32GB

HDFS DataNode

4GB

Inceptor Server

4GB

Inceptor executor

32GB

YARN ResourceManager

4GB

YARN NodeManager

4GB

NodeManager分配给Container的计算资源数

用户指定

ZooKeeper

4GB

HBase Master

4GB

具体节点需要内存的计算步骤如下所示:

  1. 确认所有会在节点上运行的TDH服务。

  2. 确认每个服务要求的内存容量。

  3. 将所有内存要求相加。

  4. 如果相加后内存要求小于64GB,则最低内存要求为64GB。如果相加后内存要求大于64GB,则最低内存要求为相加后的和。

比如,如果节点上运行以下服务:

  • HDFS DataNode

  • YARN ResourceManager

  • HBase RegionServer

  • YARN NodeManager分配给Inceptor executor为32G

则节点的内存容量要求如下(生产环境实际使用内存要结合具体的应用场景): 4GB+4GB+32GB+32GB=72GB

3.3. 网络设置

安装Transwarp Data Hub需要最低的网络为千兆以太网。当一台机器上有多个网络适配器时,用户可以在安装Transwarp Data Hub之前对其进行绑定配置。

3.4. 集群和网络拓扑要求

  • 决定集群中的节点数目。

  • 决定集群中的机柜数目及每个机柜的名称。

  • 决定每个机柜中的节点数目。

  • 决定每个节点所在的子网(或多个子网)。

  • 决定每个节点的主机名和IP地址。

  • 决定哪个机器是管理节点。

  • 决定哪些机器是NameNode。

  • 决定哪些机器是客户端,哪些机器运行TDH服务,或二者兼是。

  • 一旦主机名分配给NameNode,主机名则不能再更改。

  • 确定你知道要加入到TDH集群中的每个节点的root密码。

  • 管理节点必须和集群中的其他节点属于同一子网。

  • 决定在集群中使用哪些组件。

  • 决定网络带宽和交换机背板带宽。决定交换机型号。

  • 决定如何连接到交换机。必须知道需要用到哪些以太网端口和是否需要绑定。

  • 确定每台机器的IP地址和主机名。决定如何分配IP(使用DHCP或静态分配)。决定如何解析主机名(使用DNS或/etc/hosts)。如果使用/etc/hosts,管理节点将负责更新集群中每台机器的/etc/hosts。

3.5. NTP服务设置

决定如何进行时间同步。管理节点将负责所有服务器上的时间的同步,但您需要决定是否使用外部的NTP服务。如果不使用外部NTP服务,集群中所有服务器的时间是相同的,但这个时间有可能不是标准时间,这有可能导致集群与外部连接时产生错误。

3.6. 安全设置

禁掉SELinux和iptables(Transwarp Manager会自动禁掉SELinux和iptables)。

3.7. 系统的推荐设置

以下推荐配置可帮助确保TDH集群的性能优化和可管理性。

  • 节点的主机名解析。注意,主机名只能由英文、数字和“-”组成,否则之后的安装会出现问题。

  • 要同时添加一组节点到集群中。

  • 要减少网络延迟,集群中的所有节点都必须属于同一子网。

  • 每个节点应配置一块10GE的网卡,用于节点间的通信和执行集群中需要网络连接的任务。

  • 如果节点没有使用10GE的网卡,则可使用网卡绑定以便将多个网卡组合在一起以提升网络流量。绑定的网卡必须使用工作模式6。

  • 每个节点推荐最小的系统分区,至少有300GB的磁盘空间。

  • 每个节点应至少有6T的可用磁盘空间用于HDFS。

  • 如果可能,避免将物理磁盘分为多个逻辑分区。除了系统分区外,每个物理磁盘应当仅有一个分区,且该分区包含整个物理磁盘。

  • 仅使用物理机器,不要使用虚拟机器。虚拟机可能会明显导致HDFS I/O的缓慢。

  • 节点所在的单个或多个子网不允许有其他机器。

  • 集群中不能同时有物理机器和虚拟机器。

  • 要确保集群中的机器不成为性能和I/O的瓶颈,所有机器必须有相似的硬件和软件配置,包括RAM、CPU和磁盘空间。

  • 每个节点应至少有64GB的内存。

  • 由于服务可能生成大量日志,推荐将/var/log放置在其他逻辑分区。这可保证日志不会占满根分区的空间。

  • 要加快对本地文件系统的读取,可使用noatime选项挂载磁盘,这表示文件访问次数不会被写回。





回复关键字,获取更多资讯


简介 | 产品 | 技术 | 案例集 | 培训 | 白话大数据
评测   投资 | 新手上路 | Holodesk | TED视频
金融 | 电力 | 视频监控 | 运营商 |交通 
税务 | 电商 | 智能金融 | 医疗 | 快递


 
星环科技 更多文章 Transwarp Data Hub Version 4.6:安装手册(三) Transwarp Data Hub Version 4.6:安装手册(二) Transwarp Data Hub Version 4.6:安装手册(二) Transwarp Data Hub Version 4.6:安装手册(一) Transwarp Data Hub Version 4.6:安装手册(一)
猜您喜欢 如何成为一个优秀的高级C++程序员 访谈 | 调试专家张银奎:读古籍、作古诗的“别致”技术人 Swift 关联类型 C语言教程:第三讲 数据类型的那些故事 腾讯WeTest参展北京GADC——为游戏而生,让品质发声