微信号:iteblog_hadoop

介绍:每两天一篇关于Hadoop、Flume、Spark、Hbase、Hive、Zookeeper、Mapreduce、HDFS相关的技术博文,大数据技术博客:http://www.iteblog.com,或者Google\百度搜索 过往记忆

Open Distro for Elasticsearch:AWS 自家版本的开源&nb

2019-03-14 08:15 Hadoop技术博文

本文原文(点击下面阅读原文即可进入) https://www.iteblog.com/archives/2523.html。

AWS 于近期发布了自家版本的开源 ElasticSearch :Open Distro for Elasticsearch。我们都知道,Elasticsearch 是一个分布式面向文档的搜索和分析引擎。 它支持结构化和非结构化查询,并且不需要提前定义模式。 Elasticsearch 可用作搜索引擎,通常用于 Web 级日志分析,实时应用程序监控和点击流分析,在国内外有很多用户使用。AWS 通过 AWS Elasticsearch Service 提供自己的软件版本,这是一种托管产品,有利于用户在其云基础设施上部署、运营和扩展 Elasticsearch 集群。

如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

为什么 AWS 要开发 Open Distro for Elasticsearch

AWS 的云架构战略副总裁 Adrian Cockcroft 认为 Open Distro for Elasticsearch 之所以必要是因为 Elasticsearch Global BV(Elasticsearch 的商业主导公司,简称 Elastic)通过在其代码库中添加大量专有软件来“模糊轨道”(blurs the tracks)。

添加专有代码来创建新功能本身并不是问题。大多数开源软件的商业支持者都这么做,然后通常还会添加一些支持服务,以便从软件中获利。但是就 Elasticsearch 而言,现在开源用户获得的内容方面“极其缺乏清晰度”。

Cockcroft 认为添加专有代码来创建新功能本身并不是问题。因为大多数开源软件背后商业公司都这样做,然后通常添加支持服务来赚取一定的费用。但就 Elasticsearch 而言,对于自由软件用户所获得的内容“缺乏清晰度”(lack of clarity)。

“例如,发行说明和文档都没有说明什么是开源代码和什么是专有的代码,”Cockroft说。 “企业开发人员可能会无意中对专有源代码应用进行修复或增强。这很难追踪和管理,可能导致违反许可证并被立即终止权利。”

AWS 担心的另一个问题是创新的焦点已从改进 Elasticsearch 的开源版本转向促进专有版本的实施。

Cockroft说:“我们已经与Elasticsearch的维护者Elastic讨论了我们担心的问题,包括主动提供大量资源,帮助支持社区驱动、非混合版的Elasticsearch。Elastic明确表示,它打算继续沿目前的道路前进。”

Cockroft说:“我们与 Elastic,Elasticsearch 的维护经理们讨论了我们的担忧,包括建议投入大量资源来开发一个未混合的,社区驱动的 Elasticsearch 版本。但是他们明确表示他们有意继续保持这种道路继续前进。”

基于上面的各种原因,亚马逊决定推出 Open Distro。

Open Distro 都有什么东西

Open Distro for Elasticsearch 是一款价值增添(value-added)的 Elasticsearch 发行版,100%开源(采用 Apache 2.0 许可证),并且由 AWS 支持。Open Distro for Elasticsearch 利用 Elasticsearch 和 Kibana 的开源代码(Kibana 是 Elasticsearch 的数据可视化插件)。Open Distro for Elasticsearch 不是 ElasticSearch 的一个分支。

除了 Elasticsearch 和 Kibana 之外,第一个版本还包括高级安全功能,事件监视和警报,性能分析和 SQL 查询功能。 除了源代码仓库之外,Open Distro for Elasticsearch 和 Kibana 还可以作为 RPM 和 Docker 容器使用,可以单独下载 SQL JDBC 和 PerfTop CLI。

Security

这个插件支持节点到节点的加密,五种类型的身份验证(basic,Active Directory,LDAP,Kerberos 和 SAML),多个级别(集群,索引,文档和字段)支持基于角色的访问控制,支持审计日志记录和跨群集搜索,以便集群中的任何节点都可以通过集群中的其他节点运行搜索请求。


如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

事件监控和报警

当来自一个或多个 Elasticsearch 索引的数据满足特定条件时,可以通过这个功能进行监控报警。例如,如果应用程序在一小时内记录超过五个 HTTP 503 错误,您可以通知 Slack 通道。 监控基于已经设置调度运行的作业,根据触发条件检查索引,以及在触发条件时发出警报。

如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

深度性能分析

性能分析器允许我们查询 Elasticsearch 指标以及详细的网络,磁盘和操作系统统计信息,从而深入了解系统瓶颈。 即使 Elasticsearch 处于压力之下,性能分析器也可独立运行而不会对性能产生任何影响。这是个 REST API,我们可以通过编程方式访问指标,也可以使用 PerfTop CLI 可视化工具来深入了解我们的系统。

如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

SQL 支持

Open Distro for Elasticsearch 使已经熟悉 SQL 的用户可以轻松地与 Elasticsearch 集群进行交互。 SQL 提供了40多种函数,数据类型和命令,包括 join 支持和直接导出到 CSV 文件。这个组件支持将 SQL 翻译成 Elasticsearch JSON,同事还支持 JDBC driver,这允许我们将它与 BI 系统进行集成。



如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop


猜你喜欢

欢迎关注本公众号:iteblog_hadoop:

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT

回复 HBase_book 下载 2018HBase技术总结 专刊

0、回复 电子书 获取 本站所有可下载的电子书

1、为什么不建议在 HBase 中使用过多的列族

2、Elasticsearch 6.3 发布,你们要的 SQL 功能来了

3、列式存储和行式存储它们真正的区别是什么

4、分布式原理:一致性哈希算法简介

5、分布式快照算法: Chandy-Lamport 算法

6、Kafka分区分配策略

7、分布式原理:一文了解 Gossip 协议

8、干货 | Apache Spark 2.0 作业优化技巧

9、HBase Rowkey 设计指南

10、HBase 入门之数据刷写详细说明

11、更多大数据文章欢迎访问https://www.iteblog.com及本公众号(iteblog_hadoop)
12、Flink中文文档:
http://flink.iteblog.com
13、Carbondata 中文文档
http://carbondata.iteblog.com

 
Hadoop技术博文 更多文章 一篇文章了解 Hadoop Shuffle 过程 要想成为架构师这几点你必须关注! Apache Spark 3.0 将内置支持 GPU 调度,文末有福利 一篇文章搞清楚 HDFS 基本原理 为什么要使用MQ消息中间件?
猜您喜欢 怎样成为合格的面试官/面试者|中生代 韩国互联网设计风向标 『Naver Design』厉害在哪里? 互联网和科技如何塑造了今天的科比? Xeon SP服务器新技术:防代码入侵从BIOS做起 为什么要开始写作